Abbiamo introdotto delle relazione di ricorrenza sia per la media che per la varianza. Queste relazioni saranno molto utili al fine di costruire degli algoritmi numericamente stabili, per questioni computazionali relative alla risoluzione di problemi di floating point. Sono state introdotte le seguenti relazioni di ricorrenza:
Abbiamo ricavato queste due relazioni di ricorrenza, rispettivamente la media attraverso l'algoritmo di Knuth e la varianza attraverso l'algoritmo di Welford. Ora è utile ricavare un' analoga relazione per la covarianza di due variabili x e y. Perché è utile? perché il calcolo della covarianza ce la troviamo in altri tanti contesti ad esempio il calcolo del coefficiente di correlazione di Pearson. Cioè la determinazione della relazione tra due variabili. Quindi è una grandezza fondamentale che dobbiamo saper calcolare.
Il calcolo della covarianza
Siamo in un contesto bivariato, non l'osservazione di un unico carattere, ma di due caratteri sulle nostre unità statistiche. Rappresenta la coppia di osservazioni di due caratteri x,y sulle nostra unità statistica i-esima. E scriveremo la sum of product nel seguente modo:
Questa relazione ci permette di avere una relazione di ricorrenza tra SPn e SPn-1. Nella formula della covarianza i prodotti dei rispettivi scarti dalle medie di x e di y, ci dicono che tipo di prevalenza c'e' tra i due fenomeni x e y.
1) Se il risultato del prodotto è positivo, c'e' una prevalenza della associazione diretta tra i due fenomeni x,y.
2) Se il risultato del prodotto è negativo, c'è una prevalenza della associazione inversa.
La covarianza con il suo segno ci dice se siamo vicini ad una situazione di proporzionalità diretta o altrimenti vicini ad una situazione di proporzionalità indiretta.
Indice di correlazione di Pearson
Ci interessa quantificare il grado di associazione tra queste due variabili x ed y ed confrontare questo grado di associazione tra set di unità statistiche diverse. Nasce la necessità di costruire un indice che vari tra due estremi, tra un minimo e un massimo ben definito. In modo tale che possiamo dire che il grado di associazione è min o max.
Vogliamo costruire un indice basato sulla normalizzazione della covarianza.
Il coefficiente di correlazione di Pearson, non è altro che il rapporto della covarianza al suo max, o della sum of product rispetto al suo massimo. Siccome il numeratore può essere sia negativo che positivo, quando divido per il numeratore in valore assoluto, ottengo un indice che varia tra 1 e -1.
Nessun commento:
Posta un commento