giovedì 9 aprile 2020

Relazioni di ricorrenza per la covarianza

Premessa

Abbiamo introdotto delle  relazione di ricorrenza sia per la media che per la varianza. Queste relazioni saranno molto utili al fine di costruire degli algoritmi numericamente stabili,  per questioni computazionali relative alla risoluzione di problemi di floating point. Sono state introdotte le seguenti relazioni di ricorrenza:


Abbiamo ricavato queste due  relazioni di ricorrenza, rispettivamente la media attraverso l'algoritmo di Knuth e la varianza attraverso l'algoritmo di Welford. Ora è utile ricavare un' analoga relazione per la covarianza di due variabili x e y. Perché è utile? perché il calcolo della covarianza ce la troviamo in altri tanti contesti ad esempio il calcolo del coefficiente di correlazione di Pearson. Cioè la determinazione della relazione tra due variabili. Quindi è una grandezza fondamentale che dobbiamo saper calcolare.

Il calcolo della covarianza

Siamo in un contesto bivariato, non l'osservazione di un unico carattere, ma  di  due caratteri sulle  nostre unità statistiche. Rappresenta la coppia di osservazioni di due caratteri x,y sulle nostra unità statistica i-esima. E scriveremo  la sum of product nel seguente modo:







Questa relazione ci permette di avere una relazione di ricorrenza  tra SPn e SPn-1. Nella formula della covarianza i prodotti dei rispettivi  scarti dalle medie di x e di y, ci dicono che tipo di prevalenza c'e' tra i due fenomeni x e y.

1) Se il risultato del prodotto è positivo, c'e' una prevalenza della associazione diretta tra i due fenomeni x,y.
2) Se il risultato del prodotto è negativo, c'è una prevalenza della associazione inversa.

 La covarianza con il suo segno ci  dice se siamo vicini ad una situazione  di proporzionalità diretta o altrimenti vicini ad una situazione di proporzionalità indiretta.

Indice di correlazione di Pearson

Ci interessa  quantificare il grado di associazione tra queste due variabili x ed y ed confrontare questo grado di associazione tra set  di unità statistiche diverse. Nasce la necessità di costruire un indice che vari tra due estremi, tra un minimo  e un massimo ben definito. In modo tale che  possiamo dire che il grado di associazione è min o max.
Vogliamo costruire un indice basato sulla normalizzazione della covarianza.



Il coefficiente di correlazione di Pearson, non è altro che  il rapporto della covarianza al suo max, o della sum of product rispetto al suo massimo. Siccome il numeratore può essere sia negativo che positivo, quando divido per il numeratore in valore assoluto, ottengo un indice che varia tra 1 e -1.

Nessun commento:

Posta un commento

applicazione13

- Svolgere l' Esercizio 4  indicato nel video 49 (processo aleatorio + ordini e calcolo PNL) - Completare l' Esercizio 4  aggiungen...