Il coefficiente di correlazione, è un indice che ci può servire per valutare il grado di interdipendenza tra due caratteri x ed y. E' compreso tra -1 e 1, ed indica se c'è un legame di proporzionalità diretta o inversa tra le due variabili considerate x ed y. La cosa interessante è cercare di stabilire se è possibile intravedere una relazione matematica tra le due variabili. A questo scopo fittiamo dei modelli matematici ai dati.
Regressione lineare
La più semplice relazione che si può cercare di intravedere tra le due variabili statistiche, è il legame lineare. Cosa ci interessa vedere?
Se è possibile rappresentare la relazione tra y e x con un modello di tipo lineare, ovvero sia rappresentabile con una retta. Ovviamente il modello lineare, potrebbe non essere adeguato per la rappresentazione dei dati. Perché i dati hanno un andamento che mal si adatta ad essere rappresentato da una relazione lineare. Ed è questo proprio lo scopo dell'analisi lineare: vedere se è possibile stabilire una relazione di tipo lineare e con che grado di accuratezza è possibile farlo. Se prendiamo un data set (x_i,y_i) con i = 1,...,n osservazioni relative a due variabili statistiche x e y. Siamo interessati a determinare una certa retta Y = βx + 𝞪 che sia il più possibile rappresentativa del legame lineare che c'è tra queste due variabili. Voglio una retta che sia la pi vicina possibile alla nostra nuvola di punti.
Prendiamo un punto generico y_i e x_i e si considera il corrispondente punto sulla retta cioè y✷ e cosa è ?
E' il valore che assumerebbe y nel caso in cui tra i due caratteri ci fosse veramente questa relazione lineare. Mentre invece y_i osservato è quello che abbiamo osservato nella realtà. Quindi y✷ è il valore che avremmo se questo modello ideale lineare rappresentasse esattamente la relazione tra i due caratteri. Mentre y_i osservato è quello che abbiamo osservato.
Obiettivo
Determinare quella particolare retta,con quei particolari parametri di β e 𝛂, che sono tali per cui risulta minima la somma delle distanze tra queste due quantità.
Quindi la funzione da minimizzare è appunto :
Facciamo la derivata di s rispetto ad β e 𝛂 e poi
risolviamo il sistema nelle due incognite e le vogliamo determinare t.c sostituiti dentro al sistema mi diano zero. Svogliamo i passaggi fino ad ottenere:Abbiamo trovato i due valori di β e 𝛂 t.c questa retta che esprime la relazione lineare tra le due variabili, sia la più vicina possibile alla nostra nuvola di punti.
Sostituendo questi valori ottenuti all'interno della retta,otteniamo:
Se sostituiamo ad y ed x rispettivamente il valore medio di y e di x, otteniamo la relazione 0 = 0. Cioè il punto che corrisponde al punto medio di x e di y si trova sulla retta di regressione. La retta passa per questo punto speciale. Dato dalle medie delle due variabili. Questo punto è detto baricentro della nuvola dei punti, cioè il centro di gravità della nuvola di punti.
Quindi questa proprietà sta ad identificare il fatto che la nostra retta passa vicino alla nuvola di punti.
Un altra proprietà è la seguente :
Possiamo ottenere la varianza totale come varianza di regressione(o spiegata) più varianza dei residui ( o non spiegata) cioè:
Il rapporto tra RSS e TSS cioè tra la (regression sum square )e la (total sum square) mi da il coefficiente di determinazione cioè L' R² :
identifica quanta parte della devianza totale è spiegata dal modello, questo indice è compreso tra 0 e 1. Vale 1 se tutti i punti osservati stanno sulla retta. E vale 0 se la variabilità dovuta alla regressione sia nulla. Quando le y_i teoriche coincidono tutte quante con la media con la retta orizzontale.
Nel caso particolare della regressione lineare, il coefficiente di determinazione è uguale al coefficiente di correlazione di Pearson al quadrato.
Nessun commento:
Posta un commento