giovedì 23 aprile 2020

Regressione lineare

Premessa

Il coefficiente di correlazione, è  un indice che ci può servire per valutare il grado di interdipendenza tra due caratteri x ed y. E' compreso tra  -1 e 1, ed   indica se c'è un legame di proporzionalità diretta o inversa tra le due variabili considerate x ed y. La cosa interessante è cercare di stabilire se  è possibile intravedere una relazione matematica tra le due variabili. A questo scopo fittiamo dei modelli matematici ai dati.


Regressione lineare

La più semplice relazione che si può cercare di intravedere tra le due variabili statistiche, è il legame lineare. Cosa ci interessa vedere?
Se è possibile rappresentare la relazione tra y e x con un modello di tipo lineare, ovvero sia rappresentabile con una retta. Ovviamente il modello lineare, potrebbe non essere adeguato per la rappresentazione dei dati. Perché i dati hanno un andamento che mal si adatta ad essere rappresentato  da una relazione lineare. Ed è questo proprio lo scopo dell'analisi lineare: vedere se è possibile stabilire una relazione di tipo  lineare e con che grado di  accuratezza è possibile farlo.  Se prendiamo un data set (x_i,y_i) con i = 1,...,n osservazioni relative a due variabili statistiche x e y. Siamo interessati a determinare una certa retta  Y = βx + 𝞪 che sia il più possibile  rappresentativa del legame lineare che c'è tra queste due variabili. Voglio una retta che sia la pi vicina possibile alla nostra nuvola di punti.




Prendiamo un punto generico y_i  e x_i e si considera il corrispondente punto sulla retta cioè y✷ e cosa è ?
E' il valore che assumerebbe y nel caso in cui tra i due caratteri ci fosse veramente questa relazione lineare. Mentre  invece y_i osservato  è quello che abbiamo osservato nella realtà. Quindi y✷ è il valore che avremmo se questo modello ideale lineare rappresentasse esattamente la relazione tra i due caratteri.  Mentre  y_i osservato è quello  che abbiamo osservato.

Obiettivo

Determinare quella particolare retta,con quei particolari parametri di β 𝛂, che sono tali  per cui risulta minima la  somma delle distanze tra queste due quantità.



Nella regressione lineare quello che si considera come distanza è semplicemente il quadrato delle differenze tra queste due osservazioni. Quindi tra le infinite rette, prendiamo quella che se esiste  minimizza questa quantità.

Quindi la funzione da minimizzare è appunto :





Facciamo la derivata di s rispetto ad β 𝛂 e poi 
risolviamo il sistema nelle due incognite e le vogliamo  determinare t.c sostituiti dentro al sistema mi diano zero. Svogliamo i passaggi fino ad  ottenere:
Abbiamo trovato  i due valori di  β 𝛂 t.c questa retta  che esprime la relazione lineare tra le due variabili, sia la più vicina possibile alla nostra nuvola di punti.
    









Sostituendo questi valori ottenuti all'interno della retta,otteniamo:



Se sostituiamo ad y ed x rispettivamente il valore medio di y e di x, otteniamo la relazione 0 = 0. Cioè il punto  che corrisponde al punto medio di x e di y si trova sulla retta di regressione. La retta passa per questo punto speciale. Dato dalle medie delle due variabili. Questo punto è detto baricentro  della nuvola dei punti, cioè il centro di gravità della nuvola di punti.
Quindi questa proprietà  sta ad identificare il fatto che la nostra  retta passa vicino alla nuvola di punti.

Un altra proprietà  è la seguente :

cioè la media delle teoriche è uguale alla media di quelle osservate, questo ci assicura sulla bontà della nostra interpolazione.

Possiamo ottenere la varianza totale  come varianza di regressione(o spiegata)  più varianza dei residui ( o non spiegata) cioè:

Il rapporto tra RSS e TSS cioè tra la  (regression sum square )e la (total sum square)  mi da  il coefficiente di determinazione cioè L'  :

identifica quanta parte della devianza totale è spiegata dal modello, questo indice è compreso tra 0 e 1. Vale 1  se tutti i punti osservati stanno sulla retta. E vale 0 se la variabilità dovuta alla regressione sia nulla. Quando le y_i teoriche  coincidono tutte quante con la media con la retta orizzontale.

Nel caso particolare della regressione lineare,  il coefficiente di determinazione è uguale al coefficiente di correlazione di Pearson al quadrato.






Nessun commento:

Posta un commento

applicazione13

- Svolgere l' Esercizio 4  indicato nel video 49 (processo aleatorio + ordini e calcolo PNL) - Completare l' Esercizio 4  aggiungen...