Residuo regressione lineare
ciao a tutti, avrei un dubbio sulla regressione lineare che credo sia di notazione.
il modello lineare ipotizzato è del tipo: $ y_i=a*x_i + b + z_i $ dove $z_i$ è l'aliquota aleatoria gaussiana di media nulla e varianza sigma^2 .
Date le stime dei minimi quadrati dei parametri a e b, l'equazione della retta dei minimi quadrati è $Y= a'*X+b' $ .
Ora viene definito il residuo $z_i= y_i-y'_i $ dove $ y'_i $ sono i valori stimati in corrispondenza di $x_i$.
il dubbio è relativo al perché venga utilizzata la stessa lettera ( $z_i$) per definire due quantità diverse, la prima relativa alla differenza tra il dato e il modello e la seconda invece relativa alla differenza col dato stimato.
il modello lineare ipotizzato è del tipo: $ y_i=a*x_i + b + z_i $ dove $z_i$ è l'aliquota aleatoria gaussiana di media nulla e varianza sigma^2 .
Date le stime dei minimi quadrati dei parametri a e b, l'equazione della retta dei minimi quadrati è $Y= a'*X+b' $ .
Ora viene definito il residuo $z_i= y_i-y'_i $ dove $ y'_i $ sono i valori stimati in corrispondenza di $x_i$.
il dubbio è relativo al perché venga utilizzata la stessa lettera ( $z_i$) per definire due quantità diverse, la prima relativa alla differenza tra il dato e il modello e la seconda invece relativa alla differenza col dato stimato.
Risposte
Allora nel modello lineare la $ y_i $ è legata alla v.a $z_i$, infatti $y_i=a*x_i+b+z_i$.
La retta di regressione invece rappresenta il valore atteso condizionato. Quello su cui non mi trovo però è che nel modello di regressione fa riferimento ai parametri veri $a$ e $b$ e non alla loro stima quindi ad $ \hat{a} $ e $ \hat{b} $ il cui valore attesto è il parametro vero.
L'errore $z_i$ ipotizzo sia relativo alla differenza $y_i-a*x_i+b$ per come è scritto il modello lineare, dove i parametri considerati non sono quelli stimati.
$\hat{y_i}=a*x_i+b$ rappresenta infatti la retta di regressione teorica che è diversa da quella ottenuta stimandone i parametri col metodo dei minimi quadrati.
Per questo non mi trovo con l'espressione
$\hat{y_i}=\hat{a}*x_i+\hat{b}=y_i-z_i$ perché è come se uguagliasse i parametri stimati con quelli veri.
In aggiunta , quando si fa il test di dipendenza lineare, si valuta l'ipotesi $a=0$ che sottintende l'assenza di dipendenza lineare di $Y$ da $X$ e quindi una retta di regressione lineare (teorica, quindi con parametri veri $a$ e $b$) orizzontale.
Viene detto che quindi le $\hat{y_i}$ sono tutte stime corrette del valore atteso di $Y$ uguale a ($b$).
Nel test al numeratore si valutano le somme delle differenze quadratiche $ \sum_{k=1}^N (\hat{y_i}-\bar{y})^2 $. Ora se tra la $\hat{y_i}=a*x_i+b$ e $\hat{y_i}=\hat{a}*x_i+\hat{b}$ non ci fosse differenza, quella sommatoria dovrebbe venire zero perché se la retta di regressione teorica fosse orizzontale vorrebbe dire che ogni $\hat{y_i}$ è uguale a $\bar{y}$. Questo rimanda allora al dubbio espresso inizialmente. Spero di essere stato più chiaro.
La retta di regressione invece rappresenta il valore atteso condizionato. Quello su cui non mi trovo però è che nel modello di regressione fa riferimento ai parametri veri $a$ e $b$ e non alla loro stima quindi ad $ \hat{a} $ e $ \hat{b} $ il cui valore attesto è il parametro vero.
L'errore $z_i$ ipotizzo sia relativo alla differenza $y_i-a*x_i+b$ per come è scritto il modello lineare, dove i parametri considerati non sono quelli stimati.
$\hat{y_i}=a*x_i+b$ rappresenta infatti la retta di regressione teorica che è diversa da quella ottenuta stimandone i parametri col metodo dei minimi quadrati.
Per questo non mi trovo con l'espressione
$\hat{y_i}=\hat{a}*x_i+\hat{b}=y_i-z_i$ perché è come se uguagliasse i parametri stimati con quelli veri.
In aggiunta , quando si fa il test di dipendenza lineare, si valuta l'ipotesi $a=0$ che sottintende l'assenza di dipendenza lineare di $Y$ da $X$ e quindi una retta di regressione lineare (teorica, quindi con parametri veri $a$ e $b$) orizzontale.
Viene detto che quindi le $\hat{y_i}$ sono tutte stime corrette del valore atteso di $Y$ uguale a ($b$).
Nel test al numeratore si valutano le somme delle differenze quadratiche $ \sum_{k=1}^N (\hat{y_i}-\bar{y})^2 $. Ora se tra la $\hat{y_i}=a*x_i+b$ e $\hat{y_i}=\hat{a}*x_i+\hat{b}$ non ci fosse differenza, quella sommatoria dovrebbe venire zero perché se la retta di regressione teorica fosse orizzontale vorrebbe dire che ogni $\hat{y_i}$ è uguale a $\bar{y}$. Questo rimanda allora al dubbio espresso inizialmente. Spero di essere stato più chiaro.
E' evidente che $(ax+b)$ e $(hat(a)x+hat(b))$ non sono la stessa cosa.
Una volta stimati i parametri con il metodo che preferisci, anche gli errori saranno stimati, dunque avrai anche $hat(z)$
In termini più precisi e generalizzando il problema a k regressori, abbiamo:
Modello: $ul(y)=Xul(beta)+ul(epsilon)$
Simbologia:
$ul(y)=$ variabile osservabile, vettore di dimensioni $(nxx1)$
$X=$ matrice dei dati deterministicamente osservabile di dimensioni $(nxxk)$
$ul(beta)=$ vettore non noto (da stimare) di dimensione $(kxx1)$
$ul(epsilon)=$ variabile aleatoria su cui vengono avanzate alcune ipotesi (è detta variabile aleatoria non osservabile), vettore di dimensione $(nxx1)$
Ipotesi di base:
1. $E[ul(epsilon)]=ul(0)$
2. $E[ul(epsilon)ul(epsilon)']=sigma^2I_n$
3. $"rango"(X)=k$ (la matrice $X$ ha rango pieno)
Commenti sulle ipotesi di base
1. se non fosse vera, basterebbe una traslazione.
2. la matrice varianze covarianze ha tutte le varianze uguali fra di loro e tutte le covarianze nulle $rarr$ sugli errori si fa l'ipotesi di omoschedasticità e sono non correlati. Per l'ipotesi 1. la varianza degli errori coincide con il loro momento secondo.
3. la matrice $X$ ha rango pieno, ovvero le sue colonne sono linearmente indipendenti $rarr$ non vi è collinearità. Tale ipotesi è cruciale per poter applicare il metodo dei minimi quadrati per stimare il vettore ignoto dei parametri.
Minimizzando lo scalare $ul(epsilon)'ul(epsilon)$ ci accorgiamo che:
$ul(epsilon)'ul(epsilon)=(ul(y)-Xul(beta))'(ul(y)-Xul(beta))$
è una forma quadratica limitata inferiormente dallo zero, per cui basterà derivare rispetto a $beta$ e porre uguale a zero
$ul(epsilon)'ul(epsilon)=ul(y)'ul(y)-ul(y)'Xul(beta)-ul(beta)'X'ul(y)+ul(beta)'X'Xul(beta)=ul(y)'ul(y)-2ul(beta)'X'ul(y)+ul(beta)'X'Xul(beta)$
$partial/(partialbeta)(ul(epsilon)'ul(epsilon))=-2X'ul(y)+2X'Xul(beta)=ul(0)$
$X'Xul(beta)=X'ul(y)$
ottenendo così la stima
$ul(hat(beta))=(X'X)^(-1)X'ul(y)$
Con le assunzioni fatte, $E(ul(y))=Xul(beta)$
Se ora sostituiamo $hat(beta)$ a $beta$ otteniamo anche le previsioni del modello (che sono comunque delle previsioni in media):
$ul(hat(y))=Xul(hat(beta))$
e l'errore di previsione è dunque
$ul(hat(epsilon))=ul(y)-ul(hat(y))$
L'errore di previsione può essere espresso anche in modi diversi (ma è sempre lui)
$ul(hat(epsilon))=ul(y)-Xul(hat(beta))$
$ul(hat(epsilon))=ul(y)-X(X'X)^(-1)X'ul(y)$
$ul(hat(epsilon))=[I-X(X'X)^(-1)X']ul(y)$
$ul(hat(epsilon))=[I-P]ul(y)$
Oppure anche
$ul(hat(epsilon))=(I-P)ul(y)=(I-P)(Xul(beta)+ul(epsilon))=(I-P)Xul(beta)+(I-P)ul(epsilon)$
essendo però
$(I-P)Xul(beta)=Xul(beta)-PXul(beta)=Xul(beta)-X(X'X)^(-1)X'Xul(beta)=ul(0)$
abbiamo
$ul(hat(epsilon))=(I-P)ul(epsilon)$
Tale ultima relazione NON permette di calcolare l'errore di previsione $ul(hat(epsilon))$ me è solo un modo (molto utile per stimare $sigma^2$) per esprimere $ul(hat(epsilon))=f(ul(epsilon))$
Infatti abbiamo
$E[ul(hat(epsilon))'ul(hat(epsilon))]=E[ul(epsilon)'(I-P)(I-P)ul(epsilon)]=E[ul(epsilon)'(I-P)ul(epsilon)]=(n-k)sigma^2$
Da cui consegue subito che
$hat(sigma)^2=(ul(hat(epsilon))'ul(hat(epsilon)))/(n-k)$ è stimatore non distorto per $sigma^2$
Tale stimatore è calcolabile così:
$hat(sigma)^2=((ul(y)-Xhat(ul(beta)))'(ul(y)-Xhat(ul(beta))))/(n-k)$
A questo punto, inserendo anche l'ipotesi più forte di Normalità nella distribuzione dei residui, per le note proprietà del modello Gaussiano:
$((ul(y)-Xhat(ul(beta)))'(ul(y)-Xhat(ul(beta))))/sigma^2~chi_((n-k))^2$
Per quanto riguarda una prima spiegazione sui residui della regressione mi pare sufficiente fermarmi qui. Spero che questa risposta possa essere utile a te ed anche ad altri utenti. Se ancora non fosse chiaro ti invito a consultare testi specifici[nota]Questa dispensa, ad esempio, è la prima che ho trovato; ad una prima veloce lettura mi pare che non vi siano refusi ma sulla rete ne puoi trovare a centinaia[/nota].
ho letto varie dispense ed anche in quel caso vengono sovrapposti i termini residuo ed errore, definendo prima il modello lineare come $y_i=a*x_i+b+z_i$ e poi $z_i=y_i-\hat{y_i}$ dove
$\hat{y_i}=\hat{a}*x_i+\hat{b}$ con i parametri stimati col metodo dei minimi quadrati.
Credo quindi sia un problema più che altro di notazione perché evidentemente la retta di regressione coi parametri veri non è uguale a quella con i parametri stimati e questo trova conferma nella sommatoria che ho scritto sopra.
Ad ogni modo grazie per la risposta.
$\hat{y_i}=\hat{a}*x_i+\hat{b}$ con i parametri stimati col metodo dei minimi quadrati.
Credo quindi sia un problema più che altro di notazione perché evidentemente la retta di regressione coi parametri veri non è uguale a quella con i parametri stimati e questo trova conferma nella sommatoria che ho scritto sopra.
Ad ogni modo grazie per la risposta.