Dubbi sul modello di Regressione lineare semplice
Salve, il libro che sto usando parte dal caso ideale della regressione lineare semplice (in cui a e b supponiamo di conoscerli) per arrivare poi alla retta di regressione stimata. In questa parte dice che date due v.a. Y e X legate da una relazione del tipo:
Y=aX+b+Z
Dove Z è un’altra v.a. che rende incerta la dipendenza lineare e prende il nome di errore. Per formulare una previsione di Y mediamente corretta e la più precisa possibile si individua la retta di regressione cioè la retta intorno al quale Z è una v.a. di media nulla e varianza minima.Detto ciò il primo dubbio che mi è venuto è:
1)Che intende dire per "una previsione di Y mediamente corretta e la più precisa possibile"....come è possibile stimare una v.a.?
Assunto questo come vero e studiato e ristudiato l'argomento mi sono chiesto:
2) la retta di regressione altro non è che la funzione di regressione nel caso in cui tra X e Y ci sia una dipendenza lineare?
3)le v.a. X e Y sono v.a. normali per via di Z (che assumiamo tra le ipotesi canoniche essere una v.a. normale di media zero e prefissata varianza)? devono essere per forza v.a. normali?
4) la Y è un vettore di n v.a. normali (fissato X) e di conseguenza attraverso la funzione di regressione stimiamo le n medie condizionate che stimeranno a loro volta gli n valori che Y può assumere?
Premettendo che ho cercato disperatamente su google già queste informazioni senza trovare soluzione volevo chiedere a chi volesse rispondermi anche qualche ulteriore libro di testo per chiarire questo argomento. Ringrazio per l'attenzione!
Y=aX+b+Z
Dove Z è un’altra v.a. che rende incerta la dipendenza lineare e prende il nome di errore. Per formulare una previsione di Y mediamente corretta e la più precisa possibile si individua la retta di regressione cioè la retta intorno al quale Z è una v.a. di media nulla e varianza minima.Detto ciò il primo dubbio che mi è venuto è:
1)Che intende dire per "una previsione di Y mediamente corretta e la più precisa possibile"....come è possibile stimare una v.a.?
Assunto questo come vero e studiato e ristudiato l'argomento mi sono chiesto:
2) la retta di regressione altro non è che la funzione di regressione nel caso in cui tra X e Y ci sia una dipendenza lineare?
3)le v.a. X e Y sono v.a. normali per via di Z (che assumiamo tra le ipotesi canoniche essere una v.a. normale di media zero e prefissata varianza)? devono essere per forza v.a. normali?
4) la Y è un vettore di n v.a. normali (fissato X) e di conseguenza attraverso la funzione di regressione stimiamo le n medie condizionate che stimeranno a loro volta gli n valori che Y può assumere?
Premettendo che ho cercato disperatamente su google già queste informazioni senza trovare soluzione volevo chiedere a chi volesse rispondermi anche qualche ulteriore libro di testo per chiarire questo argomento. Ringrazio per l'attenzione!
Risposte
"F3L1X93":
1)Che intende dire per "una previsione di Y mediamente corretta e la più precisa possibile"....come è possibile stimare una v.a.?
E' un modo barbaro di dire che il metodo dei minimi quadrati (di Gauss) minimizza l'errore fra i valori teorici di Y e quelli campionari e che il metodo non è solo uno stimatore corretto ma anche il migliore fra tutti i possibili stimatori corretti.
"F3L1X93":
2) la retta di regressione altro non è che la funzione di regressione nel caso in cui tra X e Y ci sia una dipendenza lineare?
Beh si. Ipotizzando una dipendenza lineare, si calcola la regressione

"F3L1X93":
3)le v.a. X e Y sono v.a. normali per via di Z (che assumiamo tra le ipotesi canoniche essere una v.a. normale di media zero e prefissata varianza)? devono essere per forza v.a. normali?
L'ipotesi di normalità non è ovviamente necessaria per calcolare la regressione in se ma bensì per poter sottoporre a test le stime. Nella sostanza, si suppone:
a) che le distribuzioni condizionate $Y|X_i$ siano indipendenti fra di loro (altrimenti i residui sarebbero correlati fra di loro)
b) e che siano tutte distribuzioni normali attorno alla media di Y, ovvero la media in popolazione...stimata dalla regressione (quindi i residui/errori che non sono altro che le $Y|X_i$ in cui sottrai la media, avranno la medesima distribuzione e media zero)
c) e infine si suppone anche che le varianze delle gaussiane abbiano tutte la medesima varianza in popolazione (omoschedasticità) questo perchè così possiamo usare tuti i residui come un'unica v.a e analizzarli. In caso contrario avremmo un solo errore campionario per ogni determinazione campionaria x,y e non ce ne faremmo nulla $(1)$...a meno che non possediamo già quella info!
"F3L1X93":
4) la Y è un vettore di n v.a. normali (fissato X) e di conseguenza attraverso la funzione di regressione stimiamo le n medie condizionate che stimeranno a loro volta gli n valori che Y può assumere?
Stimiamo i parametri di regressione che ci consentono di stimare le medie di Y condizionate...nell'ipotesi di linearità.
Ti ricordo solo che, in generale, due variabili aleatorie X e Y possono essere:
a) indipendenti, ergo nessuna delle due può essere utilizzata per predire l'altra.
b) dipendenti e avere una correlazione anche forte
c) dipendenti ma in media, quindi avere distribuzioni condizionate indipendenti (posta una v.a. indipendente)
d) dipendenti e in modo funzionale, ovvero esiste una relazione funzionale a tutti gli effetti fra le medie condizionate (fra cui quella lineare)
Come vedi le condizioni di dipendenza fra due v.a diventano sempre più restrittive.
Se è vera la a) allora tutte le altre sono false
Se è vera la b) allora le successive potrebbero anche essere vere ma non è detto
e via così.
$(1)$ Ok, non è corretta come affermazione dato che può capitare di avere campioni con la medesima determinazione X a cui corrispondono diverse realizzazioni di Y (nei casi discreti). Nei casi continui invece non capita sostanzialmnete mai.
Innanzitutto ti ringrazio per la risposta però non ho capito bene cosa intendi dire quando parli del perché usiamo l'ipotesi di omoschedasticità. Correggimi se sbaglio:
1) l'ipotesi di omoschedasticità viene utilizzata perché ci permette di considerare l'errore campionario una v.a. indipendente e identicamente distribuita rispetto agli altri errori campionari che commettiamo al variare delle $x_i$, e ciò ha come conseguenza che il modello sia accurato allo stesso modo per qualunque parte della popolazione ($x_i$).Quando ti correggi in (1) intendi fare riferimento al caso in cui la alla X corrispondono più variabili dipendenti Y?
Inoltre mi è sorto un dubbio, gli errori campionari che commettiamo per ogni $x_i$ sono le determinazioni di Z?
1) l'ipotesi di omoschedasticità viene utilizzata perché ci permette di considerare l'errore campionario una v.a. indipendente e identicamente distribuita rispetto agli altri errori campionari che commettiamo al variare delle $x_i$, e ciò ha come conseguenza che il modello sia accurato allo stesso modo per qualunque parte della popolazione ($x_i$).Quando ti correggi in (1) intendi fare riferimento al caso in cui la alla X corrispondono più variabili dipendenti Y?
Inoltre mi è sorto un dubbio, gli errori campionari che commettiamo per ogni $x_i$ sono le determinazioni di Z?
Ti rispondo partendo dall'ultima domanda.
Ma certo. Hai definito tu gli errori etichettandoli con "Z" (etichetta davvero orribile, di solito si usa $epsilon_i$)
$ hat(y)_i- y_i= Z_i $
ovvero le differenze fra i valori campionari $y_i$ e i valori $hat(y)_i$ prodotti dal modello di regressione.
Intendevo solo dire che in molti campioni dove X è una v.a. discreta, capita di avere diverse realizzazioni di $y_i$ per un dato $x_i$. Ti porto un esempio assurdo ma non me ne vengono in mente altri (LOL).
Immagina che tu sia persuaso che i prezzi $y_i$ degli appartamenti dipendano esclusivamente dal numero di stanze $x_i$.
Allora prendi i dati reali e stili una tabella che verosimilmente avrà diversi appartamenti con diversi prezzi ma tutti ad esempio con 4 stanze. Quindi avrai più realizzazioni di Y per una data X. No? Tutto qua.
Ma no. Come ho già scritto supponiamo per prima cosa che le distribuzioni condizionate siano indipendenti (poi sta a noi dimostrarlo!) persino se fossero tutte diverse.
Poi facciamo un'ipotesi sulle forme distributive, assumendo che le distribuzioni siano tutte identiche e normali. Quindi gli errori avranno la medesima distribuzione ma con media zero e varianza $ sigma _i^2$ (ritenendo quindi che gli errori siano perfettamente casuali e simmetrici, ovvero meri errori di "misurazione" come erano soliti dire una volta).
Quindi le distribuzioni degli errori possono benissimo essere tutte normali ma con diverse varianze, no?
Però possiamo anche assumere che abbiamo tutte la medesima varibailità (omoschedasticità) e così facendo allora gli errori collegati ad ogni $x_i$ sono la manifestazione della medesima v.a. in tutto e per tutto e quindi possiamo trattarli tutti insieme per sottoporre a test le ipotesi.
"F3L1X93":
Inoltre mi è sorto un dubbio, gli errori campionari che commettiamo per ogni $x_i$ sono le determinazioni di Z?
Ma certo. Hai definito tu gli errori etichettandoli con "Z" (etichetta davvero orribile, di solito si usa $epsilon_i$)
$ hat(y)_i- y_i= Z_i $
ovvero le differenze fra i valori campionari $y_i$ e i valori $hat(y)_i$ prodotti dal modello di regressione.
"F3L1X93":
Quando ti correggi in (1) intendi fare riferimento al caso in cui la alla X corrispondono più variabili dipendenti Y?
Intendevo solo dire che in molti campioni dove X è una v.a. discreta, capita di avere diverse realizzazioni di $y_i$ per un dato $x_i$. Ti porto un esempio assurdo ma non me ne vengono in mente altri (LOL).
Immagina che tu sia persuaso che i prezzi $y_i$ degli appartamenti dipendano esclusivamente dal numero di stanze $x_i$.
Allora prendi i dati reali e stili una tabella che verosimilmente avrà diversi appartamenti con diversi prezzi ma tutti ad esempio con 4 stanze. Quindi avrai più realizzazioni di Y per una data X. No? Tutto qua.
"F3L1X93":
1) l'ipotesi di omoschedasticità viene utilizzata perché ci permette di considerare l'errore campionario una v.a. indipendente e identicamente distribuita rispetto agli altri errori campionari che commettiamo al variare delle $x_i$, e ciò ha come conseguenza che il modello sia accurato allo stesso modo per qualunque parte della popolazione ($x_i$).
Ma no. Come ho già scritto supponiamo per prima cosa che le distribuzioni condizionate siano indipendenti (poi sta a noi dimostrarlo!) persino se fossero tutte diverse.
Poi facciamo un'ipotesi sulle forme distributive, assumendo che le distribuzioni siano tutte identiche e normali. Quindi gli errori avranno la medesima distribuzione ma con media zero e varianza $ sigma _i^2$ (ritenendo quindi che gli errori siano perfettamente casuali e simmetrici, ovvero meri errori di "misurazione" come erano soliti dire una volta).
Quindi le distribuzioni degli errori possono benissimo essere tutte normali ma con diverse varianze, no?
Però possiamo anche assumere che abbiamo tutte la medesima varibailità (omoschedasticità) e così facendo allora gli errori collegati ad ogni $x_i$ sono la manifestazione della medesima v.a. in tutto e per tutto e quindi possiamo trattarli tutti insieme per sottoporre a test le ipotesi.