Media e Varianza nella regressione lineare

Numb3r4
Ciao a tutti, non riesco a risolvere un quesito che mi sono trovato nell'esame di statistica riguardante la regressione.
L'esercizio dava una distribuzione condizionata x|y e chiedeva di calcolare la retta di regressione, e fin qui tutto ok.

Il mio problema sorge quando chiede di calcolare media e varianza per un dato valore di X.
Come si fa?

Se non sbaglio la varianza si calcola tramite lo stimatore $ S=(sum(y-hat(y))^2)/(n-2) $
Ma avendo un solo valore $ x $ e quindi un solo valore $ y $ e $ hat(y) $ l' $ n $ al denominatore cambia?

E la media come si calcola? tramite la retta di regressione sostituendoci dentro la $ x $ data?

Risposte
Bokonon
Visto che non posti il problema, parlo in generale.



Questa è una semplice tabella doppia di due variabili continue raggruppate per intervalli (o almeno IO voglio che sia così per avere un esempio il più generale possibile). Quindi i vari $x_i$ e $y_h$ sono le medie di quegli intervalli.
La generica riga $x_i$ è è la distribuzione $(Y|x_i)$
La generica colonna $y_h$ è la distribuzione $(X|y_h)$

In genere la X è considerata la variabile indipendente, ovvero è la X che "spiega" la Y, quindi mi pare strano che ti abbiano dato una $(X|y_h)$, ma le convenzioni sono convenzioni , quindi è possibile (ma improbabile) che Y sia la variabile indipendente.
Inoltre a quanto scrivi ti hanno semplicemente chiesto la media e varianza di quella distribuzione condizionata e non gli stimatori. Insomma è un po' confuso il post.

Numb3r4


mi spiace essere stato confuso ma sono un po' nel pallone.. L'esercizio dava un distribuzione come quella nell immagine e chiedeva di cacolare la retta di regressione.. Poi diceva:

Per X= 50 calcolare Media e Varianza.
Per questo valore di X calcolare media e varianza degli errori

Bokonon
Infatti è come immaginavo, la X è la variabile indipendente.
Ammetto che se quello è il testo, allora è una domanda strana perchè banalissima.
Di solito una domanda de genere la fanno quando per x=50 forniscono più di una rilevazione campionaria per Y.
Ma vabbè, se quella è la domanda, allora la media è l'errore stesso e la varianza è ovviamente zero.
Una domanda a zero valenza pedagogica.

Magari se aggiungo un concetto, cambi la versione del testo :)
Proviamo. L'ipotesi di fondo della regressione lineare è che gli errori si dispongano casualmente e simmetricamente attorno alla media di regressione. In altre parole, gli errori, per ogni dato x, si dispongono come una curva normale a media zero e varianza sconosciuta sigma quadro.
Non è che ti hanno dato questi valori?

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.