Test di ipotesi su una regressione lineare

akiross1 · 2009-09-11CEST17:01:05+02:00

"Ciao,\r\nho questo esercizio su i test di ipotesi. Ho provato a risolverlo, ma non ho alcun riscontro sul risultato quindi non so se l'ho fatto giusto, potreste darci un occhio per favore?\r\n\r\nSi consideri la seguente tabella (scusate se uso una matrice, ma qui non ho trovato come si fanno le tabelle):\n$[[Y, X_1, X_2],[12.3, 3, 2],[18.7, 1.8, -2.3],[9.2,1.3,0.4],[7.4,-0.3,2.8],[21.8,4.4,-5.2],[16.5,1,-1.8]]$\nConsiderando $X_1$ e $X_2$ come regressori, e $Y$ come variable di risposta in una regressione lineare, decidere con opportuni test se, ad una significativita' di 0.05, esiste qualche regressore significativo e, se si, quale.\n\r\n\r\nInnanzi tutto, a me pare di capire che io debba considerare 2 serie di dati correlati: $Y(X_1)$ e $Y(X_2)$, e non $Y(X_1, X_2)$.\r\nDetto questo, ho risolto l'esercizio come segue.\r\n\r\nTrovo gli indici di tendenza centrale e di variazione che mi serviranno dopo\r\nle medie $\\bar{X_1}=1.87$, $\\bar{X_2}=-0.68$ e $\\bar{Y}=14.32$\r\nle varianze $S_{X_1}^2 = 2.24$ $S_{X_2}^2 = 7.46$ $S_Y^2 = 26.34$\r\ne gli scarti quadratici medi $S_{X_1} = 1.50$ $S_{X_2} = 2.73$ $S_Y = 5.13$\r\n\r\nStimo, per entrambe le serie, il coefficiente di correlazione\r\nUso lo stimatore $R_n = \\frac{\\sum_{i=1}^n(X_i-\\bar{X}_n)(Y_i - \\bar{Y}_n)}{n\\cdot S_{X,n}\\cdot S_{Y,n}}$\r\nChe per le due serie di $n=6$ escono\r\n$R_{X_1,Y} = \\frac{32.37}{46.17} = 0.70$\r\n$R_{X_2,Y} = \\frac{44.78}{84.03} = 0.53$\r\n\r\nOra applico un test per l'ipotesi che le serie siano incorrelate: $H_0: \\rho_{XY} = 0$\r\nLa statistica $\\hat{T_n} = R_n\\sqrt(\\frac{n-2}{1-R_n^2})$ e' distribuita come una t di student di grado n-2 se $H_0$ e' vera.\r\nQuindi calcolo le realizzazioni di questa statistica usando le stime trovate al passo sopra\r\n$t_{X_1} = 0.70\\sqrt(\\frac{4}{1-{0.70}^2}) = 1.96$\r\n$t_{X_2} = 0.53\\sqrt(\\frac{4}{1-{0.53}^2}) = 1.35$\r\n\r\nInfine verifico se i valori assunti cadono nella regione critica\r\nDove la regione critica e' $C=(-\\infty; -t_{1-\\alpha\//2}) uu (t_{1-\\alpha\//2}; +\\infty) = (-\\infty; -t_{0.975}) uu (t_{0.975}; +\\infty) = (-\\infty, -2.776) uu (2.776, +\\infty)$\r\ndove $t_{0.975}$ e' il quantile di ordine 0.975 per la t di student di grado $n-2 = 6-2 = 4$.\r\n\r\nBhe, a me sembra che ne' 1.96 ne' 1.35 cadano nella regione critica, quindi l'ipotesi $H_0$ non puo' essere rifiutata, quindi nessuno dei due regressori e' significativo.\r\n\r\nVoi che dite? Grazie mille in anticipo\r\n~Aki"

Fai una domanda Tutte le categorie

akiross1

11 set 2009, 17:01

Ciao,
ho questo esercizio su i test di ipotesi. Ho provato a risolverlo, ma non ho alcun riscontro sul risultato quindi non so se l'ho fatto giusto, potreste darci un occhio per favore?

Si consideri la seguente tabella (scusate se uso una matrice, ma qui non ho trovato come si fanno le tabelle):
$[[Y, X_1, X_2],[12.3, 3, 2],[18.7, 1.8, -2.3],[9.2,1.3,0.4],[7.4,-0.3,2.8],[21.8,4.4,-5.2],[16.5,1,-1.8]]$
Considerando $X_1$ e $X_2$ come regressori, e $Y$ come variable di risposta in una regressione lineare, decidere con opportuni test se, ad una significativita' di 0.05, esiste qualche regressore significativo e, se si, quale.

Innanzi tutto, a me pare di capire che io debba considerare 2 serie di dati correlati: $Y(X_1)$ e $Y(X_2)$, e non $Y(X_1, X_2)$.
Detto questo, ho risolto l'esercizio come segue.

Trovo gli indici di tendenza centrale e di variazione che mi serviranno dopo
le medie $\bar{X_1}=1.87$, $\bar{X_2}=-0.68$ e $\bar{Y}=14.32$
le varianze $S_{X_1}^2 = 2.24$ $S_{X_2}^2 = 7.46$ $S_Y^2 = 26.34$
e gli scarti quadratici medi $S_{X_1} = 1.50$ $S_{X_2} = 2.73$ $S_Y = 5.13$

Stimo, per entrambe le serie, il coefficiente di correlazione
Uso lo stimatore $R_n = \frac{\sum_{i=1}^n(X_i-\bar{X}_n)(Y_i - \bar{Y}_n)}{n\cdot S_{X,n}\cdot S_{Y,n}}$
Che per le due serie di $n=6$ escono
$R_{X_1,Y} = \frac{32.37}{46.17} = 0.70$
$R_{X_2,Y} = \frac{44.78}{84.03} = 0.53$

Ora applico un test per l'ipotesi che le serie siano incorrelate: $H_0: \rho_{XY} = 0$
La statistica $\hat{T_n} = R_n\sqrt(\frac{n-2}{1-R_n^2})$ e' distribuita come una t di student di grado n-2 se $H_0$ e' vera.
Quindi calcolo le realizzazioni di questa statistica usando le stime trovate al passo sopra
$t_{X_1} = 0.70\sqrt(\frac{4}{1-{0.70}^2}) = 1.96$
$t_{X_2} = 0.53\sqrt(\frac{4}{1-{0.53}^2}) = 1.35$

Infine verifico se i valori assunti cadono nella regione critica
Dove la regione critica e' $C=(-\infty; -t_{1-\alpha/2}) uu (t_{1-\alpha/2}; +\infty) = (-\infty; -t_{0.975}) uu (t_{0.975}; +\infty) = (-\infty, -2.776) uu (2.776, +\infty)$
dove $t_{0.975}$ e' il quantile di ordine 0.975 per la t di student di grado $n-2 = 6-2 = 4$.

Bhe, a me sembra che ne' 1.96 ne' 1.35 cadano nella regione critica, quindi l'ipotesi $H_0$ non puo' essere rifiutata, quindi nessuno dei due regressori e' significativo.

Voi che dite? Grazie mille in anticipo
~Aki

Risposte

Aliseo1

11 set 2009, 16:44

Allora, l'equazione generale è del tipo $ Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + U $. Dalla teoria, sai che

$ Q=(X^{T}X)^(-1)=((0.51, -0.20, -0.05), (-0.20, 0.12, 0.04), (-0.05,0.04,0.04)) $, da cui $ b'=(X^{T}X)^(-1)*X^{T}*y=[12.1185;0.4636;-2.069] $. Quindi alla fine (sempre che non vi siano errori di calcolo) avrai che

$ y_{i}'=12.1185 + 0.4636x_{1i}-2.069x_{2i} $

La stima dell'ignota varianza è $ s^2=(\sum_{i=1}^{6}(y_i - y_{i}'))/(n-k-1)=(28.04)/(6-1-2)=9.35 $.

Dunque, si procede a considerare i due sistemi di verifica d'ipotesi $ H_0=\beta_1=0 $ e $ H_0=\beta_2=0 $ e da cui rispettivamente hai

$ t_1=(0.4636)/(\sqrt(0.12*9.35))=0.44 $ e $ t_2=(-2.069)/(\sqrt(0.04*9.35))=-3.39 $, dove $ 0.12 $ e $ 0.04 $ sono rispettivamente i valori $q_{22}$ e $ q_{33} $ della matrice $Q$ ok?

I valori critici della T-Student sono $ t_{0.05/2}=\pm 3.182$. Sicché nel primo caso accetti l'ipotesi nulla, nel secondo no. Alla fine, alla spiegazione di $Y$ contribuisce solo il regressore $ X_2 $

akiross1

11 set 2009, 18:52

Oh fantastico! Grazie mille

Aliseo1

12 set 2009, 07:03

figurati!

akiross1

13 set 2009, 21:26

Ciao

Stavo riguardando solo ora la tua soluzione in modo piu' dettagliato.
Innanzi tutto, a me escono valori leggermente diversi per i coefficienti, ma non ho strumenti di calcolo decente quindi magari ho toppato qualcosa. Inoltre credo tu abbia dimenticato l'esponente sullo stimatore della varianza (lo faccio notare per i posteri

).

C'e' solo una cosa che non capisco: perche' per la $t_1$ e la $t_2$ usi $q_{22}$ e $q_{33}$ e non $q_{11}$ e $q_{22}$?
Sul mio libro (Pellerey) c'e' scritto:

Si denoti con $C_{k,k}$ la k-esima componente della diagonale principale della matrice $(X^T\cdot X)^{-1}$. Gli intervalli di confidenza per le costanti $\alpha_k$ si ottengono tenendo conto del fatto che quando sono soddisfatte le ipotesi sui residui allora le variabili
$T_k = \frac{A_k-\alpha_k}{\sqrt(S^2_{RES}\cdot C_{k,k})}$
sono distribuite come t di student con $n-m-1$ gradi di liberta'.

Dove $A_k$ e' lo stimatore per $\alpha_k$ la cui realizzazione l'hai calcolata prima ed era $b'$.

Ora, magari e' un errore sul libro, o magari ho capito io male qualcosa... Ma preferisco essere sicuro

Anche perche' non ho in giro dimostrazioni o spiegazioni dettagliate su questa statistica, quindi non ho idea del perche' usi $C_{k,k}$ li in mezzo.

Grazie ancora,
ciao!

akiross1

14 set 2009, 10:07

Ah ok, credo di aver capito: in realta' gli indici partirebbero dallo 0 e non da 1, perche' $t_1$ sarebbe per stimare $\beta_0$ secondo la definizione del libro, mentre a noi interessano $\beta_1$ e $\beta_2$. Giusto?

Aliseo1

14 set 2009, 10:46

Sia $ Y = \beta_0 + \beta_1X_1 + ... + \beta_kX_k + U $ il modello lineare a $k$ variabili esplicative e, che può essere scritto sotto forma matriciale, ossia $ Y=X\beta + U $, dove $ X in RR^{[n * (k+1)]} $ e $\beta in RR^{k}$, precisamente

$ X=((1, x_{11}, ... , x_{k1}), (1, x_{12}, ... , x_{k2}), (vdots, vdots, ddots, vdots), (1, x_{1n}, ... , x_{kn})) $ e $ \beta=((\beta_1), (\beta_2), (vdots), (\beta_k)) $

Per determinare lo timatore $b$ di $\beta$ sfrutti, come ben sai, il metodo dei minimi quadrati, ottenendo alla fine che $ b= \hat(\beta)=(X^{T}X)^{-1}X^{T}*y$ e tramite la stima $b$ di $\beta$ ti calcoli i valori teorici, che la variabile risposta $Y$ assumerebbe nel caso teorico di perfetta relazione lineare con le covariate e di assenza della componente aleatoria $U$ avendo $ \hat(y)=X(X^{T}X)^{-1}X^{T}*y $.

Di qui, essendo la varianza $\sigma^2$ ignota, te la stimi mediante la conosciuta formula $ s^2=(\sum_{i=1}^{n}(y_i - \hat(y)_i)^2)/(n-k-1) $.

Arriviamo, finalmente, alla verifica di ipotesi sui singoli coefficienti di regressione.

Supponiamo di considerare l'ipotesi $ H_0 : \beta_j = \gamma $ per ogni $j=1, ..., k$, che equivale a considerare l'ipotesi $ H_0:C\beta=\gamma $, dove $C$ è un vettore $k+1$ dimensionale, con tutte le componenti nulle, eccetto la componenti $j+1$-esima.

Fissato il livello di sgnificatività $\alpha$, l'ipotesi nulla viene accettata se $ -t_{\alpha/2) < (b_j - \gamma)/(\sqrt(s^2*q_{j+1, j+1})) < t_{\alpha/2} $ dove $ q_{j+1, j+1} $ è l'elemento che nella matrice $ Q=(X^{T}X)^{-1} $ occupa il posto $ (j+1, j+1) $ (questo perchè $ X in RR^{[n * (k+1)]} $) ok?

P.S. - riguardo ai calcoli delle matrici del mio primo post, tieni conto che li ho fatti a mano, quindi ci sarà qualche errore di approssimazione, ma l'idea di fondo è quella

akiross1

14 set 2009, 11:03

Si si, ma mi era chiaro il procedimento

Ieri sera ho avuto solo una piccola diatriba con gli indici u.u
Ma grazie ancora!

Aliseo1

14 set 2009, 11:16

prego!

Rispondi

Per rispondere a questa discussione devi prima effettuare il login.

Test di ipotesi su una regressione lineare

Segnala Post di