Test di ipotesi su una regressione lineare

akiross1
Ciao,
ho questo esercizio su i test di ipotesi. Ho provato a risolverlo, ma non ho alcun riscontro sul risultato quindi non so se l'ho fatto giusto, potreste darci un occhio per favore?

Si consideri la seguente tabella (scusate se uso una matrice, ma qui non ho trovato come si fanno le tabelle):
$[[Y, X_1, X_2],[12.3, 3, 2],[18.7, 1.8, -2.3],[9.2,1.3,0.4],[7.4,-0.3,2.8],[21.8,4.4,-5.2],[16.5,1,-1.8]]$
Considerando $X_1$ e $X_2$ come regressori, e $Y$ come variable di risposta in una regressione lineare, decidere con opportuni test se, ad una significativita' di 0.05, esiste qualche regressore significativo e, se si, quale.


Innanzi tutto, a me pare di capire che io debba considerare 2 serie di dati correlati: $Y(X_1)$ e $Y(X_2)$, e non $Y(X_1, X_2)$.
Detto questo, ho risolto l'esercizio come segue.

Trovo gli indici di tendenza centrale e di variazione che mi serviranno dopo
le medie $\bar{X_1}=1.87$, $\bar{X_2}=-0.68$ e $\bar{Y}=14.32$
le varianze $S_{X_1}^2 = 2.24$ $S_{X_2}^2 = 7.46$ $S_Y^2 = 26.34$
e gli scarti quadratici medi $S_{X_1} = 1.50$ $S_{X_2} = 2.73$ $S_Y = 5.13$

Stimo, per entrambe le serie, il coefficiente di correlazione
Uso lo stimatore $R_n = \frac{\sum_{i=1}^n(X_i-\bar{X}_n)(Y_i - \bar{Y}_n)}{n\cdot S_{X,n}\cdot S_{Y,n}}$
Che per le due serie di $n=6$ escono
$R_{X_1,Y} = \frac{32.37}{46.17} = 0.70$
$R_{X_2,Y} = \frac{44.78}{84.03} = 0.53$

Ora applico un test per l'ipotesi che le serie siano incorrelate: $H_0: \rho_{XY} = 0$
La statistica $\hat{T_n} = R_n\sqrt(\frac{n-2}{1-R_n^2})$ e' distribuita come una t di student di grado n-2 se $H_0$ e' vera.
Quindi calcolo le realizzazioni di questa statistica usando le stime trovate al passo sopra
$t_{X_1} = 0.70\sqrt(\frac{4}{1-{0.70}^2}) = 1.96$
$t_{X_2} = 0.53\sqrt(\frac{4}{1-{0.53}^2}) = 1.35$

Infine verifico se i valori assunti cadono nella regione critica
Dove la regione critica e' $C=(-\infty; -t_{1-\alpha/2}) uu (t_{1-\alpha/2}; +\infty) = (-\infty; -t_{0.975}) uu (t_{0.975}; +\infty) = (-\infty, -2.776) uu (2.776, +\infty)$
dove $t_{0.975}$ e' il quantile di ordine 0.975 per la t di student di grado $n-2 = 6-2 = 4$.

Bhe, a me sembra che ne' 1.96 ne' 1.35 cadano nella regione critica, quindi l'ipotesi $H_0$ non puo' essere rifiutata, quindi nessuno dei due regressori e' significativo.

Voi che dite? Grazie mille in anticipo
~Aki

Risposte
Aliseo1
Allora, l'equazione generale è del tipo $ Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + U $. Dalla teoria, sai che

$ Q=(X^{T}X)^(-1)=((0.51, -0.20, -0.05), (-0.20, 0.12, 0.04), (-0.05,0.04,0.04)) $, da cui $ b'=(X^{T}X)^(-1)*X^{T}*y=[12.1185;0.4636;-2.069] $. Quindi alla fine (sempre che non vi siano errori di calcolo) avrai che

$ y_{i}'=12.1185 + 0.4636x_{1i}-2.069x_{2i} $

La stima dell'ignota varianza è $ s^2=(\sum_{i=1}^{6}(y_i - y_{i}'))/(n-k-1)=(28.04)/(6-1-2)=9.35 $.

Dunque, si procede a considerare i due sistemi di verifica d'ipotesi $ H_0=\beta_1=0 $ e $ H_0=\beta_2=0 $ e da cui rispettivamente hai

$ t_1=(0.4636)/(\sqrt(0.12*9.35))=0.44 $ e $ t_2=(-2.069)/(\sqrt(0.04*9.35))=-3.39 $, dove $ 0.12 $ e $ 0.04 $ sono rispettivamente i valori $q_{22}$ e $ q_{33} $ della matrice $Q$ ok?

I valori critici della T-Student sono $ t_{0.05/2}=\pm 3.182$. Sicché nel primo caso accetti l'ipotesi nulla, nel secondo no. Alla fine, alla spiegazione di $Y$ contribuisce solo il regressore $ X_2 $

akiross1
Oh fantastico! Grazie mille :)

Aliseo1
figurati!

akiross1
Ciao :) Stavo riguardando solo ora la tua soluzione in modo piu' dettagliato.
Innanzi tutto, a me escono valori leggermente diversi per i coefficienti, ma non ho strumenti di calcolo decente quindi magari ho toppato qualcosa. Inoltre credo tu abbia dimenticato l'esponente sullo stimatore della varianza (lo faccio notare per i posteri :D).

C'e' solo una cosa che non capisco: perche' per la $t_1$ e la $t_2$ usi $q_{22}$ e $q_{33}$ e non $q_{11}$ e $q_{22}$?
Sul mio libro (Pellerey) c'e' scritto:

Si denoti con $C_{k,k}$ la k-esima componente della diagonale principale della matrice $(X^T\cdot X)^{-1}$. Gli intervalli di confidenza per le costanti $\alpha_k$ si ottengono tenendo conto del fatto che quando sono soddisfatte le ipotesi sui residui allora le variabili
$T_k = \frac{A_k-\alpha_k}{\sqrt(S^2_{RES}\cdot C_{k,k})}$
sono distribuite come t di student con $n-m-1$ gradi di liberta'.


Dove $A_k$ e' lo stimatore per $\alpha_k$ la cui realizzazione l'hai calcolata prima ed era $b'$.

Ora, magari e' un errore sul libro, o magari ho capito io male qualcosa... Ma preferisco essere sicuro :D Anche perche' non ho in giro dimostrazioni o spiegazioni dettagliate su questa statistica, quindi non ho idea del perche' usi $C_{k,k}$ li in mezzo.

Grazie ancora,
ciao!

akiross1
Ah ok, credo di aver capito: in realta' gli indici partirebbero dallo 0 e non da 1, perche' $t_1$ sarebbe per stimare $\beta_0$ secondo la definizione del libro, mentre a noi interessano $\beta_1$ e $\beta_2$. Giusto?

Aliseo1
Sia $ Y = \beta_0 + \beta_1X_1 + ... + \beta_kX_k + U $ il modello lineare a $k$ variabili esplicative e, che può essere scritto sotto forma matriciale, ossia $ Y=X\beta + U $, dove $ X in RR^{[n * (k+1)]} $ e $\beta in RR^{k}$, precisamente

$ X=((1, x_{11}, ... , x_{k1}), (1, x_{12}, ... , x_{k2}), (vdots, vdots, ddots, vdots), (1, x_{1n}, ... , x_{kn})) $ e $ \beta=((\beta_1), (\beta_2), (vdots), (\beta_k)) $

Per determinare lo timatore $b$ di $\beta$ sfrutti, come ben sai, il metodo dei minimi quadrati, ottenendo alla fine che $ b= \hat(\beta)=(X^{T}X)^{-1}X^{T}*y$ e tramite la stima $b$ di $\beta$ ti calcoli i valori teorici, che la variabile risposta $Y$ assumerebbe nel caso teorico di perfetta relazione lineare con le covariate e di assenza della componente aleatoria $U$ avendo $ \hat(y)=X(X^{T}X)^{-1}X^{T}*y $.

Di qui, essendo la varianza $\sigma^2$ ignota, te la stimi mediante la conosciuta formula $ s^2=(\sum_{i=1}^{n}(y_i - \hat(y)_i)^2)/(n-k-1) $.

Arriviamo, finalmente, alla verifica di ipotesi sui singoli coefficienti di regressione.

Supponiamo di considerare l'ipotesi $ H_0 : \beta_j = \gamma $ per ogni $j=1, ..., k$, che equivale a considerare l'ipotesi $ H_0:C\beta=\gamma $, dove $C$ è un vettore $k+1$ dimensionale, con tutte le componenti nulle, eccetto la componenti $j+1$-esima.

Fissato il livello di sgnificatività $\alpha$, l'ipotesi nulla viene accettata se $ -t_{\alpha/2) < (b_j - \gamma)/(\sqrt(s^2*q_{j+1, j+1})) < t_{\alpha/2} $ dove $ q_{j+1, j+1} $ è l'elemento che nella matrice $ Q=(X^{T}X)^{-1} $ occupa il posto $ (j+1, j+1) $ (questo perchè $ X in RR^{[n * (k+1)]} $) ok? ;)

P.S. - riguardo ai calcoli delle matrici del mio primo post, tieni conto che li ho fatti a mano, quindi ci sarà qualche errore di approssimazione, ma l'idea di fondo è quella ;)

akiross1
Si si, ma mi era chiaro il procedimento :D Ieri sera ho avuto solo una piccola diatriba con gli indici u.u
Ma grazie ancora!

Aliseo1
prego!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.