Test di ipotesi su una regressione lineare
Ciao,
ho questo esercizio su i test di ipotesi. Ho provato a risolverlo, ma non ho alcun riscontro sul risultato quindi non so se l'ho fatto giusto, potreste darci un occhio per favore?
Innanzi tutto, a me pare di capire che io debba considerare 2 serie di dati correlati: $Y(X_1)$ e $Y(X_2)$, e non $Y(X_1, X_2)$.
Detto questo, ho risolto l'esercizio come segue.
Trovo gli indici di tendenza centrale e di variazione che mi serviranno dopo
le medie $\bar{X_1}=1.87$, $\bar{X_2}=-0.68$ e $\bar{Y}=14.32$
le varianze $S_{X_1}^2 = 2.24$ $S_{X_2}^2 = 7.46$ $S_Y^2 = 26.34$
e gli scarti quadratici medi $S_{X_1} = 1.50$ $S_{X_2} = 2.73$ $S_Y = 5.13$
Stimo, per entrambe le serie, il coefficiente di correlazione
Uso lo stimatore $R_n = \frac{\sum_{i=1}^n(X_i-\bar{X}_n)(Y_i - \bar{Y}_n)}{n\cdot S_{X,n}\cdot S_{Y,n}}$
Che per le due serie di $n=6$ escono
$R_{X_1,Y} = \frac{32.37}{46.17} = 0.70$
$R_{X_2,Y} = \frac{44.78}{84.03} = 0.53$
Ora applico un test per l'ipotesi che le serie siano incorrelate: $H_0: \rho_{XY} = 0$
La statistica $\hat{T_n} = R_n\sqrt(\frac{n-2}{1-R_n^2})$ e' distribuita come una t di student di grado n-2 se $H_0$ e' vera.
Quindi calcolo le realizzazioni di questa statistica usando le stime trovate al passo sopra
$t_{X_1} = 0.70\sqrt(\frac{4}{1-{0.70}^2}) = 1.96$
$t_{X_2} = 0.53\sqrt(\frac{4}{1-{0.53}^2}) = 1.35$
Infine verifico se i valori assunti cadono nella regione critica
Dove la regione critica e' $C=(-\infty; -t_{1-\alpha/2}) uu (t_{1-\alpha/2}; +\infty) = (-\infty; -t_{0.975}) uu (t_{0.975}; +\infty) = (-\infty, -2.776) uu (2.776, +\infty)$
dove $t_{0.975}$ e' il quantile di ordine 0.975 per la t di student di grado $n-2 = 6-2 = 4$.
Bhe, a me sembra che ne' 1.96 ne' 1.35 cadano nella regione critica, quindi l'ipotesi $H_0$ non puo' essere rifiutata, quindi nessuno dei due regressori e' significativo.
Voi che dite? Grazie mille in anticipo
~Aki
ho questo esercizio su i test di ipotesi. Ho provato a risolverlo, ma non ho alcun riscontro sul risultato quindi non so se l'ho fatto giusto, potreste darci un occhio per favore?
Si consideri la seguente tabella (scusate se uso una matrice, ma qui non ho trovato come si fanno le tabelle):
$[[Y, X_1, X_2],[12.3, 3, 2],[18.7, 1.8, -2.3],[9.2,1.3,0.4],[7.4,-0.3,2.8],[21.8,4.4,-5.2],[16.5,1,-1.8]]$
Considerando $X_1$ e $X_2$ come regressori, e $Y$ come variable di risposta in una regressione lineare, decidere con opportuni test se, ad una significativita' di 0.05, esiste qualche regressore significativo e, se si, quale.
Innanzi tutto, a me pare di capire che io debba considerare 2 serie di dati correlati: $Y(X_1)$ e $Y(X_2)$, e non $Y(X_1, X_2)$.
Detto questo, ho risolto l'esercizio come segue.
Trovo gli indici di tendenza centrale e di variazione che mi serviranno dopo
le medie $\bar{X_1}=1.87$, $\bar{X_2}=-0.68$ e $\bar{Y}=14.32$
le varianze $S_{X_1}^2 = 2.24$ $S_{X_2}^2 = 7.46$ $S_Y^2 = 26.34$
e gli scarti quadratici medi $S_{X_1} = 1.50$ $S_{X_2} = 2.73$ $S_Y = 5.13$
Stimo, per entrambe le serie, il coefficiente di correlazione
Uso lo stimatore $R_n = \frac{\sum_{i=1}^n(X_i-\bar{X}_n)(Y_i - \bar{Y}_n)}{n\cdot S_{X,n}\cdot S_{Y,n}}$
Che per le due serie di $n=6$ escono
$R_{X_1,Y} = \frac{32.37}{46.17} = 0.70$
$R_{X_2,Y} = \frac{44.78}{84.03} = 0.53$
Ora applico un test per l'ipotesi che le serie siano incorrelate: $H_0: \rho_{XY} = 0$
La statistica $\hat{T_n} = R_n\sqrt(\frac{n-2}{1-R_n^2})$ e' distribuita come una t di student di grado n-2 se $H_0$ e' vera.
Quindi calcolo le realizzazioni di questa statistica usando le stime trovate al passo sopra
$t_{X_1} = 0.70\sqrt(\frac{4}{1-{0.70}^2}) = 1.96$
$t_{X_2} = 0.53\sqrt(\frac{4}{1-{0.53}^2}) = 1.35$
Infine verifico se i valori assunti cadono nella regione critica
Dove la regione critica e' $C=(-\infty; -t_{1-\alpha/2}) uu (t_{1-\alpha/2}; +\infty) = (-\infty; -t_{0.975}) uu (t_{0.975}; +\infty) = (-\infty, -2.776) uu (2.776, +\infty)$
dove $t_{0.975}$ e' il quantile di ordine 0.975 per la t di student di grado $n-2 = 6-2 = 4$.
Bhe, a me sembra che ne' 1.96 ne' 1.35 cadano nella regione critica, quindi l'ipotesi $H_0$ non puo' essere rifiutata, quindi nessuno dei due regressori e' significativo.
Voi che dite? Grazie mille in anticipo
~Aki
Risposte
Allora, l'equazione generale è del tipo $ Y=\beta_0 + \beta_1X_1 + \beta_2X_2 + U $. Dalla teoria, sai che
$ Q=(X^{T}X)^(-1)=((0.51, -0.20, -0.05), (-0.20, 0.12, 0.04), (-0.05,0.04,0.04)) $, da cui $ b'=(X^{T}X)^(-1)*X^{T}*y=[12.1185;0.4636;-2.069] $. Quindi alla fine (sempre che non vi siano errori di calcolo) avrai che
$ y_{i}'=12.1185 + 0.4636x_{1i}-2.069x_{2i} $
La stima dell'ignota varianza è $ s^2=(\sum_{i=1}^{6}(y_i - y_{i}'))/(n-k-1)=(28.04)/(6-1-2)=9.35 $.
Dunque, si procede a considerare i due sistemi di verifica d'ipotesi $ H_0=\beta_1=0 $ e $ H_0=\beta_2=0 $ e da cui rispettivamente hai
$ t_1=(0.4636)/(\sqrt(0.12*9.35))=0.44 $ e $ t_2=(-2.069)/(\sqrt(0.04*9.35))=-3.39 $, dove $ 0.12 $ e $ 0.04 $ sono rispettivamente i valori $q_{22}$ e $ q_{33} $ della matrice $Q$ ok?
I valori critici della T-Student sono $ t_{0.05/2}=\pm 3.182$. Sicché nel primo caso accetti l'ipotesi nulla, nel secondo no. Alla fine, alla spiegazione di $Y$ contribuisce solo il regressore $ X_2 $
$ Q=(X^{T}X)^(-1)=((0.51, -0.20, -0.05), (-0.20, 0.12, 0.04), (-0.05,0.04,0.04)) $, da cui $ b'=(X^{T}X)^(-1)*X^{T}*y=[12.1185;0.4636;-2.069] $. Quindi alla fine (sempre che non vi siano errori di calcolo) avrai che
$ y_{i}'=12.1185 + 0.4636x_{1i}-2.069x_{2i} $
La stima dell'ignota varianza è $ s^2=(\sum_{i=1}^{6}(y_i - y_{i}'))/(n-k-1)=(28.04)/(6-1-2)=9.35 $.
Dunque, si procede a considerare i due sistemi di verifica d'ipotesi $ H_0=\beta_1=0 $ e $ H_0=\beta_2=0 $ e da cui rispettivamente hai
$ t_1=(0.4636)/(\sqrt(0.12*9.35))=0.44 $ e $ t_2=(-2.069)/(\sqrt(0.04*9.35))=-3.39 $, dove $ 0.12 $ e $ 0.04 $ sono rispettivamente i valori $q_{22}$ e $ q_{33} $ della matrice $Q$ ok?
I valori critici della T-Student sono $ t_{0.05/2}=\pm 3.182$. Sicché nel primo caso accetti l'ipotesi nulla, nel secondo no. Alla fine, alla spiegazione di $Y$ contribuisce solo il regressore $ X_2 $
Oh fantastico! Grazie mille

figurati!
Ciao
Stavo riguardando solo ora la tua soluzione in modo piu' dettagliato.
Innanzi tutto, a me escono valori leggermente diversi per i coefficienti, ma non ho strumenti di calcolo decente quindi magari ho toppato qualcosa. Inoltre credo tu abbia dimenticato l'esponente sullo stimatore della varianza (lo faccio notare per i posteri
).
C'e' solo una cosa che non capisco: perche' per la $t_1$ e la $t_2$ usi $q_{22}$ e $q_{33}$ e non $q_{11}$ e $q_{22}$?
Sul mio libro (Pellerey) c'e' scritto:
Dove $A_k$ e' lo stimatore per $\alpha_k$ la cui realizzazione l'hai calcolata prima ed era $b'$.
Ora, magari e' un errore sul libro, o magari ho capito io male qualcosa... Ma preferisco essere sicuro
Anche perche' non ho in giro dimostrazioni o spiegazioni dettagliate su questa statistica, quindi non ho idea del perche' usi $C_{k,k}$ li in mezzo.
Grazie ancora,
ciao!

Innanzi tutto, a me escono valori leggermente diversi per i coefficienti, ma non ho strumenti di calcolo decente quindi magari ho toppato qualcosa. Inoltre credo tu abbia dimenticato l'esponente sullo stimatore della varianza (lo faccio notare per i posteri

C'e' solo una cosa che non capisco: perche' per la $t_1$ e la $t_2$ usi $q_{22}$ e $q_{33}$ e non $q_{11}$ e $q_{22}$?
Sul mio libro (Pellerey) c'e' scritto:
Si denoti con $C_{k,k}$ la k-esima componente della diagonale principale della matrice $(X^T\cdot X)^{-1}$. Gli intervalli di confidenza per le costanti $\alpha_k$ si ottengono tenendo conto del fatto che quando sono soddisfatte le ipotesi sui residui allora le variabili
$T_k = \frac{A_k-\alpha_k}{\sqrt(S^2_{RES}\cdot C_{k,k})}$
sono distribuite come t di student con $n-m-1$ gradi di liberta'.
Dove $A_k$ e' lo stimatore per $\alpha_k$ la cui realizzazione l'hai calcolata prima ed era $b'$.
Ora, magari e' un errore sul libro, o magari ho capito io male qualcosa... Ma preferisco essere sicuro

Grazie ancora,
ciao!
Ah ok, credo di aver capito: in realta' gli indici partirebbero dallo 0 e non da 1, perche' $t_1$ sarebbe per stimare $\beta_0$ secondo la definizione del libro, mentre a noi interessano $\beta_1$ e $\beta_2$. Giusto?
Sia $ Y = \beta_0 + \beta_1X_1 + ... + \beta_kX_k + U $ il modello lineare a $k$ variabili esplicative e, che può essere scritto sotto forma matriciale, ossia $ Y=X\beta + U $, dove $ X in RR^{[n * (k+1)]} $ e $\beta in RR^{k}$, precisamente
$ X=((1, x_{11}, ... , x_{k1}), (1, x_{12}, ... , x_{k2}), (vdots, vdots, ddots, vdots), (1, x_{1n}, ... , x_{kn})) $ e $ \beta=((\beta_1), (\beta_2), (vdots), (\beta_k)) $
Per determinare lo timatore $b$ di $\beta$ sfrutti, come ben sai, il metodo dei minimi quadrati, ottenendo alla fine che $ b= \hat(\beta)=(X^{T}X)^{-1}X^{T}*y$ e tramite la stima $b$ di $\beta$ ti calcoli i valori teorici, che la variabile risposta $Y$ assumerebbe nel caso teorico di perfetta relazione lineare con le covariate e di assenza della componente aleatoria $U$ avendo $ \hat(y)=X(X^{T}X)^{-1}X^{T}*y $.
Di qui, essendo la varianza $\sigma^2$ ignota, te la stimi mediante la conosciuta formula $ s^2=(\sum_{i=1}^{n}(y_i - \hat(y)_i)^2)/(n-k-1) $.
Arriviamo, finalmente, alla verifica di ipotesi sui singoli coefficienti di regressione.
Supponiamo di considerare l'ipotesi $ H_0 : \beta_j = \gamma $ per ogni $j=1, ..., k$, che equivale a considerare l'ipotesi $ H_0:C\beta=\gamma $, dove $C$ è un vettore $k+1$ dimensionale, con tutte le componenti nulle, eccetto la componenti $j+1$-esima.
Fissato il livello di sgnificatività $\alpha$, l'ipotesi nulla viene accettata se $ -t_{\alpha/2) < (b_j - \gamma)/(\sqrt(s^2*q_{j+1, j+1})) < t_{\alpha/2} $ dove $ q_{j+1, j+1} $ è l'elemento che nella matrice $ Q=(X^{T}X)^{-1} $ occupa il posto $ (j+1, j+1) $ (questo perchè $ X in RR^{[n * (k+1)]} $) ok?
P.S. - riguardo ai calcoli delle matrici del mio primo post, tieni conto che li ho fatti a mano, quindi ci sarà qualche errore di approssimazione, ma l'idea di fondo è quella
$ X=((1, x_{11}, ... , x_{k1}), (1, x_{12}, ... , x_{k2}), (vdots, vdots, ddots, vdots), (1, x_{1n}, ... , x_{kn})) $ e $ \beta=((\beta_1), (\beta_2), (vdots), (\beta_k)) $
Per determinare lo timatore $b$ di $\beta$ sfrutti, come ben sai, il metodo dei minimi quadrati, ottenendo alla fine che $ b= \hat(\beta)=(X^{T}X)^{-1}X^{T}*y$ e tramite la stima $b$ di $\beta$ ti calcoli i valori teorici, che la variabile risposta $Y$ assumerebbe nel caso teorico di perfetta relazione lineare con le covariate e di assenza della componente aleatoria $U$ avendo $ \hat(y)=X(X^{T}X)^{-1}X^{T}*y $.
Di qui, essendo la varianza $\sigma^2$ ignota, te la stimi mediante la conosciuta formula $ s^2=(\sum_{i=1}^{n}(y_i - \hat(y)_i)^2)/(n-k-1) $.
Arriviamo, finalmente, alla verifica di ipotesi sui singoli coefficienti di regressione.
Supponiamo di considerare l'ipotesi $ H_0 : \beta_j = \gamma $ per ogni $j=1, ..., k$, che equivale a considerare l'ipotesi $ H_0:C\beta=\gamma $, dove $C$ è un vettore $k+1$ dimensionale, con tutte le componenti nulle, eccetto la componenti $j+1$-esima.
Fissato il livello di sgnificatività $\alpha$, l'ipotesi nulla viene accettata se $ -t_{\alpha/2) < (b_j - \gamma)/(\sqrt(s^2*q_{j+1, j+1})) < t_{\alpha/2} $ dove $ q_{j+1, j+1} $ è l'elemento che nella matrice $ Q=(X^{T}X)^{-1} $ occupa il posto $ (j+1, j+1) $ (questo perchè $ X in RR^{[n * (k+1)]} $) ok?

P.S. - riguardo ai calcoli delle matrici del mio primo post, tieni conto che li ho fatti a mano, quindi ci sarà qualche errore di approssimazione, ma l'idea di fondo è quella

Si si, ma mi era chiaro il procedimento
Ieri sera ho avuto solo una piccola diatriba con gli indici u.u
Ma grazie ancora!

Ma grazie ancora!
prego!