Problema statistica

alekos95
Sono stati rilevati i millimetri di lunghezza media $ (y_j) $ e i millimetri di larghezza media $ (x_j) $ dei petali di 6 girasoli.
a)Determina la formula calcolatoria per la devianza di regressione di Y.
Conoscendo le quantità: $ sum_(j=1)^6 x_j=36, sum_(j=1)^6 x_j^2=256,sum_(j=1)^6 y_j=90,sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $
b)Dopo aver verificato che la devianza di regressione sia pari a 384,40 determinare $ R^2 $ e commentare il risultato.
c)Sapendo che la relazione tra i due caratteri è positiva, determinare i parametri del modello di regressione lineare di Y su X.


Il mio ragionamento: per il primo punto ho provato a sviluppare il quadrato della formula della devianza di regressione di Y $ sum_(j=1)^6(y_j^*-bar(y))^2=sum_(j=1)^6(y_j^(*2)+bar(y)^2-2y_j^*bar(y)) $ ma non penso di avere a disposizione i dati necessari per svolgere il doppio prodotto. Per quanto riguarda il punto b l'indice di determinazione lineare è uguale a 0,776 ed è quindi chiaro che i 3/4 della variabilità di Y sono attribuibili alla dipendenza lineare da X.Il terzo punto non so proprio come svolgerlo.

Grazie in anticipo:)

Risposte
Lo_zio_Tom
"alekos95":
$sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $


qui c'è qualcosa che non va....rivedi i dati....stessa quantità ma diverso il valore :shock:

uno dei due deve essere per forza


$sum_(i)x_(i)y_(i)$

per calcolare i parametri della retta di regressione

$Y=a+bX$ basta utilizzare le formule:

$a=E(Y)-bE(X)$

$b=(Cov(X,Y))/(V(X))$

$Cov(X,Y)=E(XY)-E(X)E(Y)$

alekos95
In uno dei miei appunti ho trovato la seguente formula: $ sum_(j=1)^n (y_j^*-bar(y))=sum_(j=1)^n(y_j^(*2)+bar(y)^2-2y_j^*bar(y))=sum_(j=1)^ny_j^(*2)+nbar(y)^2-2bar(y)sum_(j=1)^ny_j^*=sum_(j=1)^ny_j^(*2)- nbar(y) $ , ed effettivamente sostituendo i valori il risultato è esatto. Un unico dubbio: dal secondo al terzo passaggio perché l'ultimo fattore non è moltiplicato per n visto che è una sommatoria? ma sopratutto come passa dalla penultima uguaglianza all'ultima?

Ancora grazie:)

alekos95
"tommik":
[quote="alekos95"]$sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $


qui c'è qualcosa che non va....rivedi i dati....stessa quantità ma diverso il valore :shock:

uno dei due deve essere per forza


$sum_(i)x_(i)y_(i)$[/quote]
Scusa tommik, ho sbagliato a non precisarlo, ma se guardi bene nella seconda sommatoria sopra la y c'è un asterisco(*)che indica i valori teorici che la y dovrebbe assumere.Purtroppo il problema non mi da la sommatoria dei prodotti delle due variabili, anzi, non mi da proprio alcuna informazione riguardo la variabile indipendente è per questo motivo che non so calcolarmi la codevianza per potermi poi calcolare i parametri della retta di regressione.

Lo_zio_Tom
Per verificare il punto b)ricordati che la devianza totale si scompone così:


$DEV_(T O T)=DEV_(R E G R)+DEV_(R E S)$

in formule:


$sum_(i)(y_(i)-bar(y))^2=sum_(i)(hat(y_(i))-bar(y))^2+sum_(i)(y_(i)-hat(y_(i)))^2$

dove i valori di $hat(y_(i))$ sono i valori di stima, ovvero quelli teorici ricavati dal valore di $Y=a+bX$

chiaro?

"alekos95":
In uno dei miei appunti ho trovato la seguente formula: $ sum_(j=1)^n (y_j^*-bar(y))=sum_(j=1)^n(y_j^(*2)+bar(y)^2-2y_j^*bar(y))=sum_(j=1)^ny_j^(*2)+nbar(y)^2-2bar(y)sum_(j=1)^ny_j^*=sum_(j=1)^ny_j^(*2)- nbar(y) $ , ed effettivamente sostituendo i valori il risultato è esatto. Un unico dubbio: dal secondo al terzo passaggio perché l'ultimo fattore non è moltiplicato per n visto che è una sommatoria? ma sopratutto come passa dalla penultima uguaglianza all'ultima?

Ancora grazie:)


perché la sommatoria c'è ancora, ha solo raccolto $2bar(y)$

e quindi $-2bar(y)sum_(i)y_(i)=-2bar(y)nbar(y)=-2nbar(y)^2$

però nella formula dei tuoi appunti manca un quadrato alla fine in quanto è noto che

$DEV_(T O T)=sum_(i)y_(i)^2-nbar(y)^2$


"alekos95":
...ho sbagliato a non precisarlo, ma se guardi bene nella seconda sommatoria sopra la y c'è un asterisco(*)che indica i valori teorici che la y dovrebbe assumere


alla faccia del bicarbonato di sodio!!(1).....ho fatto fatica a vederlo anche dopo che me lo hai detto....di solito (nelle formule che ti ho messo l'ho indicato appunto così) si indica con $hat(y_(i))$

...per risolvere il tuo problema comunque la strada è semplice:

$b=(cov(X,Y))/(V(X))=rsigma_(y)/sigma_(x)$


Punto a)

la devianza totale può essere scritta così:

$sum_(i)y_(i)^2-nbar(y)^2=1852-(8100)/6=502$

analogamente la devianza di regressione può essere scritta così (nella tua formula manca un quadrato alla media):


$sum_(i)hat(y_(i))^2-nbar(y)^2=1734.4-(8100)/6=384,4$

e ciò in quanto:

$E(E(Y|X))=sum_(x)sum_(y)yp(y|x)p(x)=sum_(x)sum_(y)yp(x,y)=sum_(y)yp(y)=E(Y)$

Punto b)

$R^2=(DEV_(R e g r))/(DEV_(T o t))=(384.4)/(502)=0.7657$

La regressione spiega circa il 77% della variabilità complessiva del fenomeno aleatorio

Punto C)

$r=+-sqrt((384,4)/(502))~= +-0,875$

Dato che il testo ci dice che la relazione fra le variabili è positiva $rarr r=0,875$

a questo punto è immediato calcolare i parametri della retta di regressione:

$b=rsigma_(y)/sigma_(x)=0,875sqrt ((83.67)/(6.67))=3,1$

$a=15-3.1\cdot6=-3.6$

quindi la retta di regressione avrà la seguente forma (qui per il calcolo ho preso $r$ con tutti i decimali....):

$hat(Y)=-3.6+3.1X$

....abbiamo finito :D

alekos95
Grazie tommik, sei stato chiarissimo :)

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.