Problema statistica
Sono stati rilevati i millimetri di lunghezza media $ (y_j) $ e i millimetri di larghezza media $ (x_j) $ dei petali di 6 girasoli.
a)Determina la formula calcolatoria per la devianza di regressione di Y.
Conoscendo le quantità: $ sum_(j=1)^6 x_j=36, sum_(j=1)^6 x_j^2=256,sum_(j=1)^6 y_j=90,sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $
b)Dopo aver verificato che la devianza di regressione sia pari a 384,40 determinare $ R^2 $ e commentare il risultato.
c)Sapendo che la relazione tra i due caratteri è positiva, determinare i parametri del modello di regressione lineare di Y su X.
Il mio ragionamento: per il primo punto ho provato a sviluppare il quadrato della formula della devianza di regressione di Y $ sum_(j=1)^6(y_j^*-bar(y))^2=sum_(j=1)^6(y_j^(*2)+bar(y)^2-2y_j^*bar(y)) $ ma non penso di avere a disposizione i dati necessari per svolgere il doppio prodotto. Per quanto riguarda il punto b l'indice di determinazione lineare è uguale a 0,776 ed è quindi chiaro che i 3/4 della variabilità di Y sono attribuibili alla dipendenza lineare da X.Il terzo punto non so proprio come svolgerlo.
Grazie in anticipo:)
a)Determina la formula calcolatoria per la devianza di regressione di Y.
Conoscendo le quantità: $ sum_(j=1)^6 x_j=36, sum_(j=1)^6 x_j^2=256,sum_(j=1)^6 y_j=90,sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $
b)Dopo aver verificato che la devianza di regressione sia pari a 384,40 determinare $ R^2 $ e commentare il risultato.
c)Sapendo che la relazione tra i due caratteri è positiva, determinare i parametri del modello di regressione lineare di Y su X.
Il mio ragionamento: per il primo punto ho provato a sviluppare il quadrato della formula della devianza di regressione di Y $ sum_(j=1)^6(y_j^*-bar(y))^2=sum_(j=1)^6(y_j^(*2)+bar(y)^2-2y_j^*bar(y)) $ ma non penso di avere a disposizione i dati necessari per svolgere il doppio prodotto. Per quanto riguarda il punto b l'indice di determinazione lineare è uguale a 0,776 ed è quindi chiaro che i 3/4 della variabilità di Y sono attribuibili alla dipendenza lineare da X.Il terzo punto non so proprio come svolgerlo.
Grazie in anticipo:)
Risposte
"alekos95":
$sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $
qui c'è qualcosa che non va....rivedi i dati....stessa quantità ma diverso il valore

uno dei due deve essere per forza
$sum_(i)x_(i)y_(i)$
per calcolare i parametri della retta di regressione
$Y=a+bX$ basta utilizzare le formule:
$a=E(Y)-bE(X)$
$b=(Cov(X,Y))/(V(X))$
$Cov(X,Y)=E(XY)-E(X)E(Y)$
In uno dei miei appunti ho trovato la seguente formula: $ sum_(j=1)^n (y_j^*-bar(y))=sum_(j=1)^n(y_j^(*2)+bar(y)^2-2y_j^*bar(y))=sum_(j=1)^ny_j^(*2)+nbar(y)^2-2bar(y)sum_(j=1)^ny_j^*=sum_(j=1)^ny_j^(*2)- nbar(y) $ , ed effettivamente sostituendo i valori il risultato è esatto. Un unico dubbio: dal secondo al terzo passaggio perché l'ultimo fattore non è moltiplicato per n visto che è una sommatoria? ma sopratutto come passa dalla penultima uguaglianza all'ultima?
Ancora grazie:)
Ancora grazie:)
"tommik":
[quote="alekos95"]$sum_(j=1)^6 y_j^2=1852,sum_(j=1)^6 y_j^(*2)=1734,4 $
qui c'è qualcosa che non va....rivedi i dati....stessa quantità ma diverso il valore

uno dei due deve essere per forza
$sum_(i)x_(i)y_(i)$[/quote]
Scusa tommik, ho sbagliato a non precisarlo, ma se guardi bene nella seconda sommatoria sopra la y c'è un asterisco(*)che indica i valori teorici che la y dovrebbe assumere.Purtroppo il problema non mi da la sommatoria dei prodotti delle due variabili, anzi, non mi da proprio alcuna informazione riguardo la variabile indipendente è per questo motivo che non so calcolarmi la codevianza per potermi poi calcolare i parametri della retta di regressione.
Per verificare il punto b)ricordati che la devianza totale si scompone così:
$DEV_(T O T)=DEV_(R E G R)+DEV_(R E S)$
in formule:
$sum_(i)(y_(i)-bar(y))^2=sum_(i)(hat(y_(i))-bar(y))^2+sum_(i)(y_(i)-hat(y_(i)))^2$
dove i valori di $hat(y_(i))$ sono i valori di stima, ovvero quelli teorici ricavati dal valore di $Y=a+bX$
chiaro?
perché la sommatoria c'è ancora, ha solo raccolto $2bar(y)$
e quindi $-2bar(y)sum_(i)y_(i)=-2bar(y)nbar(y)=-2nbar(y)^2$
però nella formula dei tuoi appunti manca un quadrato alla fine in quanto è noto che
$DEV_(T O T)=sum_(i)y_(i)^2-nbar(y)^2$
alla faccia del bicarbonato di sodio!!(1).....ho fatto fatica a vederlo anche dopo che me lo hai detto....di solito (nelle formule che ti ho messo l'ho indicato appunto così) si indica con $hat(y_(i))$
...per risolvere il tuo problema comunque la strada è semplice:
$b=(cov(X,Y))/(V(X))=rsigma_(y)/sigma_(x)$
Punto a)
la devianza totale può essere scritta così:
$sum_(i)y_(i)^2-nbar(y)^2=1852-(8100)/6=502$
analogamente la devianza di regressione può essere scritta così (nella tua formula manca un quadrato alla media):
$sum_(i)hat(y_(i))^2-nbar(y)^2=1734.4-(8100)/6=384,4$
e ciò in quanto:
$E(E(Y|X))=sum_(x)sum_(y)yp(y|x)p(x)=sum_(x)sum_(y)yp(x,y)=sum_(y)yp(y)=E(Y)$
Punto b)
$R^2=(DEV_(R e g r))/(DEV_(T o t))=(384.4)/(502)=0.7657$
La regressione spiega circa il 77% della variabilità complessiva del fenomeno aleatorio
Punto C)
$r=+-sqrt((384,4)/(502))~= +-0,875$
Dato che il testo ci dice che la relazione fra le variabili è positiva $rarr r=0,875$
a questo punto è immediato calcolare i parametri della retta di regressione:
$b=rsigma_(y)/sigma_(x)=0,875sqrt ((83.67)/(6.67))=3,1$
$a=15-3.1\cdot6=-3.6$
quindi la retta di regressione avrà la seguente forma (qui per il calcolo ho preso $r$ con tutti i decimali....):
$hat(Y)=-3.6+3.1X$
....abbiamo finito
$DEV_(T O T)=DEV_(R E G R)+DEV_(R E S)$
in formule:
$sum_(i)(y_(i)-bar(y))^2=sum_(i)(hat(y_(i))-bar(y))^2+sum_(i)(y_(i)-hat(y_(i)))^2$
dove i valori di $hat(y_(i))$ sono i valori di stima, ovvero quelli teorici ricavati dal valore di $Y=a+bX$
chiaro?
"alekos95":
In uno dei miei appunti ho trovato la seguente formula: $ sum_(j=1)^n (y_j^*-bar(y))=sum_(j=1)^n(y_j^(*2)+bar(y)^2-2y_j^*bar(y))=sum_(j=1)^ny_j^(*2)+nbar(y)^2-2bar(y)sum_(j=1)^ny_j^*=sum_(j=1)^ny_j^(*2)- nbar(y) $ , ed effettivamente sostituendo i valori il risultato è esatto. Un unico dubbio: dal secondo al terzo passaggio perché l'ultimo fattore non è moltiplicato per n visto che è una sommatoria? ma sopratutto come passa dalla penultima uguaglianza all'ultima?
Ancora grazie:)
perché la sommatoria c'è ancora, ha solo raccolto $2bar(y)$
e quindi $-2bar(y)sum_(i)y_(i)=-2bar(y)nbar(y)=-2nbar(y)^2$
però nella formula dei tuoi appunti manca un quadrato alla fine in quanto è noto che
$DEV_(T O T)=sum_(i)y_(i)^2-nbar(y)^2$
"alekos95":
...ho sbagliato a non precisarlo, ma se guardi bene nella seconda sommatoria sopra la y c'è un asterisco(*)che indica i valori teorici che la y dovrebbe assumere
alla faccia del bicarbonato di sodio!!(1).....ho fatto fatica a vederlo anche dopo che me lo hai detto....di solito (nelle formule che ti ho messo l'ho indicato appunto così) si indica con $hat(y_(i))$
...per risolvere il tuo problema comunque la strada è semplice:
$b=(cov(X,Y))/(V(X))=rsigma_(y)/sigma_(x)$
Punto a)
la devianza totale può essere scritta così:
$sum_(i)y_(i)^2-nbar(y)^2=1852-(8100)/6=502$
analogamente la devianza di regressione può essere scritta così (nella tua formula manca un quadrato alla media):
$sum_(i)hat(y_(i))^2-nbar(y)^2=1734.4-(8100)/6=384,4$
e ciò in quanto:
$E(E(Y|X))=sum_(x)sum_(y)yp(y|x)p(x)=sum_(x)sum_(y)yp(x,y)=sum_(y)yp(y)=E(Y)$
Punto b)
$R^2=(DEV_(R e g r))/(DEV_(T o t))=(384.4)/(502)=0.7657$
La regressione spiega circa il 77% della variabilità complessiva del fenomeno aleatorio
Punto C)
$r=+-sqrt((384,4)/(502))~= +-0,875$
Dato che il testo ci dice che la relazione fra le variabili è positiva $rarr r=0,875$
a questo punto è immediato calcolare i parametri della retta di regressione:
$b=rsigma_(y)/sigma_(x)=0,875sqrt ((83.67)/(6.67))=3,1$
$a=15-3.1\cdot6=-3.6$
quindi la retta di regressione avrà la seguente forma (qui per il calcolo ho preso $r$ con tutti i decimali....):
$hat(Y)=-3.6+3.1X$
....abbiamo finito

Grazie tommik, sei stato chiarissimo
