Parametri retta di regressione, variabilità spiegata
Con riferimento alla seguente distribuzione di frequenze di 1000 famiglie secondo il reddito ed il
consumo medio mensile misurati in migliaia di euro:
(a) Calcolare i parametri della retta di regressione del consumo (Y ) rispetto al reddito (X).
(b) Secondo il modello stimato, quale sarebbe il consumo di una famiglia che guadagna 2500 euro?
c) Calcolare la variabilità spiegata della retta.
A)
$ Y= b_0 + b_1(x) => b_1= sigma_(XY)/(sigma^2)_x $
La varianza di X mi viene
$ (sigma^2)_x=2.85 $
Per trovare la covarianza servono la media di x e la media di y, e cos' altro? Il prodotto XY moltiplicato per le frequenze?
$ mu_x=6.58; mu_Y=3.58 $
B)Per risolvere questo punto dovrei prima risolvere il punto A e trovare l' intercetta e il coeff. angolare della retta di regressione.
C) La formula della variabilità spiegata è $ V.S.= R^2*(sigma^2)_y $
Ovvero coefficiente di relazione al quadrato moltiplicato per la variabilità totale. Ma qui come calcolo la variabilità totale?
consumo medio mensile misurati in migliaia di euro:
Reddito | 5 | 6 | 8 | 3 | 7 |
---|---|---|---|---|---|
4 | 2 | 5 | 1 | 3 | N° di famiglie |
(a) Calcolare i parametri della retta di regressione del consumo (Y ) rispetto al reddito (X).
(b) Secondo il modello stimato, quale sarebbe il consumo di una famiglia che guadagna 2500 euro?
c) Calcolare la variabilità spiegata della retta.
A)
$ Y= b_0 + b_1(x) => b_1= sigma_(XY)/(sigma^2)_x $
La varianza di X mi viene
$ (sigma^2)_x=2.85 $
Per trovare la covarianza servono la media di x e la media di y, e cos' altro? Il prodotto XY moltiplicato per le frequenze?
$ mu_x=6.58; mu_Y=3.58 $
XY |
---|
12 |
3 |
B)Per risolvere questo punto dovrei prima risolvere il punto A e trovare l' intercetta e il coeff. angolare della retta di regressione.
C) La formula della variabilità spiegata è $ V.S.= R^2*(sigma^2)_y $
Ovvero coefficiente di relazione al quadrato moltiplicato per la variabilità totale. Ma qui come calcolo la variabilità totale?
Risposte
Prova a fare lo stesso esercizio senza le frequenze, ovvero solo con consumo e reddito. Se non riesci allora devi studiare meglio la teoria, se invece riesci allora non ti resta che modificare le formule inserendo anche le frequenze, cioè i " pesi" delle variabili.
Covarianza?
$E (XY)-E (X)E (Y) $
$sum _x sum_ y xy p (x,y)- sum_x xp (x) sum_y yp (y) $
Varianza?
$E (X^2)-E^2 (X)= (sum_i X_i ^2)/n-bar(x)^2 =sum_i X_i ^2p(X_i)-[sum_i X_i p(X_i)]^2$
ecc ecc
Covarianza?
$E (XY)-E (X)E (Y) $
$sum _x sum_ y xy p (x,y)- sum_x xp (x) sum_y yp (y) $
Varianza?
$E (X^2)-E^2 (X)= (sum_i X_i ^2)/n-bar(x)^2 =sum_i X_i ^2p(X_i)-[sum_i X_i p(X_i)]^2$
ecc ecc
Un esercizio senza le frequenze l' ho fatto prima di questo e risultava.
Ma vediamo questo senza le frequenze. Il punto A)
$ mu_Y=3; mu_X=5.8 $
$ (sigma^2)_x=[(5-5.8)^2+(6-5.8)^2+(8-5.8)^2+(3-5.8)^2+(7-5.8)^2]/5=2.96 $
$ COV=96/5 - 3*5.8=1.8 $
$ Y=b_0 +b_1*x => per (6;2) b_0=Y - b_1*x=2-0.60*6=-1.6 $
Dove sbaglio?
Ma vediamo questo senza le frequenze. Il punto A)
$ mu_Y=3; mu_X=5.8 $
$ (sigma^2)_x=[(5-5.8)^2+(6-5.8)^2+(8-5.8)^2+(3-5.8)^2+(7-5.8)^2]/5=2.96 $
X | Y | XY |
---|---|---|
4 | 20 | 6 |
12 | 8 | 5 |
3 | 1 | 3 |
3 | 21 |
$ COV=96/5 - 3*5.8=1.8 $
$ Y=b_0 +b_1*x => per (6;2) b_0=Y - b_1*x=2-0.60*6=-1.6 $
Dove sbaglio?
$b_1=(Cov)/(V(x))=(1.8)/(2.96)=0.608$
$b_0=E(y)-b_1 E(x)=3-0.608\cdot5.8=-0.527$

In questo caso hai utilizzato tutte le frequenze $=1/5$. fai la stessa cosa cambiando le frequenze. L'esercizio non presenta alcuna difficoltà concettuale, basta applicare le formule
Magari con i dati impostati in modo più schematico capisci anche gli errori che fai

un file così con un foglio elettronico lo fai in 5 minuti....ho fatto i conti in fretta e furia, spero di non aver fatto qualche errore
$b_0=E(y)-b_1 E(x)=3-0.608\cdot5.8=-0.527$
Click sull'immagine per visualizzare l'originale

In questo caso hai utilizzato tutte le frequenze $=1/5$. fai la stessa cosa cambiando le frequenze. L'esercizio non presenta alcuna difficoltà concettuale, basta applicare le formule
Magari con i dati impostati in modo più schematico capisci anche gli errori che fai
Click sull'immagine per visualizzare l'originale

un file così con un foglio elettronico lo fai in 5 minuti....ho fatto i conti in fretta e furia, spero di non aver fatto qualche errore
Penso di aver capito come risolverlo.
Però i risultati mi vengono diversi di poco nell' ultimo decimale. Posso chiederti come hai scelto il numero di cifre significative da prendere quando fai i calcoli?
Le frequenze relative che hai calcolato sono necessarie o bastava eseguire il procedimento con le frequenze assolute già date?
Però i risultati mi vengono diversi di poco nell' ultimo decimale. Posso chiederti come hai scelto il numero di cifre significative da prendere quando fai i calcoli?
Le frequenze relative che hai calcolato sono necessarie o bastava eseguire il procedimento con le frequenze assolute già date?
Ok mentre per il punto B) basta sostituire il valore di X all' interno della retta di regressione?
Dato che i valori nella tabella sono espressi come X/1000 nella retta sostituisco X=2.5?
$ Y=-0.310+0.591*2.5= 1.19 $
Dato che i valori nella tabella sono espressi come X/1000 nella retta sostituisco X=2.5?
$ Y=-0.310+0.591*2.5= 1.19 $
Reddito | 4 | 2 | 5 | 1 | 3 |
---|---|---|---|---|---|
5 | 6 | 8 | 3 | 7 | N° Famiglie |
Questo esercizio è pressocchè identico al precedente. Anche qui chiede i parametri della retta di regressione, la variabilità spiegata, e il consumo con un dato valore di reddito. In più aggiunge questa domanda:
- Come varierebbe il coefficiente di determinazione se ciascuna modalità del consumo venisse moltiplicata per -0.75? (Motivare la risposta in modo opportuno)
Ciò che mi interessa quindi è capire quest' ultimo punto.
Dato che:
$ R^2=[(COV)/(V(X))]^2 $
Variando i consumi il coeff. dipende soltanto dal numeratore, cioè la covarianza. Variando le Y variano anche il prodotto XYP e la media di Y.
La nuova media è uguale a quella iniziale moltiplicata per -0.75, il prodotto XYP si moltiplica per -0.75, quindi sostituisco i dati per ottenere la nuova covarianza e mi trovo il nuovo coeff. di determinazione.
Fermo restando di aver ragionato bene, c' è un modo più veloce e intuitivo per trovare il nuovo R^2?
Si, mi sono confuso con la formula per il calcolo del coeff. angolare della retta di regressione. Ok, risolto.
Il ricercatore di mercato Giorgio vuole verificare l'effcacia di una campagna pubblicitaria di una
marca di birra. Giorgio dispone di n = 1000 osservazioni mensili dei guadagni e delle vendite della
bevanda in questione ed elabora le seguenti statistiche:
$ sum^(1000)(y_i=2320) ; sum^(1000)(x_i=4720) ; sum^(1000)(x_i*y_i=13130); sum^(1000)(y^2=8180) ;sum^(1000)(x^2=28500) $
Tutte le sommatorie partono da i=1.
a)Ricavare una stima dei parametri del modello di regressione con variabile dipendente y e variabile indipendente x.
b)Calcolare la varianza residua. Commentare il risultato in termini di bontà di adattamento del modello ai dati.
c) Come varierebbe il coeffciente di determinazione se i guadagni fossero moltiplicati per -1 (se avessimo cioè delle perdite)?
A)Qui procedo con il calcolarmi la covarianza e le medie.
$ mu_x=4720/1000=4.720; mu_y=2.320 => COV=13130/1000 - 4.720*2.320=2.180 $
$ Y=a+bx = > b=(cov)/[V(X)] $
E per la varianza di x come procedo?
$ V(x)= [sum(x-mu_x)^2]/1000=(sum[(x_i)^2 + (mu_x)^2 - 2(xmu_x)])/1000 $
Ha senso l' ultima che ho scritto?
marca di birra. Giorgio dispone di n = 1000 osservazioni mensili dei guadagni e delle vendite della
bevanda in questione ed elabora le seguenti statistiche:
$ sum^(1000)(y_i=2320) ; sum^(1000)(x_i=4720) ; sum^(1000)(x_i*y_i=13130); sum^(1000)(y^2=8180) ;sum^(1000)(x^2=28500) $
Tutte le sommatorie partono da i=1.
a)Ricavare una stima dei parametri del modello di regressione con variabile dipendente y e variabile indipendente x.
b)Calcolare la varianza residua. Commentare il risultato in termini di bontà di adattamento del modello ai dati.
c) Come varierebbe il coeffciente di determinazione se i guadagni fossero moltiplicati per -1 (se avessimo cioè delle perdite)?
A)Qui procedo con il calcolarmi la covarianza e le medie.
$ mu_x=4720/1000=4.720; mu_y=2.320 => COV=13130/1000 - 4.720*2.320=2.180 $
$ Y=a+bx = > b=(cov)/[V(X)] $
E per la varianza di x come procedo?
$ V(x)= [sum(x-mu_x)^2]/1000=(sum[(x_i)^2 + (mu_x)^2 - 2(xmu_x)])/1000 $
Ha senso l' ultima che ho scritto?
la varianza? basta usare la definizione; ciò che hai scritto va benissimo, se prosegui nei conti ti ritrovi così:
$V(X)=(sum_(i) X_i ^2)/n-bar(X)^2$
...e quindi hai risolto.
non è obbligatorio ma sarebbe meglio aprire un nuovo topic per ogni esercizio....così la stanza rimane più in ordine
ciao
$V(X)=(sum_(i) X_i ^2)/n-bar(X)^2$
...e quindi hai risolto.
non è obbligatorio ma sarebbe meglio aprire un nuovo topic per ogni esercizio....così la stanza rimane più in ordine
ciao
Ok, i prossimi li posterò in nuovi topic. Erroneamente pensavo di creare meno caos creando pochi topic.
Quindi:
A) $ V(x)=(sum(x^2))/n - bar X^2= 28500/1000 - (2.320)^2=6.220 $
$ b=(COV)/V(x)=2.180/6.220=0.350 $
$ barY=a+b*barX => a=barY-b*barX=2.320-0.350*4.720=0.668 $
B) $ V_(residua)=(1-R^2)V(y)=(1-0.2732)*2.798=2.033 $
$ sqrt(V(x))=2.493; sqrt(V(y))=sqrt((sum(y^2))/n - barY^2)=sqrt(2.798)=1.673 $
$ R^2=[(COV)/(sigmax*sigmay)]^2=0.2732 $
L' esercizio chiede di commentare i dati in termini di bontà di adattamento del modello ai dati.
Come si potrebbe rispondere in modo opportuno a questa domanda?
C)
Le uniche cose che dovrebbero cambiare in partenzo sono la media e la sommatoria del prodotto XY (questa diventa negativa).
$ sum(x_i)=-4720; barX=-4.720; COV=-13.130-(-4.720*2.320)=-2.180 $
La varianza di x non cambia quindi $ sqrt(V(x))=2.493; sqrt(v(y))=1.673 $
$ R^2=[(COV)/((sigma_x)*(sigma_y))]^2=(-2.180/(2.493*1.673))^2=0.27 $
Quindi:
A) $ V(x)=(sum(x^2))/n - bar X^2= 28500/1000 - (2.320)^2=6.220 $
$ b=(COV)/V(x)=2.180/6.220=0.350 $
$ barY=a+b*barX => a=barY-b*barX=2.320-0.350*4.720=0.668 $
B) $ V_(residua)=(1-R^2)V(y)=(1-0.2732)*2.798=2.033 $
$ sqrt(V(x))=2.493; sqrt(V(y))=sqrt((sum(y^2))/n - barY^2)=sqrt(2.798)=1.673 $
$ R^2=[(COV)/(sigmax*sigmay)]^2=0.2732 $
L' esercizio chiede di commentare i dati in termini di bontà di adattamento del modello ai dati.
Come si potrebbe rispondere in modo opportuno a questa domanda?
C)
Le uniche cose che dovrebbero cambiare in partenzo sono la media e la sommatoria del prodotto XY (questa diventa negativa).
$ sum(x_i)=-4720; barX=-4.720; COV=-13.130-(-4.720*2.320)=-2.180 $
La varianza di x non cambia quindi $ sqrt(V(x))=2.493; sqrt(v(y))=1.673 $
$ R^2=[(COV)/((sigma_x)*(sigma_y))]^2=(-2.180/(2.493*1.673))^2=0.27 $
"Stefano41094":
L' esercizio chiede di commentare i dati in termini di bontà di adattamento del modello ai dati.
Come si potrebbe rispondere in modo opportuno a questa domanda?
"Se il ricercatore Giorgio verificasse l'efficacia della campagna pubblicitaria della birra in questione lanciando una moneta oppure chiedendo le opinioni degli amici al bar sicuramente otterrebbe risultati più attendibili"
Questo perchè la varianza totale e la residua sono pressocchè identiche (e in altre parole perchè la varianza spiegata è molto ridotta rispetto a quella totale)?
Se per ipotesi 2.033 fosse il valore della varianza spiegata avremmo risultati del test più attendibili e quindi una maggiore bontà di adattamento ai dati?
Se per ipotesi 2.033 fosse il valore della varianza spiegata avremmo risultati del test più attendibili e quindi una maggiore bontà di adattamento ai dati?