R^2
Mi spiegate bene questo $R^2$, non riesco ad entrare bene nel concetto, si dice essere un indice di adattamento, è definito:
$R^2=\frac{V(\hat{y_i})}{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N ( \hat{y_i} - \bar{y} )^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2}$
E rappresenta la percentuale di varianza campionaria spiegata dal modello.
Inoltre sul Veerbek c'è una questione che non mi torna.
Ovvero:
$R^2=1-\frac{V(e_i) }{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N e_i^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2}$
Le due equazioni sono equivalenti solo nel caso in cui il modello abbia un intercetta, diversamente se questo non avviene allora $\sum e_i$ non si annulla, e quindi non vale l'equivalenza tra le due equazioni.
Ma l'errore in media è nullo. Quindi non mi torna...
$R^2=\frac{V(\hat{y_i})}{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N ( \hat{y_i} - \bar{y} )^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2}$
E rappresenta la percentuale di varianza campionaria spiegata dal modello.
Inoltre sul Veerbek c'è una questione che non mi torna.
Ovvero:
$R^2=1-\frac{V(e_i) }{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N e_i^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2}$
Le due equazioni sono equivalenti solo nel caso in cui il modello abbia un intercetta, diversamente se questo non avviene allora $\sum e_i$ non si annulla, e quindi non vale l'equivalenza tra le due equazioni.
Ma l'errore in media è nullo. Quindi non mi torna...
Risposte
"squalllionheart":
Mi spiegate bene questo $ R^2 $, non riesco ad entrare bene nel concetto, si dice essere un indice di adattamento, è definito:
$ R^2=\frac{V(\hat{y_i})}{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N ( \hat{y_i} - \bar{y} )^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2} $
E rappresenta la percentuale di varianza campionaria spiegata dal modello.
Si è così, e si usa scrivere anche $ R^2 = (ESS) / (TSS)$
"squalllionheart":
Inoltre sul Veerbek c'è una questione che non mi torna.
Ovvero:
$ R^2=1-\frac{V(e_i) }{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N e_i^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2} $
Le due equazioni sono equivalenti solo nel caso in cui il modello abbia un intercetta, diversamente se questo non avviene allora $ \sum e_i $ non si annulla, e quindi non vale l'equivalenza tra le due equazioni.
Ma l'errore in media è nullo. Quindi non mi torna...
questa seconda equazione è anche riassunta nella forma $ R^2 = 1 - (RSS)/(TSS)$ che è uguale alla precedente solo nel caso in cui l'intercetta sia inserita nel modello. In particolare se non è inserita è possibile dimostrare che, stando alla seconda equazione, $P(RSS>TSS)>0$ e quindi l'$ R^2$ può diventare negativo.
C' è una questione riguardo l'intercetta che ricorre e ricorre in varie salse in molti contesti.
Sapresti spiegarmela io non la sto cogliendo, quali problemi genera il non esserci dell'intercetta???
Sapresti spiegarmela io non la sto cogliendo, quali problemi genera il non esserci dell'intercetta???
Si spesso è una questione che crea qualche fastidio (anche nella lettura degli output dei software).
Il problema è quello che ti ho già detto, senza costante diventa possibile che $RSS>TSS$. Una dimostrazione ben scritta e laboriosa ma in breve basta rendersi conto che il modello implicitamente considerato quando si parla di varianza totale ($TSS$) ammette la sola intercetta. Il modello effettivamente utilizzato spiegherà i dati sicuramente meglio di quello con sola intercetta solo se questa è presente anche nel modello stimato; da cui $0<=R^2 <=1$. Altrimenti è possibile, anche se improbabile, che il modello stimato spieghi i dati peggio di quello con sola intercetta. Peggio della media. In questi casi $RSS>TSS$ quindi $R^2 <0$.
Peraltro le due scritture sopra non sono più equivalenti ed il problema è proprio questo perchè chi usa la convenzione $R^2 = 1 - (RSS)/(TSS)$
si trova con $R^2 <=1$ ma senza lower bound
chi usa quella $R^2 = (ESS)/(TSS)$
si trova con $R^2 >=0$ ma senza upper bound
morale della favola, a meno di casi speciali, è sempre meglio mettere la costante.
Il problema è quello che ti ho già detto, senza costante diventa possibile che $RSS>TSS$. Una dimostrazione ben scritta e laboriosa ma in breve basta rendersi conto che il modello implicitamente considerato quando si parla di varianza totale ($TSS$) ammette la sola intercetta. Il modello effettivamente utilizzato spiegherà i dati sicuramente meglio di quello con sola intercetta solo se questa è presente anche nel modello stimato; da cui $0<=R^2 <=1$. Altrimenti è possibile, anche se improbabile, che il modello stimato spieghi i dati peggio di quello con sola intercetta. Peggio della media. In questi casi $RSS>TSS$ quindi $R^2 <0$.
Peraltro le due scritture sopra non sono più equivalenti ed il problema è proprio questo perchè chi usa la convenzione $R^2 = 1 - (RSS)/(TSS)$
si trova con $R^2 <=1$ ma senza lower bound
chi usa quella $R^2 = (ESS)/(TSS)$
si trova con $R^2 >=0$ ma senza upper bound
morale della favola, a meno di casi speciali, è sempre meglio mettere la costante.