R^2

squalllionheart
Mi spiegate bene questo $R^2$, non riesco ad entrare bene nel concetto, si dice essere un indice di adattamento, è definito:

$R^2=\frac{V(\hat{y_i})}{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N ( \hat{y_i} - \bar{y} )^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2}$


E rappresenta la percentuale di varianza campionaria spiegata dal modello.

Inoltre sul Veerbek c'è una questione che non mi torna.

Ovvero:
$R^2=1-\frac{V(e_i) }{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N e_i^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2}$

Le due equazioni sono equivalenti solo nel caso in cui il modello abbia un intercetta, diversamente se questo non avviene allora $\sum e_i$ non si annulla, e quindi non vale l'equivalenza tra le due equazioni.
Ma l'errore in media è nullo. Quindi non mi torna...

Risposte
markowitz
"squalllionheart":
Mi spiegate bene questo $ R^2 $, non riesco ad entrare bene nel concetto, si dice essere un indice di adattamento, è definito:

$ R^2=\frac{V(\hat{y_i})}{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N ( \hat{y_i} - \bar{y} )^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2} $


E rappresenta la percentuale di varianza campionaria spiegata dal modello.

Si è così, e si usa scrivere anche $ R^2 = (ESS) / (TSS)$

"squalllionheart":

Inoltre sul Veerbek c'è una questione che non mi torna.

Ovvero:
$ R^2=1-\frac{V(e_i) }{V(y_i)} =\frac{\frac{1}{N-1} \sum_1^N e_i^2 }{\frac{1}{N-1} \sum_1^N ( y_i - \bar{y} )^2} $

Le due equazioni sono equivalenti solo nel caso in cui il modello abbia un intercetta, diversamente se questo non avviene allora $ \sum e_i $ non si annulla, e quindi non vale l'equivalenza tra le due equazioni.
Ma l'errore in media è nullo. Quindi non mi torna...


questa seconda equazione è anche riassunta nella forma $ R^2 = 1 - (RSS)/(TSS)$ che è uguale alla precedente solo nel caso in cui l'intercetta sia inserita nel modello. In particolare se non è inserita è possibile dimostrare che, stando alla seconda equazione, $P(RSS>TSS)>0$ e quindi l'$ R^2$ può diventare negativo.

squalllionheart
C' è una questione riguardo l'intercetta che ricorre e ricorre in varie salse in molti contesti.
Sapresti spiegarmela io non la sto cogliendo, quali problemi genera il non esserci dell'intercetta???

markowitz
Si spesso è una questione che crea qualche fastidio (anche nella lettura degli output dei software).
Il problema è quello che ti ho già detto, senza costante diventa possibile che $RSS>TSS$. Una dimostrazione ben scritta e laboriosa ma in breve basta rendersi conto che il modello implicitamente considerato quando si parla di varianza totale ($TSS$) ammette la sola intercetta. Il modello effettivamente utilizzato spiegherà i dati sicuramente meglio di quello con sola intercetta solo se questa è presente anche nel modello stimato; da cui $0<=R^2 <=1$. Altrimenti è possibile, anche se improbabile, che il modello stimato spieghi i dati peggio di quello con sola intercetta. Peggio della media. In questi casi $RSS>TSS$ quindi $R^2 <0$.
Peraltro le due scritture sopra non sono più equivalenti ed il problema è proprio questo perchè chi usa la convenzione $R^2 = 1 - (RSS)/(TSS)$
si trova con $R^2 <=1$ ma senza lower bound

chi usa quella $R^2 = (ESS)/(TSS)$
si trova con $R^2 >=0$ ma senza upper bound

morale della favola, a meno di casi speciali, è sempre meglio mettere la costante.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.