Varianza aritmetica

chester92
Ciao, ho questo dubbio: nel calcolo della varianza aritmetica, ossia tramite [tex]\sum_1^n (x_i - \bar{x})^2[/tex] alla fine questa quantità occorre dividerla per [tex]n[/tex] o [tex]n-1[/tex]? La formula che ho trovato dice n, ma io mi trovo che dovrebbe essere n-1 , infatti prendiamo ad esempio 1 2 e 3: la media è 2, mentre la varianza si vede ad occhio che è 1! Quest'ultimo valore si ottiene solo se si divide per n-1=2 ...

Risposte
cenzo1
Dipende.
Se fai statistica descrittiva sui dati o quei dati rappresentano tutta la popolazione, si divide per $n$.
(in modo coerente con la definizione di varianza).

Se invece quei dati provengono da un campione e vuoi stimare la varianza della popolazione, per avere una stima corretta (non distorta) occorre dividere per $n-1$.
Dai uno sguardo su wiki.

chester92
Scusa potresti spiegarti meglio?Anche la wiki presuppone concetti avanzati di statistica (che a me non servono) mentre per me la varianza non è altro che una semplice misura di quanto un insieme di dati si discosta dal valor medio...
A me interesserebbe il significato logico...qual'è la differenza tra le 2 quantità?Nella wiki dice che lo stimatore ottenuto con n-1 ha un valore atteso che è proprio la varianza...ma allora quell'altro cos'è??E perché si usa se io è proprio la varianza che voglio trovare??

cenzo1
"chester92":
Scusa potresti spiegarti meglio?Anche la wiki presuppone concetti avanzati di statistica (che a me non servono) mentre per me la varianza non è altro che una semplice misura di quanto un insieme di dati si discosta dal valor medio...
A me interesserebbe il significato logico...qual'è la differenza tra le 2 quantità?Nella wiki dice che lo stimatore ottenuto con n-1 ha un valore atteso che è proprio la varianza...ma allora quell'altro cos'è??E perché si usa se io è proprio la varianza che voglio trovare??

Supponi di voler calcolare la varianza dell'altezza \(X\) di tutta la popolazione italiana ( \(N\) individui). La formula da usare sarebbe:
\[ Var(X)=\frac{\sum_{i=1}^{N}(x_i- \mu)^2}{N} \ \ (1) \]
dove con \( \mu \) ho indicato la media della popolazione.
Sarebbe però un'operazione lunga e costosa misurare l'altezza di circa \(N=60\) milioni di individui!
Decidiamo allora di estrarre dalla popolazione un campione di \(n=1000\) individui.
La varianza dell'altezza nel campione è:
\[ \frac{\sum_{i=1}^{n}(x_i- \bar x)^2}{n} \ \ (2)\]
dove con \( \bar{x} \) ho indicato la media del campione.
Domanda: avendo solo la varianza del campione (2), riusciamo a capire quanto vale la varianza nell'intera popolazione (1) ?
In altri termini: la varianza del campione (2) è una buona stima della varianza della popolazione (1) ?
Tieni presente che la varianza (1) è un numero che non conosciamo, mentre la varianza (2) è variabile a seconda del particolare campione che ci è capitato di estrarre.
Al variare dei possibili campioni di numerosità $n$ che possiamo estrarre dalla popolazione $N$, il valore ottenuto in (2) è una stima della varianza della poplazione (1).
Si dimostra che tale stima non è corretta, cioè, in media, non otteniamo esattamente la varianza della popolazione (1).
Per avere una stima corretta della varianza della popolazione (1), utilizzando un campione, occorre apportare la correzione al denominatore e dividere per $n-1$:
\[ \frac{\sum_{i=1}^{n}(x_i- \bar x)^2}{n-1} \]
La dimostrazione che questo stimatore è corretto, la puoi vedere su wiki.

Ovvio che se abbiamo la possibilità di misurare tutta la popolazione usiamo la (1).

chester92
Una risposta chiarissima, mi hai tolto ogni dubbio!
Grazie mille!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.