Limite varianza campionaria

The_Mad_Hatter
Salve, è da qualche mese ormai che ho tralasciato la statistica, ma ieri ho avuto l'occasione di leggere su un altro forum una discussione sulla varianza campionaria che mi ha lasciato alquanto perplesso.

[...]la varianza campionaria cambia in base al campione e in particolare all'infinito sarà nulla, cioè $lim_(n->+oo)S^2=0$.

Sinceramente quest'affermazione mi ha lasciato un po' sbigottito, tutt'ora non credo sia vera (e vi spiego cosa mi ha portato a crederlo) anche se non ho consultato alcun testo (di miei non ne ho e su internet si trova poco e nulla).

Perciò cerco delle conferme o smentite da voi.


Premetto che si stava parlando di varianza campionaria con media $\mu$ nota, anche se i ragionamenti si possono facilmente "traslare" su $S_(n-1)^2$.
Inizialmente avevo pensato che $S^2$ è uno stimatore asintoticamente corretto e che pertanto sarebbe dovuto essere $lim_(n->+oo) S^2 = \sigma^2$.

Poi però ho ricordato meglio la definizione di stimatore asintoticamente corretto, per la quale deve essere $lim_(n->+oo) E(S^2) - \sigma^2 = 0$, quindi $lim_(n->+oo) E(S^2) = \sigma^2$ e non ciò che ho scritto sopra.

A questo punto provo a ragionare sulla definizione della varianza campionaria:
$S^2 = 1/n sum (x_i-\mu)^2$

Dato che così in generale non saprei come procedere per calcolarne il limite, provo ad applicarne un esempio ad un caso a me noto... con un ragionamento forse poco ortodosso ma che per me sembra funzionare :-D
Considero una V.A. bernoulliana $X$ di parametro $p$; per la legge dei grandi numeri, la media campionaria $\bar{X}$ di un campione di dimensione $N$ di ripetizioni di $X$ deve convergere alla media $\mu = p$ di $X$ per $N -> +oo$.

Quindi nel campione avrò $N_1$ successi ed $N_0 = N-N_1$ insuccessi, con probabilità uguali a quelle teoriche, pertanto $p = N_1/N$ e $q=1-p=N_0/N$.

Provo a calcolare la varianza campionaria su questo ipotetico campione, ottenendo $S^2 = 1/N ( N_1*(1-p)^2 + N_0*(0-p)^2) ) = (q^2N_1 + p^2N_0)/N$.

Ora, dalle formule precedenti so che $N_1 = N*p$ e $N_0 = N*q$, pertanto $S^2 = (q^2Np + p^2Nq)/N = qp(q+p) = pq = \sigma^2$.


Che poi era il caso che interessava a me, dato che di questo si stava parlando.


Fila il ragionamento? Ho fatto dei passaggi non leciti?

Qualcuno mi può dire quanto vale in generale $lim_(n->+oo) S^2$ ? E magari anche perché?



P.S.: ho letto dallo stesso tizio che dispone di una dimostrazione secondo la quale $lim_(n->+oo) S^2 = 0$. Non vorrei che si fosse confuso con $lim_(n->+oo) Var(S^2)$, che ho letto altrove essere $0$ (senza dimostrazione però).

Risposte
Arado90
Se definisci la varianza campionaria come la somma dei quadrati degli scarti dalla media diviso $n$ ed $n->infty$ allora hai una quantità costante al numeratore ed un valore che tende all'infinito al denominatore. Presa in questo modo effettivamente il tutto tende a $0$.

The_Mad_Hatter
"Arado90":
Se definisci la varianza campionaria come la somma dei quadrati degli scarti dalla media diviso $n$ ed $n->infty$ allora hai una quantità costante al numeratore ed un valore che tende all'infinito al denominatore. Presa in questo modo effettivamente il tutto tende a $0$.

Me lo potresti far vedere formalmente?

Perché la parte che sta sopra sarebbe una quantità costante? Il mio procedimento dove è sbagliato?

Posto che sto definendo come la varianza come "la somma dei quadrati degli scarti dalla media diviso $n$", ho:
$S^2 = (sum(x_i-\mu)^2)/n$
Perché la sommatoria è costante? Vi è una somma di $n$ termini[1], che a me sembra variare con $n$...

A me sembra più logico che per $n->+oo$ quella quantità converga alla varianza, ed infatti è stato questo il riusultato che ho ottenuto facendo i calcoli nel mio esempio... ma non capisco se sto magari saltando qualche passaggio importante che non mi permette di capire...



[1]EDIT: Ora mi accorgo di dover puntualizzare: è una somma di $n$ termini positivi, pertanto la sommatoria per $n->+oo$ chiaramente diverge.

Adesso quindi bisognerebbe capire in che modo la sommatoria dipende da $n$ per poter studiare il seguente limite: $lim_(n->+oo) D_n/n$, dove $D_n = sum_(i=1)^(n)(x_i-\mu)^2$.


Correggetemi se dico cahate :-D :-D

Arado90
Premetto che sto ragionando su quello che hai quotato nel tuo primo messaggio, anche se non ho mai visto "il limite della varianza" in alcun libro o appunto.
Allora ho pensato a come risolvere quel limite dal punto di vista dell'analisi: al numeratore, se $n->infty$ abbiamo una sommatoria di infiniti termini, cioè una serie, che può divergere o convergere. Se converge, converge ad un qualche valore costante e dunque questo valore diviso $n->infty$ tende a $0$. Però se diverge positivamente o negativamente abbiamo un rapporto di infiniti.
Ma l'analisi non è il mio forte :D

Ragionando invece dal punto di vista della statistica mi sembra logico credere che la varianza campionaria all'aumentare della numerosità del campione tenda alla vera varianza della popolazione, cioè $lim_(n->infty)S^2=sigma^2$

Edit: ho letto il tuo edit dopo aver inviato il messaggio xD

The_Mad_Hatter
"Arado90":
Ragionando invece dal punto di vista della statistica mi sembra logico credere che la varianza campionaria all'aumentare della numerosità del campione tenda alla vera varianza della popolazione, cioè $lim_(n->infty)S^2=sigma^2$

Ecco, questo è il punto!

Perché sembra logico anche a me, ma se così fosse, perché i libri ne tacerebbero?


L'unica a questo punto è studiare quella serie. Se gli scarti fossero costanti sarebbe una banale serie geometrica, ma dato che non lo sono... :? :? :shock:


EDIT: in un primo momento, mi è sembrato logico crederlo anche per un altra ragione: detta in soldoni, per la LGN una VA converge quasi certamente alla sua media ripetendo l'evento un numero $N$ di volte con $N->+oo$; ho pensato quindi che potesse anche essere che $S^2$ si avvicinasse alla sua media per $N->+oo$ e quindi che dovesse essere uguale a $(N-1)/N\sigma^2 = \sigma^2$ (perché $N->+oo$).

Ma qui penso di aver fatto il passo più lungo della gamba in quanto $S^2$ non è una VA ma uno stimatore ed inoltre dubito che $N$ inteso come dimensione del campione sia lo stesso della LGN :\ ma sono un po' confuso, probabilmente non dovrei mischiare la LGN con gli stimatori.

cenzo1
"The_Mad_Hatter":
A questo punto provo a ragionare sulla definizione della varianza campionaria:
$S^2 = 1/n sum (x_i-\mu)^2$

Ciao, aggiungo qualche commento.
La varianza campionaria (corretta) dovrebbe essere $S^2 =1/(n-1) sum_(i=1)^n (x_i-\barx)^2 $ dove $\barx$ è la media campionaria. E' su questa che si dovrebbe ragionare, no?
La varianza campionaria è una variabile aleatoria, che possiamo usare per stimare la varianza della popolazione $\sigma^2$
Il suo valore atteso è $E(S^2)=\sigma^2$ perciò è uno stimatore corretto della varianza della popolazione.
Quel $n-1$ al denominatore serve proprio perchè sia uno stimatore corretto e non distorto.
Essendo uno stimatore corretto è, a maggior ragione, anche asintoticamente corretto.
Per quanto riguarda $Var(S^2)$, se la popolazione è gaussiana si può dimostrare che $Var(S^2)=(2\sigma^4)/(n-1)$ e si vede che tende a zero per $n$ che diverge (come avevi notato anche te).
Si dimostra comunque (vedi qui) che $S^2$ è uno stimatore consistente anche in ipotesi non gaussiane.

The_Mad_Hatter
Mi sa che ho risolto: la varianza campionaria è uno stimatore consistente, almeno in senso debole. E questo risponde alla mia domanda e fuga i miei dubbi, in quanto $lim_(n->+oo)S^2$ non può essere uguale a 0. Inoltre se riuscissi a dimostrare che è consistente in senso forte, potrei affermare che $lim_(n->+oo)S^2 = \sigma^2$, come in effetti stiamo supponendo.

Dico bene?


EDIT: grazie del commento cenzo. Però la premessa era che mi serviva ragionare proprio sulla varianza campionaria NON corretta! Ed inoltre so che la popolazione è formata da variabili bernoulliane indipendenti.

Ad ogni modo se notate degli errori da parte mia vi prego di farmeli notare e correggerli!

Rggb1
Ehm, infatti non è
[...]la varianza campionaria cambia in base al campione e in particolare all'infinito sarà nulla, cioè $lim_(n->+oo)S^2=0$.

ma semmai
$lim_(n->+oo)var(S_n^2)=0$

e non credo proprio i libri "ne tacciano". ;)

Probabilmente dove è citato è indicato in altro modo. Comunque, la varianza di $S^2$ (che si chiama varianza campionaria, ed è uno stimatore corretto della varianza della popolazione) tende a zero. Vedi anche
http://www.math.uah.edu/stat/sample/Variance.xhtml

The_Mad_Hatter
"Rggb":
Ehm, infatti non è
[...]la varianza campionaria cambia in base al campione e in particolare all'infinito sarà nulla, cioè $lim_(n->+oo)S^2=0$.

ma semmai
$lim_(n->+oo)var(S_n^2)=0$

e non credo proprio i libri "ne tacciano". ;)

Probabilmente dove è citato è indicato in altro modo. Comunque, la varianza di $S^2$ (che si chiama varianza campionaria, ed è uno stimatore corretto della varianza della popolazione) tende a zero. Vedi anche
http://www.math.uah.edu/stat/sample/Variance.xhtml

Grazie.

Forse ho omesso di spiegarlo, ma la citazione non è presa da un libro bensì da uno studente che ha passato un esame di statistica con buoni voti. Probabilmente ha fatto confusione, tant'è che ho pensato subito che volesse dire $lim_(n->+oo)Var(S^2) = 0$.

Grazie a tutti :)

markowitz
Senza entrare nei dettagli.
Mi sembra che qui, come da altre parti, si rischi di fare confusione tra stimatore (della varianza) e varianza dello stimatore della varianza.
In generale gli stimatori convergono (dovrebbero) ai veri valori, tipicamente non nulli.
Le varianze degli stimatori, tipicamente convergono (dovrebbero) a zero.
:-D :-D :-D

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.