Limite varianza campionaria
Salve, è da qualche mese ormai che ho tralasciato la statistica, ma ieri ho avuto l'occasione di leggere su un altro forum una discussione sulla varianza campionaria che mi ha lasciato alquanto perplesso.
Sinceramente quest'affermazione mi ha lasciato un po' sbigottito, tutt'ora non credo sia vera (e vi spiego cosa mi ha portato a crederlo) anche se non ho consultato alcun testo (di miei non ne ho e su internet si trova poco e nulla).
Perciò cerco delle conferme o smentite da voi.
Premetto che si stava parlando di varianza campionaria con media $\mu$ nota, anche se i ragionamenti si possono facilmente "traslare" su $S_(n-1)^2$.
Inizialmente avevo pensato che $S^2$ è uno stimatore asintoticamente corretto e che pertanto sarebbe dovuto essere $lim_(n->+oo) S^2 = \sigma^2$.
Poi però ho ricordato meglio la definizione di stimatore asintoticamente corretto, per la quale deve essere $lim_(n->+oo) E(S^2) - \sigma^2 = 0$, quindi $lim_(n->+oo) E(S^2) = \sigma^2$ e non ciò che ho scritto sopra.
A questo punto provo a ragionare sulla definizione della varianza campionaria:
$S^2 = 1/n sum (x_i-\mu)^2$
Dato che così in generale non saprei come procedere per calcolarne il limite, provo ad applicarne un esempio ad un caso a me noto... con un ragionamento forse poco ortodosso ma che per me sembra funzionare
Considero una V.A. bernoulliana $X$ di parametro $p$; per la legge dei grandi numeri, la media campionaria $\bar{X}$ di un campione di dimensione $N$ di ripetizioni di $X$ deve convergere alla media $\mu = p$ di $X$ per $N -> +oo$.
Quindi nel campione avrò $N_1$ successi ed $N_0 = N-N_1$ insuccessi, con probabilità uguali a quelle teoriche, pertanto $p = N_1/N$ e $q=1-p=N_0/N$.
Provo a calcolare la varianza campionaria su questo ipotetico campione, ottenendo $S^2 = 1/N ( N_1*(1-p)^2 + N_0*(0-p)^2) ) = (q^2N_1 + p^2N_0)/N$.
Ora, dalle formule precedenti so che $N_1 = N*p$ e $N_0 = N*q$, pertanto $S^2 = (q^2Np + p^2Nq)/N = qp(q+p) = pq = \sigma^2$.
Che poi era il caso che interessava a me, dato che di questo si stava parlando.
Fila il ragionamento? Ho fatto dei passaggi non leciti?
Qualcuno mi può dire quanto vale in generale $lim_(n->+oo) S^2$ ? E magari anche perché?
P.S.: ho letto dallo stesso tizio che dispone di una dimostrazione secondo la quale $lim_(n->+oo) S^2 = 0$. Non vorrei che si fosse confuso con $lim_(n->+oo) Var(S^2)$, che ho letto altrove essere $0$ (senza dimostrazione però).
[...]la varianza campionaria cambia in base al campione e in particolare all'infinito sarà nulla, cioè $lim_(n->+oo)S^2=0$.
Sinceramente quest'affermazione mi ha lasciato un po' sbigottito, tutt'ora non credo sia vera (e vi spiego cosa mi ha portato a crederlo) anche se non ho consultato alcun testo (di miei non ne ho e su internet si trova poco e nulla).
Perciò cerco delle conferme o smentite da voi.
Premetto che si stava parlando di varianza campionaria con media $\mu$ nota, anche se i ragionamenti si possono facilmente "traslare" su $S_(n-1)^2$.
Inizialmente avevo pensato che $S^2$ è uno stimatore asintoticamente corretto e che pertanto sarebbe dovuto essere $lim_(n->+oo) S^2 = \sigma^2$.
Poi però ho ricordato meglio la definizione di stimatore asintoticamente corretto, per la quale deve essere $lim_(n->+oo) E(S^2) - \sigma^2 = 0$, quindi $lim_(n->+oo) E(S^2) = \sigma^2$ e non ciò che ho scritto sopra.
A questo punto provo a ragionare sulla definizione della varianza campionaria:
$S^2 = 1/n sum (x_i-\mu)^2$
Dato che così in generale non saprei come procedere per calcolarne il limite, provo ad applicarne un esempio ad un caso a me noto... con un ragionamento forse poco ortodosso ma che per me sembra funzionare

Considero una V.A. bernoulliana $X$ di parametro $p$; per la legge dei grandi numeri, la media campionaria $\bar{X}$ di un campione di dimensione $N$ di ripetizioni di $X$ deve convergere alla media $\mu = p$ di $X$ per $N -> +oo$.
Quindi nel campione avrò $N_1$ successi ed $N_0 = N-N_1$ insuccessi, con probabilità uguali a quelle teoriche, pertanto $p = N_1/N$ e $q=1-p=N_0/N$.
Provo a calcolare la varianza campionaria su questo ipotetico campione, ottenendo $S^2 = 1/N ( N_1*(1-p)^2 + N_0*(0-p)^2) ) = (q^2N_1 + p^2N_0)/N$.
Ora, dalle formule precedenti so che $N_1 = N*p$ e $N_0 = N*q$, pertanto $S^2 = (q^2Np + p^2Nq)/N = qp(q+p) = pq = \sigma^2$.
Che poi era il caso che interessava a me, dato che di questo si stava parlando.
Fila il ragionamento? Ho fatto dei passaggi non leciti?
Qualcuno mi può dire quanto vale in generale $lim_(n->+oo) S^2$ ? E magari anche perché?
P.S.: ho letto dallo stesso tizio che dispone di una dimostrazione secondo la quale $lim_(n->+oo) S^2 = 0$. Non vorrei che si fosse confuso con $lim_(n->+oo) Var(S^2)$, che ho letto altrove essere $0$ (senza dimostrazione però).
Risposte
Se definisci la varianza campionaria come la somma dei quadrati degli scarti dalla media diviso $n$ ed $n->infty$ allora hai una quantità costante al numeratore ed un valore che tende all'infinito al denominatore. Presa in questo modo effettivamente il tutto tende a $0$.
"Arado90":
Se definisci la varianza campionaria come la somma dei quadrati degli scarti dalla media diviso $n$ ed $n->infty$ allora hai una quantità costante al numeratore ed un valore che tende all'infinito al denominatore. Presa in questo modo effettivamente il tutto tende a $0$.
Me lo potresti far vedere formalmente?
Perché la parte che sta sopra sarebbe una quantità costante? Il mio procedimento dove è sbagliato?
Posto che sto definendo come la varianza come "la somma dei quadrati degli scarti dalla media diviso $n$", ho:
$S^2 = (sum(x_i-\mu)^2)/n$
Perché la sommatoria è costante? Vi è una somma di $n$ termini[1], che a me sembra variare con $n$...
A me sembra più logico che per $n->+oo$ quella quantità converga alla varianza, ed infatti è stato questo il riusultato che ho ottenuto facendo i calcoli nel mio esempio... ma non capisco se sto magari saltando qualche passaggio importante che non mi permette di capire...
[1]EDIT: Ora mi accorgo di dover puntualizzare: è una somma di $n$ termini positivi, pertanto la sommatoria per $n->+oo$ chiaramente diverge.
Adesso quindi bisognerebbe capire in che modo la sommatoria dipende da $n$ per poter studiare il seguente limite: $lim_(n->+oo) D_n/n$, dove $D_n = sum_(i=1)^(n)(x_i-\mu)^2$.
Correggetemi se dico cahate


Premetto che sto ragionando su quello che hai quotato nel tuo primo messaggio, anche se non ho mai visto "il limite della varianza" in alcun libro o appunto.
Allora ho pensato a come risolvere quel limite dal punto di vista dell'analisi: al numeratore, se $n->infty$ abbiamo una sommatoria di infiniti termini, cioè una serie, che può divergere o convergere. Se converge, converge ad un qualche valore costante e dunque questo valore diviso $n->infty$ tende a $0$. Però se diverge positivamente o negativamente abbiamo un rapporto di infiniti.
Ma l'analisi non è il mio forte
Ragionando invece dal punto di vista della statistica mi sembra logico credere che la varianza campionaria all'aumentare della numerosità del campione tenda alla vera varianza della popolazione, cioè $lim_(n->infty)S^2=sigma^2$
Edit: ho letto il tuo edit dopo aver inviato il messaggio xD
Allora ho pensato a come risolvere quel limite dal punto di vista dell'analisi: al numeratore, se $n->infty$ abbiamo una sommatoria di infiniti termini, cioè una serie, che può divergere o convergere. Se converge, converge ad un qualche valore costante e dunque questo valore diviso $n->infty$ tende a $0$. Però se diverge positivamente o negativamente abbiamo un rapporto di infiniti.
Ma l'analisi non è il mio forte

Ragionando invece dal punto di vista della statistica mi sembra logico credere che la varianza campionaria all'aumentare della numerosità del campione tenda alla vera varianza della popolazione, cioè $lim_(n->infty)S^2=sigma^2$
Edit: ho letto il tuo edit dopo aver inviato il messaggio xD
"Arado90":
Ragionando invece dal punto di vista della statistica mi sembra logico credere che la varianza campionaria all'aumentare della numerosità del campione tenda alla vera varianza della popolazione, cioè $lim_(n->infty)S^2=sigma^2$
Ecco, questo è il punto!
Perché sembra logico anche a me, ma se così fosse, perché i libri ne tacerebbero?
L'unica a questo punto è studiare quella serie. Se gli scarti fossero costanti sarebbe una banale serie geometrica, ma dato che non lo sono...



EDIT: in un primo momento, mi è sembrato logico crederlo anche per un altra ragione: detta in soldoni, per la LGN una VA converge quasi certamente alla sua media ripetendo l'evento un numero $N$ di volte con $N->+oo$; ho pensato quindi che potesse anche essere che $S^2$ si avvicinasse alla sua media per $N->+oo$ e quindi che dovesse essere uguale a $(N-1)/N\sigma^2 = \sigma^2$ (perché $N->+oo$).
Ma qui penso di aver fatto il passo più lungo della gamba in quanto $S^2$ non è una VA ma uno stimatore ed inoltre dubito che $N$ inteso come dimensione del campione sia lo stesso della LGN :\ ma sono un po' confuso, probabilmente non dovrei mischiare la LGN con gli stimatori.
"The_Mad_Hatter":
A questo punto provo a ragionare sulla definizione della varianza campionaria:
$S^2 = 1/n sum (x_i-\mu)^2$
Ciao, aggiungo qualche commento.
La varianza campionaria (corretta) dovrebbe essere $S^2 =1/(n-1) sum_(i=1)^n (x_i-\barx)^2 $ dove $\barx$ è la media campionaria. E' su questa che si dovrebbe ragionare, no?
La varianza campionaria è una variabile aleatoria, che possiamo usare per stimare la varianza della popolazione $\sigma^2$
Il suo valore atteso è $E(S^2)=\sigma^2$ perciò è uno stimatore corretto della varianza della popolazione.
Quel $n-1$ al denominatore serve proprio perchè sia uno stimatore corretto e non distorto.
Essendo uno stimatore corretto è, a maggior ragione, anche asintoticamente corretto.
Per quanto riguarda $Var(S^2)$, se la popolazione è gaussiana si può dimostrare che $Var(S^2)=(2\sigma^4)/(n-1)$ e si vede che tende a zero per $n$ che diverge (come avevi notato anche te).
Si dimostra comunque (vedi qui) che $S^2$ è uno stimatore consistente anche in ipotesi non gaussiane.
Mi sa che ho risolto: la varianza campionaria è uno stimatore consistente, almeno in senso debole. E questo risponde alla mia domanda e fuga i miei dubbi, in quanto $lim_(n->+oo)S^2$ non può essere uguale a 0. Inoltre se riuscissi a dimostrare che è consistente in senso forte, potrei affermare che $lim_(n->+oo)S^2 = \sigma^2$, come in effetti stiamo supponendo.
Dico bene?
EDIT: grazie del commento cenzo. Però la premessa era che mi serviva ragionare proprio sulla varianza campionaria NON corretta! Ed inoltre so che la popolazione è formata da variabili bernoulliane indipendenti.
Ad ogni modo se notate degli errori da parte mia vi prego di farmeli notare e correggerli!
Dico bene?
EDIT: grazie del commento cenzo. Però la premessa era che mi serviva ragionare proprio sulla varianza campionaria NON corretta! Ed inoltre so che la popolazione è formata da variabili bernoulliane indipendenti.
Ad ogni modo se notate degli errori da parte mia vi prego di farmeli notare e correggerli!
Ehm, infatti non è
ma semmai
$lim_(n->+oo)var(S_n^2)=0$
e non credo proprio i libri "ne tacciano".
Probabilmente dove è citato è indicato in altro modo. Comunque, la varianza di $S^2$ (che si chiama varianza campionaria, ed è uno stimatore corretto della varianza della popolazione) tende a zero. Vedi anche
http://www.math.uah.edu/stat/sample/Variance.xhtml
[...]la varianza campionaria cambia in base al campione e in particolare all'infinito sarà nulla, cioè $lim_(n->+oo)S^2=0$.
ma semmai
$lim_(n->+oo)var(S_n^2)=0$
e non credo proprio i libri "ne tacciano".

Probabilmente dove è citato è indicato in altro modo. Comunque, la varianza di $S^2$ (che si chiama varianza campionaria, ed è uno stimatore corretto della varianza della popolazione) tende a zero. Vedi anche
http://www.math.uah.edu/stat/sample/Variance.xhtml
"Rggb":
Ehm, infatti non è
[...]la varianza campionaria cambia in base al campione e in particolare all'infinito sarà nulla, cioè $lim_(n->+oo)S^2=0$.
ma semmai
$lim_(n->+oo)var(S_n^2)=0$
e non credo proprio i libri "ne tacciano".
Probabilmente dove è citato è indicato in altro modo. Comunque, la varianza di $S^2$ (che si chiama varianza campionaria, ed è uno stimatore corretto della varianza della popolazione) tende a zero. Vedi anche
http://www.math.uah.edu/stat/sample/Variance.xhtml
Grazie.
Forse ho omesso di spiegarlo, ma la citazione non è presa da un libro bensì da uno studente che ha passato un esame di statistica con buoni voti. Probabilmente ha fatto confusione, tant'è che ho pensato subito che volesse dire $lim_(n->+oo)Var(S^2) = 0$.
Grazie a tutti

Senza entrare nei dettagli.
Mi sembra che qui, come da altre parti, si rischi di fare confusione tra stimatore (della varianza) e varianza dello stimatore della varianza.
In generale gli stimatori convergono (dovrebbero) ai veri valori, tipicamente non nulli.
Le varianze degli stimatori, tipicamente convergono (dovrebbero) a zero.
Mi sembra che qui, come da altre parti, si rischi di fare confusione tra stimatore (della varianza) e varianza dello stimatore della varianza.
In generale gli stimatori convergono (dovrebbero) ai veri valori, tipicamente non nulli.
Le varianze degli stimatori, tipicamente convergono (dovrebbero) a zero.


