Riassunti, Distribuzioni, Medie e Varianze campionarie
Ciao a tutti!
Purtroppo i problemi con la statistica continuano. E chiedo aiuto a voi per capire alcune cose. Ora scriverò mano a mano tutto ciò che ho capito e dove le cose mi sono poco chiare esporrò i miei dubbi.
Un riassunto campionario (o semplicemente riassunto) T per un campione di grandezza n è una variabile aleatoria della forma $T = f( X_1, X_2, ... X_n)$. I riassunti rappresentano una opportuna sintesi delle osservazioni (volendo potrei intendere anche misurazioni?).
La distribuzione di probabilità di un riassunto campionario è detta la distribuzione campionaria del riassunto. Per una distribuzione campionaria è possibile calcolare media, varianza, devianzione standard (o anche detto errore standard) e così via. (Ma queste cose sembrano del tutto scollegate tra loro, forse sbaglio a scrivere così)
La statistica descrittiva offre gli strumenti per ottenere riassunti di tipo grafico, costituiti da istogrammi, oppure di tipo numerico, i principali dei quali sono rappresentati dalla media campionaria $hat(X_n)$ e dallo scarto tipo (o anche deviazione standard) campionario s:
$hat(X_n) = (1/N) * sum_{i=1}^\n\x_i$
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-hat(X_n))^2)$
Dalla seconda se non è estratta la radice quadrata si ottiene il valore $S^2$ che è detta varianza campionaria:
$(S_n)^2 = (1/N)* sum_{i=1}^\n\(x_i-hat(X_n))^2$
in alcuni casi è preferibile utilizzare il divisore (n-1) piuttosto che n; ciò è giustificato dal fatto che il numero di gradi di libertà della stima è uno di meno di quello delle osservazioni, in quanto il valore medio è determinato a partire dalle osservazioni stesse, e non è quindi indipendente. (anche questo pezzo in corsivo non mi è molto chiaro) Dunque la varianza campionaria si riscrive:
$(S_n)^2 = (1/(N-1))* sum_{i=1}^\n\(x_i-hat(X_n))^2$
Media e varianza campionaria hanno la peculiarità di avere lo stesso valore atteso della media teorica e della varianza teorica della distribuzione da cui il campione è estratto ovvero:
$E[hat(X_n)] = u$
$E[(S_n)^2]=sigma^2$
per questo motivo vengono anche detti stimatori corretti.
Per il momento mi fermo qui, è corretto quello che ho scritto? Sto cercando di mettere ordine in questi argomenti ma sembrano tutti così dannatamente disordinati!
GRAZIE.
Purtroppo i problemi con la statistica continuano. E chiedo aiuto a voi per capire alcune cose. Ora scriverò mano a mano tutto ciò che ho capito e dove le cose mi sono poco chiare esporrò i miei dubbi.
Un riassunto campionario (o semplicemente riassunto) T per un campione di grandezza n è una variabile aleatoria della forma $T = f( X_1, X_2, ... X_n)$. I riassunti rappresentano una opportuna sintesi delle osservazioni (volendo potrei intendere anche misurazioni?).
La distribuzione di probabilità di un riassunto campionario è detta la distribuzione campionaria del riassunto. Per una distribuzione campionaria è possibile calcolare media, varianza, devianzione standard (o anche detto errore standard) e così via. (Ma queste cose sembrano del tutto scollegate tra loro, forse sbaglio a scrivere così)
La statistica descrittiva offre gli strumenti per ottenere riassunti di tipo grafico, costituiti da istogrammi, oppure di tipo numerico, i principali dei quali sono rappresentati dalla media campionaria $hat(X_n)$ e dallo scarto tipo (o anche deviazione standard) campionario s:
$hat(X_n) = (1/N) * sum_{i=1}^\n\x_i$
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-hat(X_n))^2)$
Dalla seconda se non è estratta la radice quadrata si ottiene il valore $S^2$ che è detta varianza campionaria:
$(S_n)^2 = (1/N)* sum_{i=1}^\n\(x_i-hat(X_n))^2$
in alcuni casi è preferibile utilizzare il divisore (n-1) piuttosto che n; ciò è giustificato dal fatto che il numero di gradi di libertà della stima è uno di meno di quello delle osservazioni, in quanto il valore medio è determinato a partire dalle osservazioni stesse, e non è quindi indipendente. (anche questo pezzo in corsivo non mi è molto chiaro) Dunque la varianza campionaria si riscrive:
$(S_n)^2 = (1/(N-1))* sum_{i=1}^\n\(x_i-hat(X_n))^2$
Media e varianza campionaria hanno la peculiarità di avere lo stesso valore atteso della media teorica e della varianza teorica della distribuzione da cui il campione è estratto ovvero:
$E[hat(X_n)] = u$
$E[(S_n)^2]=sigma^2$
per questo motivo vengono anche detti stimatori corretti.
Per il momento mi fermo qui, è corretto quello che ho scritto? Sto cercando di mettere ordine in questi argomenti ma sembrano tutti così dannatamente disordinati!
GRAZIE.
Risposte
"Ahi":
Un riassunto campionario (o semplicemente riassunto) T per un campione di grandezza n è una variabile aleatoria della forma $T = f( X_1, X_2, ... X_n)$.
I riassunti campionari vengono anche detti statistiche.
"Ahi":
volendo potrei intendere anche misurazioni?
Si.
"Ahi":
in alcuni casi è preferibile utilizzare il divisore (n-1) piuttosto che n; ciò è giustificato dal fatto che il numero di gradi di libertà della stima è uno di meno di quello delle osservazioni, in quanto il valore medio è determinato a partire dalle osservazioni stesse, e non è quindi indipendente.
Diciamo che la varianza campionaria $(\sum_{i=1}^{n}(X_i-\barX)^2)/n$ la puoi usare in statistica descrittiva.
In statistica inferenziale (vuoi fare previsioni sulla popolazione a partire dal campione) si usa la varianza campionaria "corretta" $S^2=(\sum_{i=1}^{n}(X_i-\barX)^2)/(n-1)$ in quanto è uno stimatore corretto della varianza $\sigma^2$ della popolazione (come hai giustamente scritto).
$S^2$, essendo riferita ad $\barX$, incorpora il contributo di $n-1$ elementi $X_i$ "liberi", dato che uno di essi può essere dedotto dagli altri in virtù della relazione $\barX=(\sum_{i=1}^{n}X_i)/n$.
La varianza campionaria (non corretta) non è uno stimatore corretto della varianza della popolazione; risulta infatti che il suo valore atteso è $(n-1)/n\sigma^2$ (si dice che è uno stimatore distorto).
Ho cercato di migliorare un po' le cose sperando di aver capito un po' di più, almeno spero
Nel raccogliere i dati riguardo alle caratteristiche di un gruppo di oggetti è spesso impossibile o poco pratico osservare l'intero gruppo, specialmente se grande. Invece di osservare l'intero gruppo chiamato popolazione (o universo), si esamina una piccola parte del gruppo, detta campione (ovvero un sottoinsieme della popolazione). La popolazione può essere finita o infinita. Per popolazioni finite si fa riferimento alla distribuzione effettiva dei valori, detta distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità.
Il procedimento mediante il quale si perviene ad un campione è detto campionamento. Il campione, quindi, può essere rappresentativo se scelto il modo casuale, significativo se scelto in modo ragionato. Inoltre la scelta del campione può essere effettuata in due modi: con reimmissione o senza reimmissione.
La statistica descrittiva (sull'intera popolazione?!) offre gli strumenti per ottenere, da N misurazioni (dati), riassunti di
tipo grafico, costituiti da istogrammi, che forniscono una rappresentazione grafica della distribuzione di frequenze (dati),
oppure di tipo numerico, i principali dei quali sono rappresentati dalla media campionaria $hat(X_n)$ e dallo scarto tipo (o
anche deviazione standard) campionario s:
$m = (1/N) * sum_{i=1}^\n\x_i$
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-hat(X))^2)$
La deviazione $S_n$ non è una stima ottima in quanto per n che tende ad infinito non converge a $sigma$.
Dalla formula dello scarto tipo campionario, se non è estratta la radice quadrata si ottiene il valore $S^2$ che è detta varianza campionaria:
$(S_n)^2 = (1/N)* sum_{i=1}^\n\(x_i-hat(X_n))^2$
Dalla statistica descrittiva (o deduttiva) si passa all'inferenza statistica, la quale fornisce i metodi per trarre induttivamente le caratteristiche di una popolazione a partire da quelle note di una popolazione. In questo caso la media campionaria e o scarto tipo campionario si indicano nel seguente modo:
$hat(X) = (1/N) * sum_{i=1}^\n\x_i$
$hat(S_n) = sqrt((1/(N-1))* sum_{i=1}^\n\(x_i-hat(X))^2)$
Si noti che $hat(X)$ è una funzione delle v.a. $X_1$, $X_2$, ..., $X_n$. In quanto tale è una statistica (o riassunto campionario), ovvero rappresenta una opportuna sintesi delle osservazioni (misurazioni), e in particolare è a sua volta una variabile aleatoria.
Allora se ho capito alla fine le formule sono le stesse, solo che per la statistica descrittiva io le utilizzo considerando l' intera popolazione) mentre per la statistica inferenziale estraendo un campione giusto? Vi sembra abbastanza lineare e con una certa logica quanto ho scritto? Sto provando a mettere in ordine i vari testi di statistica in qualche modo, non capisco perché sono così disordinati!)
La media $hat(X)$ e la varianza $S^2$, sono stimatori corretti della media $u$ e della varianza $sigma^2$ di una popolazione
poiché $E[hat(X)]=u$ e $E[S^2]=sigma^2$.
(Mentre non ho capito quali sarebbero le stime corrette? E e mentre quali sarebbero quelli distorti?)
Spero sia abbastanza chiaro come l'ho impostato almeno spero.
Grazie.
Nel raccogliere i dati riguardo alle caratteristiche di un gruppo di oggetti è spesso impossibile o poco pratico osservare l'intero gruppo, specialmente se grande. Invece di osservare l'intero gruppo chiamato popolazione (o universo), si esamina una piccola parte del gruppo, detta campione (ovvero un sottoinsieme della popolazione). La popolazione può essere finita o infinita. Per popolazioni finite si fa riferimento alla distribuzione effettiva dei valori, detta distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità.
Il procedimento mediante il quale si perviene ad un campione è detto campionamento. Il campione, quindi, può essere rappresentativo se scelto il modo casuale, significativo se scelto in modo ragionato. Inoltre la scelta del campione può essere effettuata in due modi: con reimmissione o senza reimmissione.
La statistica descrittiva (sull'intera popolazione?!) offre gli strumenti per ottenere, da N misurazioni (dati), riassunti di
tipo grafico, costituiti da istogrammi, che forniscono una rappresentazione grafica della distribuzione di frequenze (dati),
oppure di tipo numerico, i principali dei quali sono rappresentati dalla media campionaria $hat(X_n)$ e dallo scarto tipo (o
anche deviazione standard) campionario s:
$m = (1/N) * sum_{i=1}^\n\x_i$
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-hat(X))^2)$
La deviazione $S_n$ non è una stima ottima in quanto per n che tende ad infinito non converge a $sigma$.
Dalla formula dello scarto tipo campionario, se non è estratta la radice quadrata si ottiene il valore $S^2$ che è detta varianza campionaria:
$(S_n)^2 = (1/N)* sum_{i=1}^\n\(x_i-hat(X_n))^2$
Dalla statistica descrittiva (o deduttiva) si passa all'inferenza statistica, la quale fornisce i metodi per trarre induttivamente le caratteristiche di una popolazione a partire da quelle note di una popolazione. In questo caso la media campionaria e o scarto tipo campionario si indicano nel seguente modo:
$hat(X) = (1/N) * sum_{i=1}^\n\x_i$
$hat(S_n) = sqrt((1/(N-1))* sum_{i=1}^\n\(x_i-hat(X))^2)$
Si noti che $hat(X)$ è una funzione delle v.a. $X_1$, $X_2$, ..., $X_n$. In quanto tale è una statistica (o riassunto campionario), ovvero rappresenta una opportuna sintesi delle osservazioni (misurazioni), e in particolare è a sua volta una variabile aleatoria.
Allora se ho capito alla fine le formule sono le stesse, solo che per la statistica descrittiva io le utilizzo considerando l' intera popolazione) mentre per la statistica inferenziale estraendo un campione giusto? Vi sembra abbastanza lineare e con una certa logica quanto ho scritto? Sto provando a mettere in ordine i vari testi di statistica in qualche modo, non capisco perché sono così disordinati!)
La media $hat(X)$ e la varianza $S^2$, sono stimatori corretti della media $u$ e della varianza $sigma^2$ di una popolazione
poiché $E[hat(X)]=u$ e $E[S^2]=sigma^2$.
(Mentre non ho capito quali sarebbero le stime corrette? E e mentre quali sarebbero quelli distorti?)
Spero sia abbastanza chiaro come l'ho impostato almeno spero.
Grazie.
Se con $S^2$ intendi la varianza campionaria, quello è uno stimatore distorto di $sigma^2$.
La varianza campionaria corretta (quella divisa per $n-1$) invece è uno stimatore non distorto.
La varianza campionaria corretta (quella divisa per $n-1$) invece è uno stimatore non distorto.
"Arado90":
Se con $S^2$ intendi la varianza campionaria, quello è uno stimatore distorto di $sigma^2$.
La varianza campionaria corretta (quella divisa per $n-1$) invece è uno stimatore non distorto.
Sono sconfortato, perché forse non ho capito nulla di statistica. Pensavo che si passasse a $n - 1$ per la statista inferenziale perché si va a studiare un campione e non l'intera popolazione.
La ragione più pratica è che per definizione uno stimatore è corretto se il suo valore atteso è uguale al vero valore del parametro che stiamo stimando.
Solo che con la varianza campionaria questo non accade, perché se calcoli $E(S^2)=E(1/n \sum_{i=1}^n(x_i-\hat{x})^2)$ vedi che è uguale a $(n-1)/nsigma^2$.
Quindi per essere uguale a $sigma^2$, dobbiamo moltiplicare per $n/(n-1)$, quindi $n/(n-1)*1/n \sum_{i=1}^n(x_i-\hat{x})^2 = 1/(n-1) \sum_{i=1}^n(x_i-\hat{x})^2$ che è la varianza campionaria corretta.
Solo che con la varianza campionaria questo non accade, perché se calcoli $E(S^2)=E(1/n \sum_{i=1}^n(x_i-\hat{x})^2)$ vedi che è uguale a $(n-1)/nsigma^2$.
Quindi per essere uguale a $sigma^2$, dobbiamo moltiplicare per $n/(n-1)$, quindi $n/(n-1)*1/n \sum_{i=1}^n(x_i-\hat{x})^2 = 1/(n-1) \sum_{i=1}^n(x_i-\hat{x})^2$ che è la varianza campionaria corretta.
Diciamo che con riferimento alla popolazione (di numerosità $N$), farai statistica descrittiva, calcolando la media $\mu$ e la varianza $\sigma^2$ (dividendo per $N$).
Questi due valori sono due numeri, non cosituiscono delle variabili aleatorie.
Con riferimento al campione (di dimensione $n$), hai due possibilità:
- Puoi fare una descrizione della distribuzione, utilizzando la media campionaria $\barX$ e la varianza campionaria $S_c^2$ (dove dividi per $n$, in analogia con quanto fai per la popolazione);
- oppure analizzi il campione con l'intento di fare inferenza sulla popolazione; in tal caso è naturale che tu voglia stimare media e varianza della popolazione mediante delle stime corrette (cioè che, in media, forniscano proprio i valori $\mu$ e $\sigma^2$).
In queso caso va sempre bene utilizzare $\barX$ come stimatore della media $\mu$, mentre per avere una stima corretta della varianza della popolazione $\sigma^2$ occorre utilizzare la varianza campionaria corretta $S^2$ (dove dividi per $n-1$).
Questo è falso.
Come ha detto anche Arado90, il valore atteso della varianza campionaria non corretta è $E[S_c^2]=(n-1)/n\sigma^2$
E' vero che non è uno stimatore corretto, però è uno stimatore asintoticamente corretto, ovvero per $n->\infty$ tende a $\sigma^2$.
Questi due valori sono due numeri, non cosituiscono delle variabili aleatorie.
Con riferimento al campione (di dimensione $n$), hai due possibilità:
- Puoi fare una descrizione della distribuzione, utilizzando la media campionaria $\barX$ e la varianza campionaria $S_c^2$ (dove dividi per $n$, in analogia con quanto fai per la popolazione);
- oppure analizzi il campione con l'intento di fare inferenza sulla popolazione; in tal caso è naturale che tu voglia stimare media e varianza della popolazione mediante delle stime corrette (cioè che, in media, forniscano proprio i valori $\mu$ e $\sigma^2$).
In queso caso va sempre bene utilizzare $\barX$ come stimatore della media $\mu$, mentre per avere una stima corretta della varianza della popolazione $\sigma^2$ occorre utilizzare la varianza campionaria corretta $S^2$ (dove dividi per $n-1$).
"Ahi":
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-hat(X))^2)$
La deviazione $S_n$ non è una stima ottima in quanto per n che tende ad infinito non converge a $sigma$.
Questo è falso.
Come ha detto anche Arado90, il valore atteso della varianza campionaria non corretta è $E[S_c^2]=(n-1)/n\sigma^2$
E' vero che non è uno stimatore corretto, però è uno stimatore asintoticamente corretto, ovvero per $n->\infty$ tende a $\sigma^2$.
"Ahi":
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-hat(X))^2)$
La deviazione $S_n$ non è una stima ottima in quanto per n che tende ad infinito non converge a $sigma$.
Questo è falso.
Come ha detto anche Arado90, il valore atteso della varianza campionaria non corretta è $E[S_c^2]=(n-1)/n\sigma^2$
E' vero che non è uno stimatore corretto, però è uno stimatore asintoticamente corretto, ovvero per $n->\infty$ tende a $\sigma^2$.[/quote]
Quindi quella frase devo toglierla perché sbagliata. E devo capire cos'è uno stimatore, forse mi sto addentrando un po' troppo dentro la materia.
Cerco con le mie ultime energie di oggi di sistemare le cose, sonno permettendo. Ma obiettivamente sta venendo bene? O dovrei ripartire completamente da zero in quanto totalmente sbagliato? Cosa e come lo cambiereste per renderlo più chiaro e leggibile?
Ma io credo di aver sbagliato le formule o sbaglio per quanto riguarda media e varianza di statistica descrittiva e statistica inferenziale!
"Ahi":
Nel raccogliere i dati riguardo alle caratteristiche di un gruppo di oggetti è spesso impossibile o poco pratico osservare l'intero gruppo, specialmente se grande. Invece di osservare l'intero gruppo chiamato popolazione (o universo), si esamina una piccola parte del gruppo, detta campione (ovvero un sottoinsieme della popolazione). La popolazione può essere finita o infinita. Per popolazioni finite si fa riferimento alla distribuzione effettiva dei valori, detta distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità.
Il procedimento mediante il quale si perviene ad un campione è detto campionamento. Il campione, quindi, può essere rappresentativo se scelto il modo casuale, significativo se scelto in modo ragionato. Inoltre la scelta del campione può essere effettuata in due modi: con reimmissione o senza reimmissione.
La statistica descrittiva (sull'intera popolazione?!) offre gli strumenti per ottenere, da N misurazioni (dati), riassunti di
tipo grafico, costituiti da istogrammi, che forniscono una rappresentazione grafica della distribuzione di frequenze (dati), oppure di tipo numerico, i principali dei quali sono rappresentati dalla media campionaria $hat(X_n)$ e dallo scarto tipo (o anche deviazione standard) campionario s (con $u_X$ nota?):
$m = (1/N) * sum_{i=1}^\n\x_i$
$(S_n) = sqrt((1/N)* sum_{i=1}^\n\(x_i-u_X)^2)$
Dalla formula dello scarto tipo campionario, se non è estratta la radice quadrata si ottiene il valore $S^2$ che è detta varianza campionaria:
$(S_n)^2 = (1/N)* sum_{i=1}^\n\(x_i-u_X)^2$
Dalla statistica descrittiva (o deduttiva) si passa all'inferenza statistica, la quale fornisce i metodi per trarre induttivamente le caratteristiche di una popolazione a partire da quelle note di un campione. In questo caso la media campionaria e o scarto tipo campionario si indicano nel seguente modo:
$hat(X) = (1/N) * sum_{i=1}^\n\x_i$
$hat(S_n) = sqrt((1/(N-1))* sum_{i=1}^\n\(x_i-hat(X))^2)$
Nella formula per la varianza si divide per $N-1$ anziché $N$, perché la varianza $S^2$ definita in questo modo gode di alcune proprietà che la rendono una misura più adeguata per l'inferenza statistica. Si noti inoltre che $hat(X)$ è una funzione delle v.a. $X_1$, $X_2$, ..., $X_n$. In quanto tale è una statistica (o riassunto campionario), ovvero rappresenta una opportuna sintesi delle osservazioni (misurazioni), e in particolare è a sua volta una variabile aleatoria.
Per usare le statistiche campionarie allo scopo di stimare i parametri della popolazione, bisogna prendere in considerazione la
distribuzione campionaria, ovvero la distribuzione di tutti i possibili campioni che possono essere estratti dalla popolazione. Un riassunto è detto stimatore corretto del parametro (come la media, varianza ecc.) di una popolazione se il suo valore medio è uguale al paramentro. Il corrispondente valore del riassunto sarà allora detto una stima corretta del paramentro.
La media $hat(X)$ e la varianza $S^2$, sono stimatori corretti della media $u$ e della varianza $sigma^2$ di una popolazione poiché $E[hat(X)]=u$ e $E[S^2]=sigma^2$.
Mentre $hat(S)$ è uno stimatore distorto di $sigma$ dal momento che in generale $E!= sigma$.
Quando la stima di un parametro della popolazione è un singolo numero, essa sarà detta una stima puntuale del parametro. Se invece la stima dei parametri di una popolazione fornisce gli estremi di un intervallo fra i quali si può supporre, con un certo grado di fiducia, che il parametro sia compreso, tale stima è detta stima per intervallo del parametro.
Nel caso in cui due statistiche sono entrambe stimatori corretti di un parametro, la statistica per cui la varianza della sua distribuzione campionaria è minore è detta stimatore più efficiente.
Ma io credo di aver sbagliato le formule o sbaglio per quanto riguarda media e varianza di statistica descrittiva e statistica inferenziale!
Credo di aver perfezionato e capito questa parte di statistica, per cui la metto a disposizione per gli altri utenti, (grazie a tutti coloro che segnaleranno eventuali errori!)
Ma io credo di aver sbagliato le formule o sbaglio per quanto riguarda media e varianza di statistica descrittiva e statistica inferenziale![/quote]
"Ahi":
Nel raccogliere i dati riguardo alle caratteristiche di un gruppo di oggetti è spesso impossibile o poco pratico osservare l'intero gruppo, specialmente se grande. Invece di osservare l'intero gruppo chiamato popolazione (o universo), si esamina una piccola parte del gruppo, detta campione. La popolazione può essere un insieme finito o infinito di unità. Per popolazioni finite si fa riferimento alla distribuzione di frequenza; per popolazioni infinite alla corrispondente distribuzione di probabilità o densità di probabilità.
Il campione è un sottoinsieme della popolazione. Esso dovrebbe essere estratto con un metodo opportuno, tale da garantirne la rappresentatività. Il metodo attraverso il quale si perviene ad un campione è detto campionamento.
Uploaded with ImageShack.us
Nella statistica descrittiva (o deduttiva) si osserva una popolazione nota e si sintetizzano le informazioni relative da un certo carattere (si potrebbe intendere variabile aleatoria?!) $X$. Tale statistica offre gli strumenti per ottenere, da N misurazioni (dati), riassunti (intendiamo sempre le statistiche campionare oppure sarebbe preferibile usare un altro termine?!) di tipo grafico, costituiti da istogrammi, i quali forniscono una rappresentazione grafica della distribuzione di frequenze, oppure di tipo numerico, i principali dei quali sono rappresentati dalla media campionaria $m$ e dallo scarto tipo (o anche deviazione standard) campionario S:
$m = (1/N) * sum_{i=1}^\N\x_i$
$(S_N) = sqrt((1/N)* sum_{i=1}^\N\(x_i-m)^2)$
dove $N$ è l'ampiezza del campione. (Spero di non aver sbagliato gli indici)
Dalla formula dello scarto tipo campionario, se non è estratta la radice quadrata si ottiene il valore $S^2$ che è detta varianza campionaria:
$(S_N)^2 = (1/N)* sum_{i=1}^\N\(x_i-m)^2$
Nell'inferenza statistica (o induttiva) si estrae un campione di $n$ elementi da una popolazione ignota e sulla base di questo, si stimano alcune caratteristiche (ignote) della popolazione, come ad esempio la media $m$ e la varianza $(S_N)^2$. In questo caso la media campionaria e la varianza campionaria (corretta) si indicano nel seguente modo:
$hat(X) = (1/n) * sum_{i=1}^\n\x_i$
$hat(S_n) = sqrt((1/(n))* sum_{i=1}^\n\(x_i-hat(X))^2)$ (corretta $hat(S_n) = sqrt((1/(n-1))* sum_{i=1}^\n\(x_i-hat(X))^2)$)
Si noti inoltre che $hat(X)$ è una funzione delle v.a. $X_1$, $X_2$, ..., $X_n$ e in quanto tale è una statistica (o riassunto campionario), ovvero rappresenta una opportuna sintesi delle osservazioni (misurazioni), e in particolare è a sua volta una variabile aleatoria.
Per usare le statistiche campionarie allo scopo di stimare i parametri della popolazione, bisogna prendere in considerazione la
distribuzione campionaria, ovvero la distribuzione di tutti i possibili campioni che possono essere estratti dalla popolazione. Un riassunto è detto stimatore corretto del parametro (come la media, varianza ecc.) di una popolazione se il suo valore medio è uguale al paramentro. Il corrispondente valore del riassunto sarà allora detto una stima corretta del paramentro.
La media $hat(X)$ e la varianza $S^2$, sono stimatori corretti della media $u$ e della varianza $sigma^2$ di una popolazione poiché $E[hat(X)]=u$ e $E[S^2]=sigma^2$.
Mentre $hat(S)$ è uno stimatore distorto di $sigma$ dal momento che in generale $E!= sigma$.
Quando la stima di un parametro della popolazione è un singolo numero, essa sarà detta una stima puntuale del parametro. Se invece la stima dei parametri di una popolazione fornisce gli estremi di un intervallo fra i quali si può supporre, con un certo grado di fiducia, che il parametro sia compreso, tale stima è detta stima per intervallo del parametro.
Nel caso in cui due statistiche sono entrambe stimatori corretti di un parametro, la statistica per cui la varianza della sua distribuzione campionaria è minore è detta stimatore più efficiente.
Ma io credo di aver sbagliato le formule o sbaglio per quanto riguarda media e varianza di statistica descrittiva e statistica inferenziale![/quote]