Dimostrazione formula per stimare la probabilità di successo di un sondaggio

balestra_romani
Sul libro di testo di prima superiore si scrive che se si vuole stimare una percentuale di una caratteristica della popolazione ed f è la percentuale rilevata da un campione l’errore standard è dato dalla formula:

$ s_f=root()((f(1-f)) / (n)) $

Esempio: Dopo lo spoglio dei voti in 800 seggi elettorali, un partito ha ottenuto il 12% dei voti: $ S_f=0.011 $.

Qualcuno sa dirmi da dove salta fuori questa formula: in teoria partendo dalla varianza si dovrebbe arrivare a questa relazione ma non sembra così immediata la cosa, almeno per me...

Risposte
Lo_zio_Tom
Come puoi vedere dal link seguente, la definizione di errore standard è:"stima della deviazione standard dello stimatore "

Nell'esempio in oggetto abbiamo che:

1) Le $n$ variabili (ogni osservazione è una variabile aleatoria) sono iid di Bernulli, ovvero $X_i~B(1,p)$, $i=1,2,...,n$

2) Lo stimatore della % di una caratteristica della popolazione è "intuitivamente" la frequenza relativa[nota]Più precisamente, è lo stimatore di massima verosimiglianza che si trova facilmente calcolando l'argmax della seguente funzione rispetto a $theta$:

$L(theta)=theta^(Sigmax)(1-theta)^(n-Sigmax)$[/nota] rilevata nel campione casuale (che nel caso di variabili di bernulli coincide con la media campionaria)

Ergo basta stimare la seguente quantità:

$sqrt(sigma^2/n)=sqrt((p(1-p))/n)$


$p$ si stima con $hat(p)=f$, dove $f$ è la frequenza relativa.

Purtroppo immagino che la spiegazione vada al di là delle conoscenze di uno studente di prima superiore ma del resto questa stanza è per studenti universitari

balestra_romani
Non capisco nulla.

Non capisco perché la varianza è pari a p*(1-p).

Inoltre con capisco perché per stimare un errore oltre che alla classica e semplice varianza c'è bisogno di questa radice con il rapporto tra la varianza ed n. Riesci a spiegarmi la differenza tra errore e scarto quadratico medio? In buona sostanza, fisicamente parlando, lo scarto quadratico medio rappresenta quanto i valori distano dalla media mentre dividendo lo scarto quadratico medio per la radice di n o n-1 cosa ottengo?

balestra_romani
Aspetta forse ho capito...

quella formula è la radice della varianza della media ovvero l'errore della media del campione rispetto alla media della popolazione... ne abbiamo parlato qualche giorno fa in questa discussione:
viewtopic.php?f=34&t=180685&start=20

mi resta da capire perché il quadrato della varianza è pari al prodotto di f per 1 - f...

Lo_zio_Tom
"balestra_romani":


mi resta da capire perché [strike]il quadrato del[/strike] la varianza è pari al prodotto di [strike]f per 1 - f[/strike] $p(1-p)$


perché le variabili sono Bernulliane di parametro $p$ incognito. Per conoscere tale parametro occorre fare lo spoglio di tutte le schede elettorali, ma ciò significa appunto "fare le elezioni". Scopo del sondaggio è quello di avere una "stima" ovvero una previsione di tale valore % $p$ sulla base di un campione ridotto.

L'errore che si commette è pari alla stima dello scarto quadratico medio (o deviazione std) della media campionaria....il valore incognito $p$ si stima con la sua media del campione $bar(p)=f$

Studia un po' di teoria della stima e poi, se ne avrai ancora bisogno, sicuramente qualcuno ti aiuterà a dipanare eventuali dubbi residui. Con le conoscenze che mostri ora è difficile anche abbozzare la spiegazione di certi argomenti.

balestra_romani
Si, appena ho tempo mi prendo un testo di statistica e me lo leggo tutto con cura.

Ho letto anche qui:
https://it.wikipedia.org/wiki/Distribuz ... _Bernoulli
Si scrive che Var(X)=qp. La dimostrazione è tutta li oppure esiste una dimostrazione tipo quella che ho visto la settimana scorsa che spiega da dove salta fuori l'n-1 nella varianza non distorta di un campione? A rigor di logica mi aspetto una dimostrazione che partendo dalla formula della varianza (somma dei quadrati... ecc...) arrivi a questo prodotto p(p-1)... strano che non esista.
Dalla formula sembra che la varianza massima si abbia per p prossimi al 50% anche questo non lo comprendo.

Lo_zio_Tom
Finora hai calcolato la media e la varianza della media campionaria. Quando calcolerai la media della varianza campionaria vedrai anche da dove esce il fatto di dividere per $n$ oppure $(n-1)$. La dimostrazione si fa in 3 passaggi ma occorre avere un po' di dimestichezza con le variabili aleatorie. In ogni buon testo di statistica c'è un capitolo dedicato con un titolo del tipo: distribuzioni campionarie

balestra_romani
Eccola! L'ho trovata!

https://www.roma1.infn.it/~dagos/PRO/node117.html

era quella cosa li che cercavo!

balestra_romani
Dimenticavo: [size=150]mille grazie![/size] :smt023

Comunque secondo me parlare di errore standard di una variabile continua e di una variabile discreta di Bernulli in una prima superiore a mio avviso è eccessivo. E' vero che sul libro c'è solo la formula ed un esempio di come applicarla ma secondo me è comunque eccessivo.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.