Dimostrazione formula per stimare la probabilità di successo di un sondaggio
Sul libro di testo di prima superiore si scrive che se si vuole stimare una percentuale di una caratteristica della popolazione ed f è la percentuale rilevata da un campione l’errore standard è dato dalla formula:
$ s_f=root()((f(1-f)) / (n)) $
Esempio: Dopo lo spoglio dei voti in 800 seggi elettorali, un partito ha ottenuto il 12% dei voti: $ S_f=0.011 $.
Qualcuno sa dirmi da dove salta fuori questa formula: in teoria partendo dalla varianza si dovrebbe arrivare a questa relazione ma non sembra così immediata la cosa, almeno per me...
$ s_f=root()((f(1-f)) / (n)) $
Esempio: Dopo lo spoglio dei voti in 800 seggi elettorali, un partito ha ottenuto il 12% dei voti: $ S_f=0.011 $.
Qualcuno sa dirmi da dove salta fuori questa formula: in teoria partendo dalla varianza si dovrebbe arrivare a questa relazione ma non sembra così immediata la cosa, almeno per me...
Risposte
Come puoi vedere dal link seguente, la definizione di errore standard è:"stima della deviazione standard dello stimatore "
Nell'esempio in oggetto abbiamo che:
1) Le $n$ variabili (ogni osservazione è una variabile aleatoria) sono iid di Bernulli, ovvero $X_i~B(1,p)$, $i=1,2,...,n$
2) Lo stimatore della % di una caratteristica della popolazione è "intuitivamente" la frequenza relativa[nota]Più precisamente, è lo stimatore di massima verosimiglianza che si trova facilmente calcolando l'argmax della seguente funzione rispetto a $theta$:
$L(theta)=theta^(Sigmax)(1-theta)^(n-Sigmax)$[/nota] rilevata nel campione casuale (che nel caso di variabili di bernulli coincide con la media campionaria)
Ergo basta stimare la seguente quantità:
$p$ si stima con $hat(p)=f$, dove $f$ è la frequenza relativa.
Purtroppo immagino che la spiegazione vada al di là delle conoscenze di uno studente di prima superiore ma del resto questa stanza è per studenti universitari
Nell'esempio in oggetto abbiamo che:
1) Le $n$ variabili (ogni osservazione è una variabile aleatoria) sono iid di Bernulli, ovvero $X_i~B(1,p)$, $i=1,2,...,n$
2) Lo stimatore della % di una caratteristica della popolazione è "intuitivamente" la frequenza relativa[nota]Più precisamente, è lo stimatore di massima verosimiglianza che si trova facilmente calcolando l'argmax della seguente funzione rispetto a $theta$:
$L(theta)=theta^(Sigmax)(1-theta)^(n-Sigmax)$[/nota] rilevata nel campione casuale (che nel caso di variabili di bernulli coincide con la media campionaria)
Ergo basta stimare la seguente quantità:
$sqrt(sigma^2/n)=sqrt((p(1-p))/n)$
$p$ si stima con $hat(p)=f$, dove $f$ è la frequenza relativa.
Purtroppo immagino che la spiegazione vada al di là delle conoscenze di uno studente di prima superiore ma del resto questa stanza è per studenti universitari
Non capisco nulla.
Non capisco perché la varianza è pari a p*(1-p).
Inoltre con capisco perché per stimare un errore oltre che alla classica e semplice varianza c'è bisogno di questa radice con il rapporto tra la varianza ed n. Riesci a spiegarmi la differenza tra errore e scarto quadratico medio? In buona sostanza, fisicamente parlando, lo scarto quadratico medio rappresenta quanto i valori distano dalla media mentre dividendo lo scarto quadratico medio per la radice di n o n-1 cosa ottengo?
Non capisco perché la varianza è pari a p*(1-p).
Inoltre con capisco perché per stimare un errore oltre che alla classica e semplice varianza c'è bisogno di questa radice con il rapporto tra la varianza ed n. Riesci a spiegarmi la differenza tra errore e scarto quadratico medio? In buona sostanza, fisicamente parlando, lo scarto quadratico medio rappresenta quanto i valori distano dalla media mentre dividendo lo scarto quadratico medio per la radice di n o n-1 cosa ottengo?
Aspetta forse ho capito...
quella formula è la radice della varianza della media ovvero l'errore della media del campione rispetto alla media della popolazione... ne abbiamo parlato qualche giorno fa in questa discussione:
viewtopic.php?f=34&t=180685&start=20
mi resta da capire perché il quadrato della varianza è pari al prodotto di f per 1 - f...
quella formula è la radice della varianza della media ovvero l'errore della media del campione rispetto alla media della popolazione... ne abbiamo parlato qualche giorno fa in questa discussione:
viewtopic.php?f=34&t=180685&start=20
mi resta da capire perché il quadrato della varianza è pari al prodotto di f per 1 - f...
"balestra_romani":
mi resta da capire perché [strike]il quadrato del[/strike] la varianza è pari al prodotto di [strike]f per 1 - f[/strike] $p(1-p)$
perché le variabili sono Bernulliane di parametro $p$ incognito. Per conoscere tale parametro occorre fare lo spoglio di tutte le schede elettorali, ma ciò significa appunto "fare le elezioni". Scopo del sondaggio è quello di avere una "stima" ovvero una previsione di tale valore % $p$ sulla base di un campione ridotto.
L'errore che si commette è pari alla stima dello scarto quadratico medio (o deviazione std) della media campionaria....il valore incognito $p$ si stima con la sua media del campione $bar(p)=f$
Studia un po' di teoria della stima e poi, se ne avrai ancora bisogno, sicuramente qualcuno ti aiuterà a dipanare eventuali dubbi residui. Con le conoscenze che mostri ora è difficile anche abbozzare la spiegazione di certi argomenti.
Si, appena ho tempo mi prendo un testo di statistica e me lo leggo tutto con cura.
Ho letto anche qui:
https://it.wikipedia.org/wiki/Distribuz ... _Bernoulli
Si scrive che Var(X)=qp. La dimostrazione è tutta li oppure esiste una dimostrazione tipo quella che ho visto la settimana scorsa che spiega da dove salta fuori l'n-1 nella varianza non distorta di un campione? A rigor di logica mi aspetto una dimostrazione che partendo dalla formula della varianza (somma dei quadrati... ecc...) arrivi a questo prodotto p(p-1)... strano che non esista.
Dalla formula sembra che la varianza massima si abbia per p prossimi al 50% anche questo non lo comprendo.
Ho letto anche qui:
https://it.wikipedia.org/wiki/Distribuz ... _Bernoulli
Si scrive che Var(X)=qp. La dimostrazione è tutta li oppure esiste una dimostrazione tipo quella che ho visto la settimana scorsa che spiega da dove salta fuori l'n-1 nella varianza non distorta di un campione? A rigor di logica mi aspetto una dimostrazione che partendo dalla formula della varianza (somma dei quadrati... ecc...) arrivi a questo prodotto p(p-1)... strano che non esista.
Dalla formula sembra che la varianza massima si abbia per p prossimi al 50% anche questo non lo comprendo.
Finora hai calcolato la media e la varianza della media campionaria. Quando calcolerai la media della varianza campionaria vedrai anche da dove esce il fatto di dividere per $n$ oppure $(n-1)$. La dimostrazione si fa in 3 passaggi ma occorre avere un po' di dimestichezza con le variabili aleatorie. In ogni buon testo di statistica c'è un capitolo dedicato con un titolo del tipo: distribuzioni campionarie
Eccola! L'ho trovata!
https://www.roma1.infn.it/~dagos/PRO/node117.html
era quella cosa li che cercavo!
https://www.roma1.infn.it/~dagos/PRO/node117.html
era quella cosa li che cercavo!
Dimenticavo: [size=150]mille grazie![/size]
Comunque secondo me parlare di errore standard di una variabile continua e di una variabile discreta di Bernulli in una prima superiore a mio avviso è eccessivo. E' vero che sul libro c'è solo la formula ed un esempio di come applicarla ma secondo me è comunque eccessivo.

Comunque secondo me parlare di errore standard di una variabile continua e di una variabile discreta di Bernulli in una prima superiore a mio avviso è eccessivo. E' vero che sul libro c'è solo la formula ed un esempio di come applicarla ma secondo me è comunque eccessivo.