Inferenza statistica
Un sondaggio condotto su un campione bernoulliano di 400 italiani ha mostrato che l'80% di essi sarebbe contrario all'entrata in
vigore del TTIP (Trattato commerciale tra Stati Uniti ed Unione Europea).
a) Calcolare e commentare un intervallo di confidenza al 92% per la proporzione di italiani contrari all'entrata in vigore del TTIP specificando se il livello di confidenza è esatto oppure approssimato e discuterne le motivazioni.
b) Quanto dovrebbe essere l'ampiezza campionaria n affinchè, con livello di confidenza 92% e σ^2=0,25, l'errore massimo di stima risulti pari a 2 punti percentuali in più o in meno?
c) Verificare a livello di significatività 90% l’ipotesi statistica che almeno 3 italiani su 4 siano contrari all'entrata in vigore del TTIP. Interpretare il livello di significatività del test.
Io ho provato a risolvere così:
a) 1-a=0.92 a=0.08 a/2=0.04 n=400 proporzione=80/400=0.20 Dalle tavole Z (0.92+0.04)= 1,75
IC= $0.20 - 1,75$ $*$ $sqrt((0,20 * 1-0,20) / (400))$ ; $0,20 + 1,75$ $*$ $sqrt((0,20 * 1-0,20) / (400))$
b) n = $(z^2a/2 * σ^2)/(Err^2)$ = $(1,75^2 * 0,25)/(0,02)^2$
c) 1-a= 0,90 a=0,10 Dalle tavole Z (0,90)=1,29 proporzione=3/4= 75% (0,75) Po = 1-0,80 = 0,20
Poi ho posto la condizione Ho:p>0,20
Test : $\frac{p - Po}{\sqrt{(Po * 1-po) /(n)}}$ = $\frac{0,75 - 0,20}{\sqrt{(0,20*1-0,20)/(400)$
Voi come avreste fatto?
vigore del TTIP (Trattato commerciale tra Stati Uniti ed Unione Europea).
a) Calcolare e commentare un intervallo di confidenza al 92% per la proporzione di italiani contrari all'entrata in vigore del TTIP specificando se il livello di confidenza è esatto oppure approssimato e discuterne le motivazioni.
b) Quanto dovrebbe essere l'ampiezza campionaria n affinchè, con livello di confidenza 92% e σ^2=0,25, l'errore massimo di stima risulti pari a 2 punti percentuali in più o in meno?
c) Verificare a livello di significatività 90% l’ipotesi statistica che almeno 3 italiani su 4 siano contrari all'entrata in vigore del TTIP. Interpretare il livello di significatività del test.
Io ho provato a risolvere così:
a) 1-a=0.92 a=0.08 a/2=0.04 n=400 proporzione=80/400=0.20 Dalle tavole Z (0.92+0.04)= 1,75
IC= $0.20 - 1,75$ $*$ $sqrt((0,20 * 1-0,20) / (400))$ ; $0,20 + 1,75$ $*$ $sqrt((0,20 * 1-0,20) / (400))$
b) n = $(z^2a/2 * σ^2)/(Err^2)$ = $(1,75^2 * 0,25)/(0,02)^2$
c) 1-a= 0,90 a=0,10 Dalle tavole Z (0,90)=1,29 proporzione=3/4= 75% (0,75) Po = 1-0,80 = 0,20
Poi ho posto la condizione Ho:p>0,20
Test : $\frac{p - Po}{\sqrt{(Po * 1-po) /(n)}}$ = $\frac{0,75 - 0,20}{\sqrt{(0,20*1-0,20)/(400)$
Voi come avreste fatto?
Risposte
Ho riscritto su le formule...
Dunque, apprezzo lo sforzo...ora almeno si capisce (anche se manca qualche parentesi qua e là...) ma ci sono diversi errori, alcuni anche concettualmente molto gravi e comunque nessuno dei tre punti è stato svolto correttamente.
1) la % di persone contrarie è 80%, ovvero 320 individui su 400....quindi $bar(p)=0.8$
2) la formula utilizzata è giusta ma il quesito chiede di trovare $n$ in modo che l'errore "massimo" sia quello specificato...quindi devi impostare una disequazione....poi risolvere in n e arrotondare nel modo giusto...
3) il sistema di ipotesi è il seguente:
${{: ( H_0:p_0=0.75 ),( H_1:p_1>0.75 ) :}$
quindi il test che hai scritto è tutto sbagliato. Quello corretto è questo:
$Z_(s t a t )=(0.80-0.75)/sqrt((0.75*(1-0.75))/400)=2.31>1.28$
quindi rifiutiamo $H_0$ ovvero il test è significativo... e comunque devi calcolare il p-value, come richiesto dall'esercizio per stabilire se il test è significativo oppure molto significativo
Al di là dei conticini la domanda più interessante è la prima: l'intervallo trovato (una volta corretto) è un intervallo Esatto oppure Approssimato? E se fosse approssimato come è stato calcolata l'approssimazione? si poteva forse approssimarlo meglio?
1) la % di persone contrarie è 80%, ovvero 320 individui su 400....quindi $bar(p)=0.8$
2) la formula utilizzata è giusta ma il quesito chiede di trovare $n$ in modo che l'errore "massimo" sia quello specificato...quindi devi impostare una disequazione....poi risolvere in n e arrotondare nel modo giusto...
3) il sistema di ipotesi è il seguente:
${{: ( H_0:p_0=0.75 ),( H_1:p_1>0.75 ) :}$
quindi il test che hai scritto è tutto sbagliato. Quello corretto è questo:
$Z_(s t a t )=(0.80-0.75)/sqrt((0.75*(1-0.75))/400)=2.31>1.28$
quindi rifiutiamo $H_0$ ovvero il test è significativo... e comunque devi calcolare il p-value, come richiesto dall'esercizio per stabilire se il test è significativo oppure molto significativo
Al di là dei conticini la domanda più interessante è la prima: l'intervallo trovato (una volta corretto) è un intervallo Esatto oppure Approssimato? E se fosse approssimato come è stato calcolata l'approssimazione? si poteva forse approssimarlo meglio?
Il primo esercizio è dato da:
$za/2 = 1,76$
Formula: $0,80 - 1,76 * sqrt{0,80 * 0,20}/400$ $, 0,80 + 1,76 * sqrt{0,80 * 0,20}/400$ $= [0,80;0,80]$
Quindi il livello di confidenza è esatto perché l'IC ci dice che si può confidare al 92% che la proporzione degli italiani contrari si attesta all'80%.
$za/2 = 1,76$
Formula: $0,80 - 1,76 * sqrt{0,80 * 0,20}/400$ $, 0,80 + 1,76 * sqrt{0,80 * 0,20}/400$ $= [0,80;0,80]$
Quindi il livello di confidenza è esatto perché l'IC ci dice che si può confidare al 92% che la proporzione degli italiani contrari si attesta all'80%.
a parte che la formula è sbagliata perché al denominatore ci va 20 e non 400...l'intervallo viene $[76.5% ; 83.5%]$.
Ma al di là di ciò, l'intervallo di confidenza che hai impostato è approssimato e non esatto. Infatti la distribuzione è una bernulliana e tu per fare i conti usi una normale. La normale appunto è la distribuzione asintotica (approssimata) dello stimatore di massima verosimiglianza di $p$, $hat(p)$
Oltretutto l'approssimazione potrebbe essere migliorata come ho ampiamente spiegato qui
Ma al di là di ciò, l'intervallo di confidenza che hai impostato è approssimato e non esatto. Infatti la distribuzione è una bernulliana e tu per fare i conti usi una normale. La normale appunto è la distribuzione asintotica (approssimata) dello stimatore di massima verosimiglianza di $p$, $hat(p)$
Oltretutto l'approssimazione potrebbe essere migliorata come ho ampiamente spiegato qui