Es. Intervallo di confidenza

caramella82
Ciao ragazzi....questa volta all'esame ho scritto qualcosa! 3esercizi su 4...ma non è andata...andrò a vedere perchè non mi ha voluto mettere nenahce un 18 di m!! Non sono neanche riuscita a copiare i testi...che pizza! Ora mi stavo esercitando, e volevo chiedervi se ho fatto i passaggi corretti.
Grazie a tutti, perchè da quando frequento questo forum, statistica è più comprensibile e fattibile!

Dopo la chiusura dei seggi, gli elettori, chiamati ad esprimersi su un quesito referendario, attendono con ansia l'esito della consultazione. Lo spoglio parziale di n schede (che supponiamo rappresentative del totale delle schede) ha fornito il seguente risultato: SI 51%, NO 49%. Determinare gli intervalli di confidenza al 95% e al 99% della percentuale di SI supponendo n = 2500

Credo che questa sia un inferenza su una proporzione(pag 9 dal mio formulario) perchè nel testo vi è scritto "SI 51%, NO 49%", ed io lo interpretato come un "SI 51% su NO 49%" . (Scusate ma, ho bisogno di frasi che mi dicano che devo applicare quella determinata formula...mi è pure difficile capire i testi a volte!). L'ho risolto così:

$(51*2500)/100= 1275$
mi son trovata la $x$ ossia il numero di volte in cui l'evento (in questo caso il SI) si verifica, a questo punto applico la formula:
$\hat p = (1275)/2500=0,51$ e poi $ES_(\hat p)= sqrt((0,51*(1-0,51)) /2500) = 0,0002$

Per il 95% che corrisponde a $1,96$
$IC= (0,51-1,96*0,0002$ ; $0,51+1,96*0,0002) = 0,50; 0,51$ ho notato che a volte, non i tutti gli esercizi c'è questo passaggio $(0,51-0,50)=0,01$perchè?

Per il 99% che corrisponde a $2,58$
$IC= (0,51-2,58*0,0002$ ; $0,51+2,58*0,0002) = 0,50; 0,51$

è giusto ragazzi?

Risposte
_Matteo_C1
Ciao:) Secondo me non è mai bene cercare di risolvere gli esercizi pensando alle formule...! Sennò non si riesce a trattare i casi un pochino piu complicati, ma solo quelli che si sono gia fatti!
Ti dico come ragiono io:
il processo di votazione è un processo Binomiale, in cui si hanno N "prove" (ossia elettori in questo caso) e si osservano n "successi" (in questo caso i "SI").
Determiniamo la migliore stima di "p", ovvero la probabilità che un elettore abbia detto "SI".
La migliore stima del valore centrale si può avere solamente col rapporto:
$\hat p = n/N = 0.51$

l'incertezza si ha utilizzando la varianza della binomiale:
$Var[n] = N*p*(1-p)$
ma noi vogliamo la varianza sulla $p$, non su $n$, perciò dividiamo ambo i lati per $N^2$:
$Var[n/N] = p*(1-p)/N$
(ricordando che nel passare da fuori a dentro l'operatore Var[] si perde il quadrato)
Da cui: $sigma(p) = sqrt(p*(1-p)/N)$ (stessa formula tua!)

Quindi:
$\hat p = 0.510 +- 0.010$
l'intervallo ha "copertura" 68.3% in quanto N è grande(maggiore di 30), e siamo dunque di fronte in realtà ad una gaussiana.

Gaurdando le tabelle della gaussiana standardizzata vediamo di quanto dobbiamo ampliare l'intervallo per arrivare al 95% e al 99%.
Per il 95% dobbiamo moltiplicare la sigma di $1.64$, mentre per il 99% del $2.33$, se non ho letto male dalle tabelle!:

$\hat p = 0.510 +- 0.016- (95%)$
$\hat p = 0.510 +- 0.023- (99%)$

caramella82
Ciao Matteo....ehhh è un problemone non seguire le formule! Anche perchè non mi sò destare tra i vari argomenti...guarda appena ho letto la tua risposta ho esclamato "eh!" buu, forse ho scelto un problema complicato, ma voglio esercitarmi e sto prendendo di tutto e di più dal web.
Capisco fino ad un certo punto...non mi è chiaro perchè dici
"_Matteo_C":

ma noi vogliamo la varianza sulla $p$, non su $n$, perciò dividiamo ambo i lati per $N^2$:
$Var[n/N] = p*(1-p)/N$

ho già visto una N grande e son entrate in crisi!
Poi si ho sbagliato a scrivere $1,96$ invece di $1,64$ mentre per il 99% utilizziamo sempre 2,58....non chiedermi perchè!

_Matteo_C1
Ok :) Allora, innanzitutto, $N$ è il numero di elettori, o come ho gia detto il "numero di prove" in una binomiale.

Ho diviso per N grande perchè, se vedi la Binomiale, la formula per la varianza ti dice "di quanto è incerto il numero $n$ di successi", mentre noi qui stiamo trattando una frazione, che è $n/N$ ! Quindi, non vogliamo $Var[n]$, ma vogliamo $Var[n/N]$!
Si tratta quindi solo di dividere per $N^2$ sia a destra che a sinistra, niente di più! (il quadrato è dovuto a come è fatta l'operazione di varianza! Intuitivamente: è una operazione che eleva al quadrato, quindi se vuoi infilare dentro all'argomento $1/N$, devi moltiplicare per $(1/N)^2$ )
un esempio un pò insano in spoiler:



Spero di aver dato l'idea..

cenzo1
"caramella82":
$ES_(\hat p)= sqrt((0,51*(1-0,51)) /2500) = 0,0002$

Ricontrolla questo calcolo, mi torna lo stesso risultato di Matteo.
Poi è giusto usare 1.96 perchè l'intervallo di confidenza presumo sia bilaterale.

caramella82
Ciao Ragazzi!!! forse ho scelto un problema, non alla mia portata....quelle formuline non le ho mai viste
Il calcolo ho riprovato a farlo con la calcolatrice, mettendo tutte le parentesi ecc. e mi viene sempre 0,00019 che poi ho approssimato a 0,0002.
Adesso ho ritrovato i fogli dei risultati dice che :
$(0,49 ; 0,53) 95%$
$(0,48 ; 0,51) 99%$

mi sà che ognuno fà le approssimazioni che vuole, ecco perchè a volte ho paura di farle.
Purtroppo il corso l'ho fatto più di 5anni fà...il prof è cambiato è pretende di più, manco facessi un corso di economia o simil! Cavoli sarò un informatore farmaceutico...se riuscirò a prendere sta benedetta Laurea! help me! :-(

cenzo1
"caramella82":
Il calcolo ho riprovato a farlo con la calcolatrice, mettendo tutte le parentesi ecc. e mi viene sempre 0,00019 che poi ho approssimato a 0,0002.

Penso di avere capito l'errore: il 2500 sta pure lui sotto radice. Fai prima la divisione e poi la radice! Uscirà circa 0.01

Poi il conto che hai fatto all'inizio ricavando 1275 SI su 2500 e facendo il rapporto tra i due, era inutile,
riottieni sempre p=0,51 che già sai :wink:

Rivedi i conti, ora dovresti ottenere le soluzioni
"caramella82":
Adesso ho ritrovato i fogli dei risultati dice che :
$(0,49 ; 0,53) 95%$
$(0,48 ; 0,51) 99%$

penso che hai riportato male quel 0.51.. :wink:

caramella82
OH MY GOD!!!!!!
ma cavoliiiiiiiiiiiiiiiiiiiiiiiii cenzoooooooooo sigh sigh sigh ](*,) com'è possibile ho scritto in quest'ordine i dati sulla calcolatrice $sqrt((0,51*(1-0,51))):2500$

con 2500 che è sotto radice, mentre la & non c'entra nulla...forse avendo messo troppe parentesi me la prende così...vabbè!

cenzo1
"caramella82":
$sqrt((0,51*(1-0,51))):2500$

Penso che hai messo la parentesi di chiusura nel posto sbagliato:
sqrt( 0,51*(1-0,51):2500 )

Vabbè, capita :)

Arado90
Penso di avere capito l'errore: il 2500 sta pure lui sotto radice.

Forse non è il punto, ma se usi/usate Firefox le radici si vedono un po' male.
Cioè, nel primo messaggio era stato messo giustamente anche il 2500 sotto radice, ma con Firefox le radici di frazioni non "coprono" anche il denominatore.

caramella82
:-D ci mettono pure i browser a darmi contro!!! ahahah

retrocomputer
"_Matteo_C":

Gaurdando le tabelle della gaussiana standardizzata vediamo di quanto dobbiamo ampliare l'intervallo per arrivare al 95% e al 99%.
Per il 95% dobbiamo moltiplicare la sigma di $1.64$, mentre per il 99% del $2.33$, se non ho letto male dalle tabelle!:


Scusate se ho riesumato questo vecchio messaggio, ma stavo spulciando tra i thread che parlano di intervalli di fiducia e ho preferito evitare di riproporre l'esercizio... Se ho sbagliato ditelo :-D Davvero, visto che avrei intenzione di riesumarne altri :wink:

Non mi tornano i valori utilizzati $1.64$ e $2.33$: io avrei usato $1.96$ e $2.58$... Dove sbaglio?

tony630
in realtà non c'è nessun errore, ma solo 2 valori a seconda se usiamo una o 2 code.
Quindi 1.96 è la stima se consideriamo 2 code, 1.64 se usiamo 1 coda.

retrocomputer
Ah, OK, così mi torna... Quindi, vista la forma degli intervalli ricavati nelle varie risposte, direi che vadano usati i valori per le 2 code in tutti i casi riportati, cioè i miei, no?

tony630
Non ho capito bene la domanda, le 2 code si usano quando si vuole definire la stima sia in caso positivo, sia in caso negativo.
Nel caso di controllo qualità è quasi sempre usato 1 coda, andando ad analizzare l'eccesso o meno di errori o imperfezioni.
Un ipotetico lancio di una moneta, il controllo dell'uscita di una faccia deve essere fatto su 2 code, in quanto statisticamente sia un difetto di uscite che un eccesso può portare ad errori di lancio o imperfezioni sulla moneta

retrocomputer
"tony630":
Non ho capito bene la domanda,


Non ti preoccupare: forse non l'ho capita nemmeno io :-D

Cioè, forse non mi è chiaro cosa si intende per 1 o 2 code... Per me vuol dire che l'intervallo di fiducia è del tipo $[\bar X-\sigma,\bar X+\sigma]$ per le due code, mentre per una coda gli intervalli sono semirette.

tony630
si tu hai espresso il concetto delle 2 code, dove calcoli la variazione rispetto al valore medio, o rispetto ad un punto unico.
Se invece a me non interessa una variazione, quindi non prendo in considerazione una parte, quella va a sommarsi in toto che corrisponde a 0.50, a cui va sommata la parte mancante.Non sempre si lavora su 2 code : nella pratica spesso ci interessa solo una stima unidirezionale, come nel caso di un controllo di pezzi errati in una determinata produzione.
A me in quel caso non interessano i casi dove ho molti pz buoni o quasi tutti o tutti, a me interessa verificare una stima se i pz errati , rientrano in una stima in ragione del 95% .
Tale stima è la somma di tutti i casi positivi (fino a 0 pz errati)più la coda dove abbiamo un aumento dei casi di pz errati fino al 95% : caso con 1 coda.
Se vai a vedere una campana gaussiana il senso di "coda" è ovvia
Ecco forse una definizione che può essere generalizzata: se dobbiamo analizzare quale sia , tra 2 processi ( produttivi), quello migliore e peggiore, dobbiamo verificare le 2 code, ma se dobbiamo verificare quale sia quello migliore si usa una coda

retrocomputer
Sì, penso di avere capito, bene o male, che a volte è più conveniente usare un approccio invece di un altro. In questo caso ci aspettiamo un valore "intorno" al 51% e quindi io avrei utilizzato senza indugio l'approccio "a due code"... Forse sbagliando :-D

Ma non è questo il mio (solo) problema. Il fatto è che a me sembra che tutti quelli che hanno partecipato al thread abbiano utilizzato l'approccio a due code, ma utilizzando gli $z_\alpha$ invece degli $z_{\alpha/2}$ (non so se questo tipo di notazione ti è familiare, a me no, io ne uso un altro, ma ho visto usare spesso questo).
Se non è così, vorrei capire dove si vede che hanno utilizzato l'approccio a una coda.

tony630
Personalmente, nell'esempio iniziale alla discussione, il calcolo sulla stima delle votazioni avrei usato pure io una valutazione a 2 code.
$z_(alpha/2)$ rappresenta il valore assoluto il livello di significabilità di una singola coda e la somma infatti rappresenta $\alpha$.

posso cmq confermarti che i valori corretti sono 1.96 e 2.58

retrocomputer
Grazie! Mi hai risparmiato due giorni di rimuginamento :smt023

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.