Aiuto intervalli di confidenza!

Donde1
Salve, devo risolvere questo esercizio ma non riesco a capire come fare:

Esercizio 6.1. Un campione di 600 strumenti da
laboratorio viene testato e 50 di questi risultano
difettosi.
1. Trovare l’intervallo di confidenza al 96%
per la proporzione p di strumenti difettosi.
2. Quanti strumenti devono essere testati in
modo che l’intervallo di confidenza al 95%
dia p a meno di 0:03?

mi sto scervellando per cercare di capire il procedimento per risolverlo che ha spiegato il mio prof ma non ci riesco :roll:

grazie mille

Risposte
Lord K
Io userei la disuguaglianza di Chebyshev che dice:

$P{|S_n/n - p|<= epsilon} >= 1-1/(4*n*epsilon^2)$

1. Sia:

$1-1/(4*600*epsilon^2)>=0.96$

da cui:

$epsilon^2 <= 1/(4*600*0,04)$
$epsilon <=1/96$

Da qui ho la stima:

$|50/600-p|<=1/96$

con qualche conto:

$0<=p<=0,09375$

2. Abbiamo $epsilon=0,03$,

$1-1/(4*n*epsilon^2)>=0,95$
$1-1/(4n*9*10^(-4))>=0,95$

da cui:

$n>=5555$

A scanso di errori dovrebbe essere ciò che cerchi.

Sk_Anonymous
La disuguaglianza di Chebyshev è uno strumento poco affilato che prescinde dal tipo di distribuzione di probabilità che hai a portata di mano. Quando non hai altro, esso serve comunque a trovare uno straccio di risposta...
Ma qui non c'è motivo di abbandonarsi alla disperazione ....
Qui, perdiana, non lo vedete?, c'è sotto una distribuzione di tutto rispetto: quella di Poisson!
Per fare l'esercizio proposto basta ricordare allora che per tale distribuzione la varianza coincide con la media.
Buoni calcoli!

Lord K
"seascoli":
La disuguaglianza di Chebyshev è uno strumento poco affilato che prescinde dal tipo di distribuzione di probabilità che hai a portata di mano. Quando non hai altro, esso serve comunque a trovare uno straccio di risposta...
Ma qui non c'è motivo di abbandonarsi alla disperazione ....
Qui, perdiana, non lo vedete?, c'è sotto una distribuzione di tutto rispetto: quella di Poisson!
Per fare l'esercizio proposto basta ricordare allora che per tale distribuzione la varianza coincide con la media.
Buoni calcoli!


Spiegami per piacere perchè è così evidente che la distribuzione è di poisson?

Donde1
ciao, grazie mille per la risposta.

io però basandomi sulle dispense del prof. ho cercato di risolverlo in un altro modo.

credo che questo sia il caso di una popolazione distribuita dicotomicamente, cioè con gli individui che hanno modalità 1 o 0 in una determinata proporzione. in casi come questo, le dispense del mio prof dicono che la vera proporzione $theta$ della popolazione è compresa, con probabilità p stabilita, nell'intervallo di confidenza calcolato così:

$theta' +- z_c*sqrt((theta'*(1-theta'))/sqrt(n))$

dove: $theta'$ è la proporzione campionaria; $z_c$ è il valore di una variabile aleatoria Z (distribuita normalmente) tale che la frequenza cumulativa $F(Z)$ vale $1-(1-p)/2$; n è la numerosità del campione

quindi per risolvere l'esercizio ho proceduto così:

proporzione campionaria di strumenti difettosi = $theta' = 50/600 = 0.083

probabilità stabilita = $p= 0.96$

$F(Z) = 1-(1-96)/2 = 0.98

quindi ho guardato la tabella della distribuzione gaussiana e, per $F(Z)=0.98$, $z_c$ vale circa 2,055. quindi ho calcolato l'intervallo di confidenza applicando la formula:

$theta' +- z_c*sqrt((theta'*(1-theta'))/sqrt(n)) = 0.083 +- 2.055*sqrt((0.083*(1-0.083))/sqrt(600)) = 0.083 +- 0.023

quindi la vera proporzione di strumenti difettosi della popolazione apparterrebbe all'intervallo $(0.06 , 0.106)$ con probabilità 0.96.

ma è un risultato diverso dal tuo... dove ho sbagliato? :cry:

Lord K
Tu qui usi la distribuzione normale ed il teorema limite centralem il risultato se vedi è simile, infatti i nostri intervalli si intersecano. Non credo quindi che tu abbia sbagliato, abbiamo dato solo presupposti differenti!

Donde1
"Lord K":
Tu qui usi la distribuzione normale ed il teorema limite centralem il risultato se vedi è simile, infatti i nostri intervalli si intersecano. Non credo quindi che tu abbia sbagliato, abbiamo dato solo presupposti differenti!


ok ;) solo che non riesco a capire la seconda parte dell'esercizio: "Quanti strumenti devono essere testati in modo che l’intervallo di confidenza al 95% dia p a meno di 0.03?"

vuol dire che devo calcolare il numero di campionamenti da fare per avere un intervallo di confidenza che non si discosta da $theta'$ per più di 0.03? ma, secondo i miei calcoli, con 50 campionamenti si ottiene già un intervallo del genere :shock: per questo pensavo di avere sbagliato...


edit: forse 0,03 è la lunghezza totale dell'intervallo. quindi, sempre secondo le dispense del mio prof., si ha:

$n = (z_c/d)^2

dove n = numerosità minima campione; d = ampiezza intervallo.

quindi $n = (1.96/0.03)^2 = 4268

che è un risultato diverso da tuo ma comunque vicino...

Sk_Anonymous
Lord K scripsit: Spiegami per piacere perchè è così evidente che la distribuzione è di poisson?
-------------------------------------------------------------------------------------------------------------
Rispondo.
La distribuzione di Poisson risponde alla domanda:
Se in media accadono m eventi, qual è la probabilità che ne accadano k ? (k=0,1,2,3,....)
Ora ammettiamo di aver preso N strumenti. In media ci saranno m = N*50/600 strumenti difettosi.
La probabilità di averne k difettosi è data quindi da: $ exp(-m) m^(k) /(k!)$
Ma tale probabilità è la stessa che la frequenza di strumenti difettosi sia $f_k= k/N$.
In realtà si tratta di un'approssimazione molto buona valida per N molto grande, dato che k può in teoria andare fino a $\infty$.
E, volendo evitare tale pecca, si può sempre risortire alla binomiale invece della poissoniana (in tal caso k = 0,1,2, ...,N).
Entrambe queste approssimazioni sono meglio, ma molto meglio, di Chebyshev.

Mi prendo, invece, un po' più di tempo per valutare la proposta risolutiva avanzata dal prof. di Donde.
Dopotutto qui si chiede in sostanza di stimare un parametro e di determinare la taglia del campione tale da ingabbiare tale stima dentro un intervallo fiduciale con significatività pari al 97%.
A presto....

Donde1
"seascoli":
Lord K scripsit: Spiegami per piacere perchè è così evidente che la distribuzione è di poisson?
-------------------------------------------------------------------------------------------------------------
Rispondo.
La distribuzione di Poisson risponde alla domanda:
Se in media accadono m eventi, qual è la probabilità che ne accadano k ? (k=0,1,2,3,....)
Ora ammettiamo di aver preso N strumenti. In media ci saranno m = N*50/600 strumenti difettosi.
La probabilità di averne k difettosi è data quindi da: $ exp(-m) m^(k) /(k!)$
Ma tale probabilità è la stessa che la frequenza di strumenti difettosi sia $f_k= k/N$.
In realtà si tratta di un'approssimazione molto buona valida per N molto grande, dato che k può in teoria andare fino a $\infty$.
E, volendo evitare tale pecca, si può sempre risortire alla binomiale invece della poissoniana (in tal caso k = 0,1,2, ...,N).
Entrambe queste approssimazioni sono meglio, ma molto meglio, di Chebyshev.

Mi prendo, invece, un po' più di tempo per valutare la proposta risolutiva avanzata dal prof. di Donde.
Dopotutto qui si chiede in sostanza di stimare un parametro e di determinare la taglia del campione tale da ingabbiare tale stima dentro un intervallo fiduciale con significatività pari al 97%.
A presto....


scusa ma il mio prof non si riferisce proprio alla approssimazione binomiale con il suo procedimento? :?

Sk_Anonymous
Indico con $p$ la vera prob(strumento difettoso).
Premetto che uso una binomiale e l'approssimo poi con una normale dato che suppongo il campione grande (N>>1).
Una var. aleat. binomiale del tipo $B=1/N\sum_{k=1}^{N}X_k
dove le $X_k$ sono le v.a. aleatorie bernoulliane indipendenti, definite sul campione di N strumenti, ognuna delle quali vale 1 (strumento difettoso) con prob. $p$ e 0 con prob. $(1-p)$, come ben noto, segue una distribuzione binomiale con media $\mu=p$ e varianza $\sigma^2=(p(1-p))/N$.

Quesito (1)
Si ha $N=600$ e $f=50/600=1/12$ come stima (non distorta) del valor medio $p$.
Approssimando ora la binomiale con una gaussiana avente stessa media e stessa varianza si ha:
$z(0.98)= 2.055$
e quindi l'intervallo fiduciale bilatero per $p$ al 96% di significatività è:
$|p - \mu| <= z(0.98)\sigma$
cioè, stimando $\mu$ con $f$ e quindi $\sigma^2 $ con $f(1-f)/N$ :
$|p - f| <= 2.055 \sqrt{f(1-f)/N} = 2.055 \sqrt{11/(144xx600)}= 0.0232$
Quindi, dato che $f=1/12= 0.08333$ l'intervallo cercato è:
(0.08333 - 0.0232, 0.08333 + 0.0232) = $(0.6013, 0.1065)$
FINE

A fra poco per la mia altrettanto lapidaria risposta al Quesito (2) ...

Sk_Anonymous
Noto innanzi tutto che la mia risposta al Quesito (1) coincide con quella trovata da Donde.
Spero che ciò lo tranquillizzi. (Bravo il suo prof, vedo che ci azzecca!)
QUESITO (2)
Adesso è $N$, la taglia del campione, ad essere incognita, mentre è nota la semi-ampiezza dell'intervallo fiduciale (0.03), oltre alla sua significatività (95%).
Si parte sempre da una relazione molto simile a quella usata nel Quesito (1):
$|p-f|<=z(0.975)\sigma=1.96sqrt(f(1-f)/N)$ , cioè l'intervallo fiduciale al 95% è
$\delta-=MAX(|p-f|)=1.96\sqrt{(f(1-f))/N}$.
Ma ora $N$ è incognito, e si chiede per quali valori di N risulta $\delta<0.03$.
E' facile ricavare la condizione su N dalla precedente diseguaglianza:
$0.03>1.96/12\sqrt(11/N)$
da cui
$N>11(1.96/0.36)^2=326$
Quindi occorre e basta "testare" 326 strumenti, altro che le vostre migliaia!
Una riprova di ciò è data dal fatto che nel quesito (2) si ha, rispetto al quesito (1), un'intervallo fiduciale di circa il 50% più ampio (0.03 invece che 0.0232) oltre al fatto che si chiede di garantirlo con una significatività leggermente più bassa di prima (95% invece che 96%). L'effetto di ciascuna di queste variazioni va nello stesso senso, cioè nel senso che richiedono entrambe una riduzione della taglia del campione. E infatti 326 < 600. Giusto?

retrocomputer
Continuo nella mia opera di riesumazione... Purtroppo molte risposte risultano illeggibili per errori nelle formule (quasi tutti sono banali mancanze di simboli di dollaro che magari segnalerò più avanti).

Intanto mi soffermo sulla prima risposta di Lord K che è ben leggibile e fornisce una prima approssimazione (contiene forse un errore nel calcolo di $\epsilon$).
Il mio dubbio in questa risposta riguarda la seconda domanda e in particolare la scelta di utilizzare la lunghezza del "mezzo intervallo" per trovare $n$. Quello che mi chiedo è se in questo caso, avendo un intervallo $[\bar x-\sigma_n,\bar x+\sigma_n]$, si trovi $n$ ponendo $\sigma_n\leq 0.03$ oppure $2\sigma_n\leq 0.03$. Io sarei più propenso a usare il primo, come mi pare abbia fatto Lord K, leggendo l'impostazione della domanda...

Poi c'è un secondo dubbio che riguarda l'approssimazione della varianza. In questo caso si avrebbe, per la diseguaglianza di Chebishev,
$\sigma=\sqrt{p(1-p)}/{\sqrt{n\alpha}}$ che è stato approssimato con $1/{\sqrt{4n\alpha}}$ e va bene.
Però vedo che si usa anche la tecnica di approssimare $p(1-p)$ con $\hat p(1-\hat p)$ dove in questo caso $\hat p=50/{600}$. Come si giustifica nella teoria quest'ultima tecnica? Per $\hat p$ lontani da $0.5$ fornisce chiaramente intervalli più stretti...

tony630
A mio avviso troppa teoria, con troppe formule senza averle mai applicate o mai avere un senso reale di quello che viene studiato, porta ad avere solo concetti astratti, formule vaghe.. e solo tanta confusione.
Noto spesso che vengono mischiati concetti e formule in base a quanto è stato letto ultimamente.. con frasi e parole quasi inutili.
Manca la logica, cosa essenziale nella matematica.

retrocomputer
Beh, vediamo se si riesce a ridurla, questa mia tanta confusione... :-D

tony630
Non fare il furbo, tu non hai nessuna confusione....ma la vedi

retrocomputer
No no, mi sopravvaluti! Diciamo che un po' ne vedo e un po' ne ho :wink:

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.