Chi è il vero Berlusconi?

Faussone
Mi sono appassionato ultimamente a problemi sulla probabilità a priori e a posteriori.
Volevo sottoporvi questo quesito per verificare se ho ragionato correttamente (il quesito l'ho inventato io come si capirà dal testo, invece di parlare di test su malattie ho preferito altro ;-) )

Siamo nella piena fantascienza come si capirà.

Vengono catturati 1000 sosia di Berlusconi tutti identici, tra questi si nasconde il vero che non vuole essere identificato, (perché altrimenti sarebbe processato per il processo Mills, qui sta la fantascienza).
Per scoprire il vero Berlusconi si decide di fare un test: si fa un colloquio di mezz'ora con il sospettato, sapendo che il vero Berlusconi in tale tempo con una probabilità del 51% non riesce a non sparare una fanfaronata. Si sa invece che una persona "normale" spara una fanfaronata solo il 20% delle volte nello stesso tempo.

Poiché si vuole essere sicuri di individuare il vero con una probabilità maggiore del 95% quante volte almeno in 20 test il sospetto deve risultare positivo?

[A me risulta 14].

Modificato errore nel titolo e messo mia soluzione.

Risposte
fu^2
la bellezza della probabilità condizionata eheh ;)

cenzo1
La probabilità a priori di avere individuato Berlusconi è $P(B)=1/1000$

Si vuole che la probabilità -a posteriori- di avere individuato Berlusconi, dato che il soggetto "spari" fanfaronate almeno $k$ volte in $n=20$ prove, sia almeno del 95%:

$P(B|X>=k)>=0.95$

Formula di Bayes:

$P(B|X>=k)=(P(X>=k|B)*P(B))/(P(X>=k|B)*P(B)+P(X>=k|\bar{B})*P(\bar{B}))>=0.95$

Evidentemente $P(\bar{B})=1-P(B)=1-1/1000=999/1000$

Invece $P(X>=k|B)$ è la probabilità che Berlusconi "spari" almeno $k$ fanfaronate in $n=20$ prove.

La variabile di riferimento è una binomiale di parametri $n=20$ e $p=0.51$

Risulta quindi $P(X>=k|B)=\sum_{i=k}^{20}((20),(i))*0.51^i*0.49^(20-i)$

Invece $P(X>=k|\bar{B})$ è la probabilità che una persona normale (non Berlusconi) "spari" almeno $k$ fanfaronate in $n=20$ prove.

La variabile di riferimento è una binomiale di parametri $n=20$ e $p=0.20$

Risulta quindi $P(X>=k|\bar{B})=\sum_{i=k}^{20}((20),(i))*0.20^i*0.80^(20-i)$

Procedendo per tentativi, o meglio costruendo una tabella per i diversi valori di k, risulta, per $k=14$:

$P(X>=14|B)=\sum_{i=14}^{20}((20),(i))*0.51^i*0.49^(20-i)=0.068754218$

$P(X>=14|\bar{B})=\sum_{i=14}^{20}((20),(i))*0.20^i*0.80^(20-i)=1.84501E-06$

Sostituendo nella formula di Bayes risulta:

$P(B|X>=14)=0.973891938>=0.95$

In questo modo si individua una regione di accettazione dell'ipotesi che il soggetto sia Berlusconi ($B$) corrispondente ai valori estremi $X>=14$. La regione di rifiuto dell'ipotesi $B$ corrisponde a $X<14$.

Noto che con questa regione di accettazione il livello di significatività del test risulta bassissimo: $P(X>=14|B)=0.068754218$

Cioè la probabilità di accettare l'ipotesi $B$ qualora sia vera è di appena il $6.9%$ C'è una probabilità complementare del $93.1%$ (errore di I specie) di rifiutare l'ipotesi che si tratti di $B$ nel caso sia proprio lui. (E' molto probabile che la faccia franca - come sempre! ) :wink:

P.S.
A proposito di fantascienza, il test basato sul colloquio per il riconoscimento di B. mi ha richiamato alla memoria il test per il riconoscimento dei replicanti nel cult movie Blade Runner..

Ciao

Faussone
Grazie ancora cenzo della risposta!
Hai confermato che il mio modo di procedere è stato corretto.
Interessante anche l'osservazione sulla significatività... Lo sapevo che comunque il Nostro la farebbe probabilmente franca comunque.

D'altra parte se si vuole essere garantisti è così....
La bassa sensibilità del test a la non alta specificità fanno sì che non si può tirare fuori più di tanto.
Tra l'altro mi viene in mente una cosa: esistono criteri rigidi per far sì che un test (per esempio per la positività all'infezione di un virus) debba avere una sensibilità e specificità di soglia?
Tali soglie dovrebbero essere legate all'incidenza della patologia sulla popolazione: più rara la patologia più dovrebbero essere alte le soglie. E' così?

cenzo1
"Faussone":
Grazie ancora cenzo della risposta!
Hai confermato che il mio modo di procedere è stato corretto.
Prego! Se non altro, abbiamo sbagliato entrambi. :wink:

"Faussone":
D'altra parte se si vuole essere garantisti è così....
La bassa sensibilità del test a la non alta specificità fanno sì che non si può tirare fuori più di tanto.
Sono d'accordo. Però vorrei aggiungere una considerazione.

Avremmo potuto fissare un livello di significatività $1-\alpha=0.95$, con cui avremmo ottenuto (se non erro) una regione di accettazione dell'ipotesi che il soggetto sia $B$ corrispondente ai valori $X>=7$ (a parità di specificità e sensibilità).
In questo modo la probabilità di non individuare il vero $B$ è di poco inferiore al 5%.
Di contro, la probabilità $P(B|X>=7)$ cala ad appena l'1%. In pratica molto probabilmente individueremo B insieme a parecchi falsi positivi.
In questo modo saremmo più garantisti non nei confronti del singolo individuo, ma della collettività che può giovarsi dalla "cattura" del vero B. (pensa se si trattasse di una grave malattia altamente contagiosa: quale rischio sarebbe preferibile correre?).

"Faussone":
Tra l'altro mi viene in mente una cosa: esistono criteri rigidi per far sì che un test (per esempio per la positività all'infezione di un virus) debba avere una sensibilità e specificità di soglia?
Tali soglie dovrebbero essere legate all'incidenza della patologia sulla popolazione: più rara la patologia più dovrebbero essere alte le soglie. E' così?

Questa domanda si riallaccia in parte alla precedente considerazione. Mi sentirei di dire che dipende da caso a caso, ma non ho le competenze necessarie per risponderti.
Trovo molto utili le considerazioni e le indicazioni del Quaderno di Epidemiologia veterinaria del prof. Ezio Bottarelli:
http://www.quadernodiepidemiologia.it/e ... soglia.htm
[size=75](paragrafo "Privilegiare la sensibilità o la specificità?" in basso)[/size]

Ciao!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.