Numero random di estrazioni da un'urna
Salve, vorrei capire come si risolve questo problema:
Supponiamo di avere $N+M$ palline in un'urna, di cui N bianche ed M nere. Supponiamo, per ogni pallina, di tirare una moneta, la quale ha probabilità $p$ che esca testa. Adesso estraiamo dall'urna casualmente un numero di palline pari al numero totale di teste uscite. Mediamente, quante palline bianche si trovano?
Allora intuititvamente, mediamente si ottengono $\bar {k} = (N+M)p$ teste, dunque la probabilità di estrarre m palline mediamente sarà (distribuzione ipergeometrica con al posto di k estrazioni il valor medio del numero di estrazioni) $E(m) = E(k) \frac{N}{N+M}= Np$.
Ho provato a dimostrare questa cosa in questo modo. Consideriamo l'evento K: ho estratto k palline, e l'evento M: ho estratto m palline bianche. Siamo interessati a calcolare $p(K \cap M)= p(m|k)p (k)$, dove $p (k) $ è la binomiale che esprime la probabilità che su $N+M$ lanci si ottengano k teste. Se uno vuole calcolare la media su m, si ha che vale:
$E(m|k) = k \frac{N}{N + M}$.
Se adesso vogliamo mediare su k, otterrei:
$E (m)= \sum_k k^2 p (k) \frac{N}{N+M}$, ma questo non è ciò che mi aspetto. Non capisco proprio dove sia sbagliato questo ragionamento.
Girando un po' su internet ho trovato l'identità di Wald, che mi assicura che dovrebbe valere:
$E(K\cap M)=E (k) E (m=1) $,dove con $E (m=1)$ intendo la probabilità di estrarre una pallina bianca con una sola estrazione, cioè $\frac{N}{N+M}$, e dunque otterrei il risultato che mi aspetto. Dove è l'errore?
Supponiamo di avere $N+M$ palline in un'urna, di cui N bianche ed M nere. Supponiamo, per ogni pallina, di tirare una moneta, la quale ha probabilità $p$ che esca testa. Adesso estraiamo dall'urna casualmente un numero di palline pari al numero totale di teste uscite. Mediamente, quante palline bianche si trovano?
Allora intuititvamente, mediamente si ottengono $\bar {k} = (N+M)p$ teste, dunque la probabilità di estrarre m palline mediamente sarà (distribuzione ipergeometrica con al posto di k estrazioni il valor medio del numero di estrazioni) $E(m) = E(k) \frac{N}{N+M}= Np$.
Ho provato a dimostrare questa cosa in questo modo. Consideriamo l'evento K: ho estratto k palline, e l'evento M: ho estratto m palline bianche. Siamo interessati a calcolare $p(K \cap M)= p(m|k)p (k)$, dove $p (k) $ è la binomiale che esprime la probabilità che su $N+M$ lanci si ottengano k teste. Se uno vuole calcolare la media su m, si ha che vale:
$E(m|k) = k \frac{N}{N + M}$.
Se adesso vogliamo mediare su k, otterrei:
$E (m)= \sum_k k^2 p (k) \frac{N}{N+M}$, ma questo non è ciò che mi aspetto. Non capisco proprio dove sia sbagliato questo ragionamento.
Girando un po' su internet ho trovato l'identità di Wald, che mi assicura che dovrebbe valere:
$E(K\cap M)=E (k) E (m=1) $,dove con $E (m=1)$ intendo la probabilità di estrarre una pallina bianca con una sola estrazione, cioè $\frac{N}{N+M}$, e dunque otterrei il risultato che mi aspetto. Dove è l'errore?
Risposte
Sinceramente non capisco dove stia il problema. Devi solo calcolare la media di una ipergeometrica.
$ E (X)= n K/K_(t o t) $
Dove nel tuo caso
$ n=p (N+M) $
e
$ K/K_(t o t )=N/(N+M) $
La dimostrazione la trovi su tutti i libri ben fatti di statistica. Nel Mood Graybill Boes si trova al cap 3: teorema 3.5
(con tutte 'ste lettere che hai usato non sapevo più che lettere utilizzare io...)
Buona lettura
$ E (X)= n K/K_(t o t) $
Dove nel tuo caso
$ n=p (N+M) $
e
$ K/K_(t o t )=N/(N+M) $
La dimostrazione la trovi su tutti i libri ben fatti di statistica. Nel Mood Graybill Boes si trova al cap 3: teorema 3.5
(con tutte 'ste lettere che hai usato non sapevo più che lettere utilizzare io...)
Buona lettura
Forse non mi sono spiegato bene. Il mio problema non è calcolare la media di una distribuzione ipergeometrica, la cui dimostrazione per altro si trova anche senza scomodare libri ben fatti, basta wikipedia. Il problema è dimostrare che la media del numero di palline uscite è proprio la media di una distribuzione ipergeometrica calcolata sul numero medio di teste uscite. In particolare vorrei capire dove è sbagliato il mio ragionamento.
Penso che il problema sia analogo ad un compund di distribuzioni, la binomiale per il numero di palline da estrarre e la ipergeometrica per il numero di bianche. Sbaglio?
Penso che il problema sia analogo ad un compund di distribuzioni, la binomiale per il numero di palline da estrarre e la ipergeometrica per il numero di bianche. Sbaglio?
EDIT:
Sì è vero.
Per risolvere il problema basterebbe osservare che
$E[E(X|Y)]=E[X]=p(N+M) N/(N+M)=pN$
ma se non ne sei convinto basta scrivere la funzione di regressione $E(X|Y)$ che, come dovresti sapere, è appunto funzione di Y, cioè funzione della binomiale. In altri termini, è una funzione con le probabilità della binomiale ma con supporto:
$S_(E(X|Y))=0,N/(N+M),2\cdotN/(N+M),...,N$
in pratica questa:
$E(X|Y=y)-={{: ( 0 , 1\cdotN/(N+M) , 2\cdotN/(N+M) , ... , N ),( q^(N+M) ,(N+M)pq^(N+M-1) , ((N+M),(2))p^2q^(N+M-2) , ... , p^(N+M) ) :}$
quindi per mediare ora $E(X|Y)$ basta raccogliere $N/(N+M)$ ed ottieni subito
$N/(N+M)sum_(k=0)^(N+M)k((N+M),(k))p^(k)q^(N+M-k)=N/(N+M)p(N+M)=Np$
ma con una pletora di inutili passaggi....
cordiali saluti
"dors":
Più che altro io non ho dubbi sul risultato, che sicuramente è quel che dici tu (e anche io), sono interessato a capire dove sta il mio errore. Comunque tranquillo se ti sei rotto di rispondere, non c'è mica bisogno di rispondere stizziti...
Sì è vero.
Per risolvere il problema basterebbe osservare che
$E[E(X|Y)]=E[X]=p(N+M) N/(N+M)=pN$
ma se non ne sei convinto basta scrivere la funzione di regressione $E(X|Y)$ che, come dovresti sapere, è appunto funzione di Y, cioè funzione della binomiale. In altri termini, è una funzione con le probabilità della binomiale ma con supporto:
$S_(E(X|Y))=0,N/(N+M),2\cdotN/(N+M),...,N$
in pratica questa:
$E(X|Y=y)-={{: ( 0 , 1\cdotN/(N+M) , 2\cdotN/(N+M) , ... , N ),( q^(N+M) ,(N+M)pq^(N+M-1) , ((N+M),(2))p^2q^(N+M-2) , ... , p^(N+M) ) :}$
quindi per mediare ora $E(X|Y)$ basta raccogliere $N/(N+M)$ ed ottieni subito
$N/(N+M)sum_(k=0)^(N+M)k((N+M),(k))p^(k)q^(N+M-k)=N/(N+M)p(N+M)=Np$
ma con una pletora di inutili passaggi....
cordiali saluti
La media su m da:
$\bar{m}_k = \frac{N}{N+M}kp(k)$
Il problema è che se ora faccio la media su k, ottengo, per definizione di media:
$\sum_k k frac{N}{N+M} kp (k)= \frac{N}{N+M}\sum_k k^2 p (k) $,
Che non è il valor medio di k, ma il valor medio di k al quadrato, non capisco proprio dove è l'errore.
$\bar{m}_k = \frac{N}{N+M}kp(k)$
Il problema è che se ora faccio la media su k, ottengo, per definizione di media:
$\sum_k k frac{N}{N+M} kp (k)= \frac{N}{N+M}\sum_k k^2 p (k) $,
Che non è il valor medio di k, ma il valor medio di k al quadrato, non capisco proprio dove è l'errore.
Più che altro io non ho dubbi sul risultato, che sicuramente è quel che dici tu (e anche io), sono interessato a capire dove sta il mio errore. Comunque tranquillo se ti sei rotto di rispondere, non c'è mica bisogno di rispondere stizziti...