Distribuzione di prob. collezione di sorpresine
Ciao a tutti. Volevo condividere con voi questo ragionamento che non mi quadra completamente. Si tratta di un'applicazione del "classico" problema del collezionista.
Eccolo: le merendine talDeiTali regalano una collezione di $n$ sorprese distinte. Ogni scatola può contiene una delle $n$ sorprese con probabilità di $1/3$ o non contenere nulla con probabilità $1 - p = 2/3$.
Indico con:
$X = T_1 + T_2 + ... + T_n$
il numero di pacchetti di merendine che devo acquistare per finire la collezione, dove $T_i$ è il generico numero di pacchetti da comprare per incrementare la nostra collezione di un nuovo pezzo diverso dagli $i - 1$ che avevamo già.
Ogni $T_i$ segue una distribuzione geometrica, per cui so che:
$P(T_i = k) = (1 - p_i)^{k-1}p_i$,
e che $p_i = 1/3\frac{n-(i-1)}{n}$
Per cui il valore atteso del generico $T_i$ vale $E[T_i] = 1/p_i = \frac{3n}{n-(i-1)}$. Da cui ottengo il numero atteso di pacchetti per completare la collezione:
$E[X] = \sum_(i=1)^n E[T_i] = \sum_(i=1)^n 1/p_i = 3n ( 1/n + 1/{n-1} + ...+1 ) $.
Fin qui credo che sia tutto ok, la mia difficoltà arriva ora nel calcolare la distribuzione di probabilità seguita da $X$ per poter calcolare, ad esempio, qual è la probabilità di completare la collezione entro l'$x$-simo pacchetto ($P(X \leq x)$). Come fare?
Ciao!
Eccolo: le merendine talDeiTali regalano una collezione di $n$ sorprese distinte. Ogni scatola può contiene una delle $n$ sorprese con probabilità di $1/3$ o non contenere nulla con probabilità $1 - p = 2/3$.
Indico con:
$X = T_1 + T_2 + ... + T_n$
il numero di pacchetti di merendine che devo acquistare per finire la collezione, dove $T_i$ è il generico numero di pacchetti da comprare per incrementare la nostra collezione di un nuovo pezzo diverso dagli $i - 1$ che avevamo già.
Ogni $T_i$ segue una distribuzione geometrica, per cui so che:
$P(T_i = k) = (1 - p_i)^{k-1}p_i$,
e che $p_i = 1/3\frac{n-(i-1)}{n}$
Per cui il valore atteso del generico $T_i$ vale $E[T_i] = 1/p_i = \frac{3n}{n-(i-1)}$. Da cui ottengo il numero atteso di pacchetti per completare la collezione:
$E[X] = \sum_(i=1)^n E[T_i] = \sum_(i=1)^n 1/p_i = 3n ( 1/n + 1/{n-1} + ...+1 ) $.
Fin qui credo che sia tutto ok, la mia difficoltà arriva ora nel calcolare la distribuzione di probabilità seguita da $X$ per poter calcolare, ad esempio, qual è la probabilità di completare la collezione entro l'$x$-simo pacchetto ($P(X \leq x)$). Come fare?
Ciao!
Risposte
Ho fatto un piccolo passo avanti. Ho trovato questo vecchio post di Sergio in una discussione simile ed ho abbozzato una soluzione. ma non ne sono sicuro, provo a sottoporvi il mio ragionamento.
Applicazione ad un problema analogo con un dado
Per iniziare parliamo di un problema analogo al mio, un po' più semplice: qual è la probabilità di ottenere almeno una volta tutte e $6$ le facce di un dado in $x$ lanci? Per calcolare la probabilità si applica la definizione classica.
Il numero di casi favorevoli, ovvero il numero di tutte le sequenze di $x$ lanci che permettono di ottenere almeno una volta ogni faccia del dado, è pari al numero delle possibili funzioni suriettive tra due generici insiemi $A$ e $B$ dove $|A| = x$ e $|B| = 6$. Fantastico!!! Questo numero, che chiamo $S(x,6)$ è pari a:
$S(x,6) = sum_(i=0)^(6 -1)(-1)^i((6),(i))(6-i)^x$
(dimostrazione qui a pagina 5)
Il numero di casi possibili (tutti le sequenze ottenibili in $x$ lanci) è pari a $6^x$.
A questo punto la probabilità di vedere tutte e $6$ le facce del dado entro $x$ lanci è:
$P(X\leq x) = F(x) = \frac{sum_(i=0)^(6 - 1)(-1)^i((6),(i))(6-i)^x}{6^x}$
Applicazione al mio problema
Per applicare questo approccio al mio problema, devo tenere conto che solo in $1/3$ dei casi ottengo una delle $n$ sorprese, negli altri $2/3$ non trovo nessuna sorpresa. Per modellare questa caratteristica, provo a pensare che le "facce del mio dado" siano $3n$, di cui $n$ favorevoli (trovo una sorpresa) mentre $2n$ non lo sono (non trovo nulla).
I miei "casi favorevoli" sono tutte quelle sequenze lunghe $x$ come $(n_1,n_2,\text{nulla},\text{nulla},n_1,n_5,n_6,n_4,...,n_3)$, che mi permettono di trovare ognuna delle $n$ sorprese almeno una volta. Ciascun elemento della sequenza può essere una delle $n$ sorprese o un "nulla". Per contare i casi favorevoli, dovrei essere in grado di contare la cardinalità $c$ quel sott'insieme di funzioni iniettive che mi permette ottenere almeno una volta ogni sorpresa. Ammesso che il ragionamento sia ok, come fare a calcolare $c$?
Per calcolare i "casi possibili" però, devo tenere conto che le sorprese sono solo in $1/3$ delle confezioni, per cui i casi possibili saranno $(3n)^x$.
In sintesi otterrei: $P(X\leq x) = F(x) = \frac{c}{(3n)^x}$
Potrebbe essere ok, ma come calcolare $c$?
Applicazione ad un problema analogo con un dado
Per iniziare parliamo di un problema analogo al mio, un po' più semplice: qual è la probabilità di ottenere almeno una volta tutte e $6$ le facce di un dado in $x$ lanci? Per calcolare la probabilità si applica la definizione classica.
Il numero di casi favorevoli, ovvero il numero di tutte le sequenze di $x$ lanci che permettono di ottenere almeno una volta ogni faccia del dado, è pari al numero delle possibili funzioni suriettive tra due generici insiemi $A$ e $B$ dove $|A| = x$ e $|B| = 6$. Fantastico!!! Questo numero, che chiamo $S(x,6)$ è pari a:
$S(x,6) = sum_(i=0)^(6 -1)(-1)^i((6),(i))(6-i)^x$
(dimostrazione qui a pagina 5)
Il numero di casi possibili (tutti le sequenze ottenibili in $x$ lanci) è pari a $6^x$.
A questo punto la probabilità di vedere tutte e $6$ le facce del dado entro $x$ lanci è:
$P(X\leq x) = F(x) = \frac{sum_(i=0)^(6 - 1)(-1)^i((6),(i))(6-i)^x}{6^x}$
Applicazione al mio problema
Per applicare questo approccio al mio problema, devo tenere conto che solo in $1/3$ dei casi ottengo una delle $n$ sorprese, negli altri $2/3$ non trovo nessuna sorpresa. Per modellare questa caratteristica, provo a pensare che le "facce del mio dado" siano $3n$, di cui $n$ favorevoli (trovo una sorpresa) mentre $2n$ non lo sono (non trovo nulla).
I miei "casi favorevoli" sono tutte quelle sequenze lunghe $x$ come $(n_1,n_2,\text{nulla},\text{nulla},n_1,n_5,n_6,n_4,...,n_3)$, che mi permettono di trovare ognuna delle $n$ sorprese almeno una volta. Ciascun elemento della sequenza può essere una delle $n$ sorprese o un "nulla". Per contare i casi favorevoli, dovrei essere in grado di contare la cardinalità $c$ quel sott'insieme di funzioni iniettive che mi permette ottenere almeno una volta ogni sorpresa. Ammesso che il ragionamento sia ok, come fare a calcolare $c$?
Per calcolare i "casi possibili" però, devo tenere conto che le sorprese sono solo in $1/3$ delle confezioni, per cui i casi possibili saranno $(3n)^x$.
In sintesi otterrei: $P(X\leq x) = F(x) = \frac{c}{(3n)^x}$
Potrebbe essere ok, ma come calcolare $c$?
Credo di aver trovato una soluzione dopo un altro piccolo suggerimento e la riporto qui, a beneficio di chi dovesse ricapitare su questo post.
Ho applicato l'approccio del dado al problema in questione. La cosa importate è considerare che in alcuni casi potremmo non trovare nessuna delle $n$ sorpresine della collezione, ma possiamo ritrovarci in uno dei restanti $14$ casi. Questa particolarità cambia il modo in cui si deve calcolare il numero di casi favorevoli (quel $c$ del post precedente) che non è più riducibile al numero di funzioni suriettive $S(x,n)$. Difatti, nel nostro nuovo insieme $B$ abbiamo sia le $7$ sorprese, che i $14$ casi fuori dalla collezione, ora però non siamo più interessati a coprire tutto $B$, ma stiamo cercando tutti i possibili casi in cui riusciamo ad ottenere almeno una volta ciascuna delle sorprese della collezione. Per questo, i casi favorevoli che ci permettono di completare la collezione entro $x$ scatole di merendine saranno:
$\sum_{i=n}^{x} S(i,n) ((x),(x-i)) 14^{x-1}.$
Ad esempio, applicando questa formula al nostro caso con $n = 7$ e considerando di comprare $x = 9$ scatole di merendine, otteniamo un numero di casi favorevoli pari a:
$S( 7 , 7 ) ((9),(2)) 14 ^ 2 + S( 8 , 7 ) ((9),(1)) 14 ^ 1 + S( 9 , 7 ) ((9),(0)) * 14 ^ 0.$
Il primo termine della somma conta le casistiche in cui completiamo la collezione in $9$ scatole, ma trovando $2$ sorprese "nulla" che non centrano con la collezione, il secondo termine conta la stessa cosa ma considerando di trovare solo $1$ sorpresa "nulla", infine il terzo termine abbraccia la casistica in cui troviamo esclusivamente solo sorprese della collezione. A questo punto la funzione di ripartizione di $X$ vale:
$Pr(X\leq x) = F(x) = \frac{\sum_{i=7}^{x} S(i,7) ((x),(x-i)) 14^{x-1}} {21^i}.$
Olè, direi che ci siamo : )
Ho applicato l'approccio del dado al problema in questione. La cosa importate è considerare che in alcuni casi potremmo non trovare nessuna delle $n$ sorpresine della collezione, ma possiamo ritrovarci in uno dei restanti $14$ casi. Questa particolarità cambia il modo in cui si deve calcolare il numero di casi favorevoli (quel $c$ del post precedente) che non è più riducibile al numero di funzioni suriettive $S(x,n)$. Difatti, nel nostro nuovo insieme $B$ abbiamo sia le $7$ sorprese, che i $14$ casi fuori dalla collezione, ora però non siamo più interessati a coprire tutto $B$, ma stiamo cercando tutti i possibili casi in cui riusciamo ad ottenere almeno una volta ciascuna delle sorprese della collezione. Per questo, i casi favorevoli che ci permettono di completare la collezione entro $x$ scatole di merendine saranno:
$\sum_{i=n}^{x} S(i,n) ((x),(x-i)) 14^{x-1}.$
Ad esempio, applicando questa formula al nostro caso con $n = 7$ e considerando di comprare $x = 9$ scatole di merendine, otteniamo un numero di casi favorevoli pari a:
$S( 7 , 7 ) ((9),(2)) 14 ^ 2 + S( 8 , 7 ) ((9),(1)) 14 ^ 1 + S( 9 , 7 ) ((9),(0)) * 14 ^ 0.$
Il primo termine della somma conta le casistiche in cui completiamo la collezione in $9$ scatole, ma trovando $2$ sorprese "nulla" che non centrano con la collezione, il secondo termine conta la stessa cosa ma considerando di trovare solo $1$ sorpresa "nulla", infine il terzo termine abbraccia la casistica in cui troviamo esclusivamente solo sorprese della collezione. A questo punto la funzione di ripartizione di $X$ vale:
$Pr(X\leq x) = F(x) = \frac{\sum_{i=7}^{x} S(i,7) ((x),(x-i)) 14^{x-1}} {21^i}.$
Olè, direi che ci siamo : )