Indipendenza e formula di Bayes
Supponiamo di raccogliere continuamente delle figurine tra $m$ tipi diversi. Supponiamo anche che ogni volta che si ha una figurina, questa sia di tipo $i$ con probabilità $p_i$, i = 1,...,m. Supponiamo di aver appena raccolto la figurina n-esima. Qual’è la probabilità che si tratti di un nuovo tipo di figurina?
(Suggerimento: condizionare sul tipo di questa figurina).
Non riesco a strutturare un ragionamento per una possibile soluzione.
(Suggerimento: condizionare sul tipo di questa figurina).
Non riesco a strutturare un ragionamento per una possibile soluzione.
Risposte
In base hai dati che hai scritto l'unica cosa che mi viene in mente è considerare i tipi $1,..., k$ come già estratti e quelli $k+1,...,m$ come non estratti fino all'estrazione $n-1$. Allora la prob di estrarre all $n$-esima estrazione un nuovo tipo di figurina ovvero una di quelle $k+1,...,m$ è pari semplicemente a
$\sum_(k+1;m) p_i$
questo se le estrazioni sono tutte indipendenti ... se così non è ... si dovrebbe conoscere/ipotizzare qualche tipo di dipendenza ... immagino potrebbe essere a quel punto interessante vedere cosa afferma il teorema di bayes
$\sum_(k+1;m) p_i$
questo se le estrazioni sono tutte indipendenti ... se così non è ... si dovrebbe conoscere/ipotizzare qualche tipo di dipendenza ... immagino potrebbe essere a quel punto interessante vedere cosa afferma il teorema di bayes
Mmm, non sono d'accordo. La somma che hai scritto (voleva essere $\sum_{i = k+1}^{m} p_i$, o sbaglio?) è semplicemente la probabilità con cui la figurina estratta ($n$-esima o meno, vale per tutte) sia di uno dei tipi da $k+1$ a $m$. Questa però non tiene conto di che cosa è successo con le estrazioni precedenti.
A proposito dell'indipendenza stocastica, l'evento "la figurina $n$-esima è di un tipo nuovo" non è indipendente dalle estrazioni precedenti: potrebbe ad esempio non esserci un tipo nuovo, in quanto, ad esempio, le $n-1$ estrazioni precedenti hanno "popolato" tutti i tipi..
Spero di trovare il tempo per farlo, ma posso comunque pensare che la v.a. da prendere in considerazione sia la multinomiale di parametri $(\{p_i\}_{i = 1,2,\ldots,m},n)$
A proposito dell'indipendenza stocastica, l'evento "la figurina $n$-esima è di un tipo nuovo" non è indipendente dalle estrazioni precedenti: potrebbe ad esempio non esserci un tipo nuovo, in quanto, ad esempio, le $n-1$ estrazioni precedenti hanno "popolato" tutti i tipi..
Spero di trovare il tempo per farlo, ma posso comunque pensare che la v.a. da prendere in considerazione sia la multinomiale di parametri $(\{p_i\}_{i = 1,2,\ldots,m},n)$
Penso di intuire le tue perplessità ma penso anche che quello che ho scritto regga.
corretto
Fino al primo punto della prima frase hai perfettamente ragione, ma dopo fai confusione.
Leggi la frase
ogni volta che si ha mi pare sia da "tradurre" in ogni volta che si estrae
questo implica che il numero di figurine di tipo i-esimo già estratte non influenzi in nessun modo la probabilità che la successiva figurina sia di tipo i-esimo o di altro tipo.
Dopodichè ha ragione a dire che la prob. che sia di tipo nuovo non è indipendente da quanto estratto in passato ... ma la dipendenza di cui si parla è legata solo alla numerosità di tipi che sono stati già estratti ... nella descrizione che proponevo tale numerosità era $k$. Se poi come suggerisci tu tutte le tipologie sono state già estratte ... allora semplicemente $k=m$ e la sommatoria che indicavo è giustamente vuota ... quindi ovviamente la prob. di estrarre un nuovo tipo è zero.
In un certo senso la sommatoria che ho scitto, per quanto banale possa sembrare, tiene conto sia dell'indipendenza delle probabilità di etrarre il tipo i-esimo ad ogni lancio sia della dipendenza, della probabilità di estrarre un tipo nuovo, dalle tipologie già estratte.
In parole diverse a me sembra che una volta che ci si è impegnati a valutare con $p_i$ la probabilità di estrarre una pallina di tipo i-esimo "ogni volta = ad ogni estrazione" siamo entrati in una specie di schema di estrazione con reinserimento ... ed allora il numero di palline estratte è irrilevante mentre è rilevante solo il tipo ... diverso sarebbe in uno schema senza reiserimento ma allora le $p_i$ dipenderebbero anche da $n$ e non solo da $k$.
In tutto questo rimane da vedere come Paolovox intenda usare Bayes.
"Aster89":
La somma che hai scritto (voleva essere $\sum_{i = k+1}^{m} p_i$, o sbaglio?)
corretto
"Aster89":
[Quella che hai scritto]è semplicemente la probabilità con cui la figurina estratta ($n$-esima o meno, vale per tutte) sia di uno dei tipi da $k+1$ a $m$. Questa però non tiene conto di che cosa è successo con le estrazioni precedenti.
A proposito dell'indipendenza stocastica, l'evento "la figurina $n$-esima è di un tipo nuovo" non è indipendente dalle estrazioni precedenti: potrebbe ad esempio non esserci un tipo nuovo, in quanto, ad esempio, le $n-1$ estrazioni precedenti hanno "popolato" tutti i tipi..
Fino al primo punto della prima frase hai perfettamente ragione, ma dopo fai confusione.
Leggi la frase
"Paolovox":
Supponiamo anche che ogni volta che si ha una figurina, questa sia di tipo $ i $ con probabilità $ p_i $, i = 1,...,m.
ogni volta che si ha mi pare sia da "tradurre" in ogni volta che si estrae
questo implica che il numero di figurine di tipo i-esimo già estratte non influenzi in nessun modo la probabilità che la successiva figurina sia di tipo i-esimo o di altro tipo.
Dopodichè ha ragione a dire che la prob. che sia di tipo nuovo non è indipendente da quanto estratto in passato ... ma la dipendenza di cui si parla è legata solo alla numerosità di tipi che sono stati già estratti ... nella descrizione che proponevo tale numerosità era $k$. Se poi come suggerisci tu tutte le tipologie sono state già estratte ... allora semplicemente $k=m$ e la sommatoria che indicavo è giustamente vuota ... quindi ovviamente la prob. di estrarre un nuovo tipo è zero.
In un certo senso la sommatoria che ho scitto, per quanto banale possa sembrare, tiene conto sia dell'indipendenza delle probabilità di etrarre il tipo i-esimo ad ogni lancio sia della dipendenza, della probabilità di estrarre un tipo nuovo, dalle tipologie già estratte.
In parole diverse a me sembra che una volta che ci si è impegnati a valutare con $p_i$ la probabilità di estrarre una pallina di tipo i-esimo "ogni volta = ad ogni estrazione" siamo entrati in una specie di schema di estrazione con reinserimento ... ed allora il numero di palline estratte è irrilevante mentre è rilevante solo il tipo ... diverso sarebbe in uno schema senza reiserimento ma allora le $p_i$ dipenderebbero anche da $n$ e non solo da $k$.
In tutto questo rimane da vedere come Paolovox intenda usare Bayes.
Un esempio per tagliare la testa al toro a proposito della risposta che hai proposto.
Diciamo $m = 4$ (ad es. rosso, verde, blu, nero) e $p_1 = p_2 = p_3 = p_4 = 1/4$ (per semplicità).
Qual è la probabilità che alla millesima estrazione ($n = 1000$) si estragga un tipo nuovo? Se non ti dico quali colori sono usciti, tu come fai a rispondere?
Appunto. La probabilità che hai scritto, se vuoi, è condizionata da $k$. In simboli tu hai scritto
$Pr\{n\text{-esima estratta è di tipo nuovo}|\text{i primi } k \text{ tipi sono già popolati}\} = \sum_{i = k+1}^{m} p_i$.
Cioè, con quella probabilità sei in grado di rispondere alla domanda "Sapendo che i tipi da $1$ a $k$ sono già usciti, qual è la probabilità che esca un nuovo tipo?". Tra l'altro dovresti cambiare gli indici di sommatoria se fossero usciti gli ultimi $k$ tipi, piuttosto che i primi (e se fossero usciti i primi $k$ tipi dispari? La sommatoria andrebbe fatta su indici non consecutivi, ecc).
La domanda era comunque un'altra, secondo me:
Essa non presuppone di sapere per quanti (e quali, perché anche questo conta, essendo le $p_i$ in generale diverse) tipi siano già usciti degli esemplari, pertanto la tua risposta andrebbe vista nell'ottica [strike]del teorema[/strike] della regola di Bayes: dovrebbe essere moltiplicata per la probabilità che i primi $k$ tipi siano usciti (i.e. l'evento condizionante) e sommata ad altri prodotti analoghi in cui l'evento condizionante si muove su tutti quelli possibili (ultimi $k$ tipi già usciti, ecc).
Ripeto che secondo me ci vuole la multinomiale, la cui pmf
$Pr\{X_1 = x_1, X_2 = x_2,\ldots,X_m = x_m\} = \frac{n!}{x_1! x_2! \cdots x_m!} \prod_{i=1}^{m} p_i^{x_i}$ con $\sum_1^m x_i = n$
fornisce la probabilità che all'estrazione $n$-esima si siano accumulate $x_1$ figurine del primo tipo, $x_2$ del secondo, ecc.
Tuttavia, ancora non riesco a formulare il modo in cui usare tale probabilità.. mannaggia
Diciamo $m = 4$ (ad es. rosso, verde, blu, nero) e $p_1 = p_2 = p_3 = p_4 = 1/4$ (per semplicità).
Qual è la probabilità che alla millesima estrazione ($n = 1000$) si estragga un tipo nuovo? Se non ti dico quali colori sono usciti, tu come fai a rispondere?
"markowitz":
Se poi come suggerisci tu tutte le tipologie sono state già estratte ... allora semplicemente $k=m$ e la sommatoria che indicavo è giustamente vuota ... quindi ovviamente la prob. di estrarre un nuovo tipo è zero.
Appunto. La probabilità che hai scritto, se vuoi, è condizionata da $k$. In simboli tu hai scritto
$Pr\{n\text{-esima estratta è di tipo nuovo}|\text{i primi } k \text{ tipi sono già popolati}\} = \sum_{i = k+1}^{m} p_i$.
Cioè, con quella probabilità sei in grado di rispondere alla domanda "Sapendo che i tipi da $1$ a $k$ sono già usciti, qual è la probabilità che esca un nuovo tipo?". Tra l'altro dovresti cambiare gli indici di sommatoria se fossero usciti gli ultimi $k$ tipi, piuttosto che i primi (e se fossero usciti i primi $k$ tipi dispari? La sommatoria andrebbe fatta su indici non consecutivi, ecc).
La domanda era comunque un'altra, secondo me:
"Paolovox":
Supponiamo di aver appena raccolto la figurina n-esima. Qual’è la probabilità che si tratti di un nuovo tipo di figurina?
Essa non presuppone di sapere per quanti (e quali, perché anche questo conta, essendo le $p_i$ in generale diverse) tipi siano già usciti degli esemplari, pertanto la tua risposta andrebbe vista nell'ottica [strike]del teorema[/strike] della regola di Bayes: dovrebbe essere moltiplicata per la probabilità che i primi $k$ tipi siano usciti (i.e. l'evento condizionante) e sommata ad altri prodotti analoghi in cui l'evento condizionante si muove su tutti quelli possibili (ultimi $k$ tipi già usciti, ecc).
Ripeto che secondo me ci vuole la multinomiale, la cui pmf
$Pr\{X_1 = x_1, X_2 = x_2,\ldots,X_m = x_m\} = \frac{n!}{x_1! x_2! \cdots x_m!} \prod_{i=1}^{m} p_i^{x_i}$ con $\sum_1^m x_i = n$
fornisce la probabilità che all'estrazione $n$-esima si siano accumulate $x_1$ figurine del primo tipo, $x_2$ del secondo, ecc.
Tuttavia, ancora non riesco a formulare il modo in cui usare tale probabilità.. mannaggia
La domanda è:
... a me sembrava naturale che all'$n$-esima estrazione quello che è successo nelle altre $n-1$ fosse noto ... ma in effetti potrebbe non esserlo
nel caso che intendevo io il condizionamento era superfluo ... come mi sembra superfluo condizionare rispetto ad un evento certo/conosciuto. Riguardo gli indici della sommatoria hai ragione sono stato semplicista, in ogni caso come hai capito intendevo sommare le probabilità dei tipi di figurina non ancora estratti.
se le estrazioni dalla prima all'$n-1$esima non sono note ... si
... tuttavia forse, ma è solo una congettura ... dovrei fare qualche conto, mi riduco, idealmente, a "spezzare in due il problema" e fare la sommatoria che indicavo (secondo pezzo) con un $k$ che è posto pari al $k$ atteso dati $n$ lanci (primo pezzo) .. e forse in questo primo pezzo entra in gioco la multinomiale di cui parli.
"Paolovox":
Supponiamo di aver appena raccolto la figurina n-esima. Qual’è la probabilità che si tratti di un nuovo tipo di figurina?
... a me sembrava naturale che all'$n$-esima estrazione quello che è successo nelle altre $n-1$ fosse noto ... ma in effetti potrebbe non esserlo
"Aster89":
Appunto. La probabilità che hai scritto, se vuoi, è condizionata da $ k $. In simboli tu hai scritto
$ Pr\{n\text{-esima estratta è di tipo nuovo}|\text{i primi } k \text{ tipi sono già popolati}\} = \sum_{i = k+1}^{m} p_i $.
Cioè, con quella probabilità sei in grado di rispondere alla domanda "Sapendo che i tipi da $ 1 $ a $ k $ sono già usciti, qual è la probabilità che esca un nuovo tipo?". Tra l'altro dovresti cambiare gli indici di sommatoria se fossero usciti gli ultimi $ k $ tipi, piuttosto che i primi (e se fossero usciti i primi $ k $ tipi dispari? La sommatoria andrebbe fatta su indici non consecutivi, ecc).
nel caso che intendevo io il condizionamento era superfluo ... come mi sembra superfluo condizionare rispetto ad un evento certo/conosciuto. Riguardo gli indici della sommatoria hai ragione sono stato semplicista, in ogni caso come hai capito intendevo sommare le probabilità dei tipi di figurina non ancora estratti.
"Aster89":
... pertanto la tua risposta andrebbe vista nell'ottica del teorema di Bayes: dovrebbe essere moltiplicata per la probabilità che i primi $ k $ tipi siano usciti (i.e. l'evento condizionante) e sommata ad altri prodotti analoghi in cui l'evento condizionante si muove su tutti quelli possibili (ultimi $ k $ tipi già usciti, ecc).
se le estrazioni dalla prima all'$n-1$esima non sono note ... si
... tuttavia forse, ma è solo una congettura ... dovrei fare qualche conto, mi riduco, idealmente, a "spezzare in due il problema" e fare la sommatoria che indicavo (secondo pezzo) con un $k$ che è posto pari al $k$ atteso dati $n$ lanci (primo pezzo) .. e forse in questo primo pezzo entra in gioco la multinomiale di cui parli.
"markowitz":
Riguardo gli indici della sommatoria hai ragione sono stato semplicista, in ogni caso come hai capito intendevo sommare le probabilità dei tipi di figurina non ancora estratti.
Sì, l'avevo capito che era stata semplicemente una leggerezza.
Non sono d'accordo con questa affermazione
"markowitz":
come mi sembra superfluo condizionare rispetto ad un evento certo/conosciuto
La probabilità che hai scritto tu è proprio quella dell'evento $E = \{$"esce un tipo nuovo"$\}$ condizionato dall'evento $C = \{$"sono usciti tutti e soli i primi $k$ tipi"$\}$. Con l'accorgimento (difficile a scriverlo) sugli indici sarebbe meglio, cioè $C = \{$"sono usciti esattamente $k$ tipi (non necessariamente i primi)"$\}$, ma il problema resta: stiamo scrivendo una probabilità con un condizionamento. Dovremmo usare queste probabilità come segue, usando [strike]il teorema[/strike] la regola di Bayes (forse meglio nota come regola di fattorizzazione)
$Pr\{E\} = \sum_C Pr\{E|C\} \times Pr\{C\}$
dove per $\sum_C$ intendo la sommatoria estesa su tutte le possibili $n-1$-ple costituite dalle estrazioni precedenti alla $n$-esima.
In questa sommatoria il fattore $Pr\{E|C\}$ è proprio quello che hai scritto tu ma con l'accorgimento di cui ho parlato; il fattore $Pr\{C\}$ è invece quello fornito dalla multinomiale (su $n-1$ estrazioni). Ti faccio notare che in questa sommatoria verrebbe preso in considerazione anche l'evento $C = \{$"sono usciti tutti gli $m$ tipi"$\}$ che, correttamente, darebbe contributo nullo in quanto $Pr\{E|C\} = 0$.
Il passaggio che mi mette in difficoltà è proprio quello che ho chiamato "accorgimento"..
"Aster89":
Non sono d'accordo con questa affermazione
[quote="markowitz"]
come mi sembra superfluo condizionare rispetto ad un evento certo/conosciuto
[/quote]
Intendevo semplicemente dire che quello che tu hai definito come $C$ deve essere un evento aleatorio che ha, quindi, diversi possibili esiti. Nell'esempio in questione la non conoscenza dei tipi di figurine uscite (e della loro quantità e posizione) da senso a $C$. Invece se intendiamo come conosciute/certe le estrazioni precedenti allora non abbiamo nulla su cui condizionare. Nella notazione che Tu hai espresso bene in formule avremmo a che fare con delle $P(C) = 0$ per tutte quelle $C$ diverse da quella effettivamente osservata. Ma sarebbe una generalizzazione inutile ... anzi come sicuramente sai avremmo dei problemi a calcolare $P(E|C)$. Ovvero nel caso a cui mi riferivo io all'inizio la tua "generalizzazione" sarebbe inutile.
Soltanto questo volevo dire con la frase evidenziata.
In generale una volta di più diventa evidente come sia facile, in problemi di probabilità, fare domande un poco ambigue e che cambiando ciò che può sembrare un dettaglio si bdebba passare ad una trattazione molto diversa.
Risolvere il problema come l'hai impostato Tu, incertezza su $C$ e quindi su $k$, è molto più difficile ma anche molto più interessante ... l'altro caso è in effetti relativamente banale.
Come dicevo prima forse euristicamente si può pensare ad una sorta di $k$ atteso ... tuttavia la strada seria è quella che proponi Tu. Se trovi una soluzione ben fatta sarei interessato a confrontarmici.
N.B: perché cancelli la parola teorema (di Bayes) e la correggi con il nome regola ?
"markowitz":
N.B: perché cancelli la parola teorema (di Bayes) e la correggi con il nome regola ?
Ho riaperto il libro che usato alla triennale ("Probabilità e statistica per le scienze e l'ingegneria" del professor Pasquale Erto) e sotto il nome Teorema di Bayes trovo la regola della probabilità delle cause (ovvero la prima formula qui: https://it.wikipedia.org/wiki/Teorema_di_Bayes), mentre il nome regola di Bayes è usato come sinonimo di regola della probabilità totale o regola della fatorizzazione, che è la seguente
$Pr\{A\} = Pr\{A|S\}\times Pr\{S\}+Pr\{A|\bar{S}\}\times Pr\{\bar{S}\}$, dove $S$ è lo spazio campione
e che si può riscrivere per un partizionamento generico dello spazio campione come
$Pr\{A\} = \sum_i Pr\{A|C_i\} \times Pr\{C_i\}$ con $\bigcup_i C_i = S$ e $\bigcap_i C_i = \emptyset$
Nel post di prima ho omesso il pedice $i$ semplicemente perché ancora non ho idea di come proseguire..
Comunque cercherò di uscirne e ti/vi farò sapere!
