Algoritmo EM (expectation–maximization) : comprensione ed esempio
Ciao a tutti, sto studiando "pattern recognition" e ho trovato un algoritmo interessante che vorrei approfondire, l'algoritmo EM. Non ho una grande conoscenza di probabilità e statistica e ho letto qualche articolo sul funzionamento dell'algoritmo sulle distribuzioni normali o gaussiane , ma vorrei iniziare con un semplice esempio per capire meglio . Mi auguro che l'esempio possa essere adatto .
Supponiamo di avere un vaso con palline di tre colori, rosso , verde, blu . Le corrispondenti probabilità di estrarre ogni pallina colorata sono : $pr$ , $pg$ , $pb$ . Ora , supponiamo che abbiamo il seguente modello parametrizzato per le probabilità di estrarre le palline di diversi colori :
$pr = 1/4$
$pg = 1/4 + p / 4$
$pb = 1/2 - p / 4$
con p parametro sconosciuto. Supponiamo ora che l'uomo che sta facendo l'esperimento è in realtà daltonico e non può discernere le palline rosse dalle verdi . Estrae N palline , ma vede solo m1 = nR + nG palline rosse / verdi e m2 = nB palline blu .
La domanda è: può l' uomo stimare il parametro p e con questo in mano calcolare la soluzione migliore per il numero di palline rosse e verdi ( ovviamente , conosce il numero di palline blu ) ? Penso che, ovviamente, può, ma per quanto riguarda EM ? Che cosa devo considerare ? Quali sono in questo caso gli step E ed M? Non so davvero come procedere pur avendo un esempio così semplice.
Quella che avevo pensato inizialmente era di cercare di massimizzare la verosimiglianza (likelihood) :
$L(m1,m2) = ([N!] / [m1! m2!])* p1^[m1] * p2^[m2] = ([N!] / [m1! m2!])* (1/2 + p/4)^[m1]* (1/4 - p/4)^[m2]$
prendendo il logaritmo e massimizzando rispetto a p avremo
$p = 2(m1-m2)/(m1+m2)$
e da qui il numero totale di palline rosse e blu sarà
$E(n1|m1) = ([p1]/(p1+p2))*m1 = 1/4(m1 + m2)$
$E(n2|m2) = ([p2]/(p1+p2))*m1 = 1/4(3m1 + m2)$
Ma la procedura EM cosa mi dovrebbe dare in questo caso? Quali sono gli step da rappresentare?
Spero di essere stato chiaro e che mi possiate dare una mano.
Supponiamo di avere un vaso con palline di tre colori, rosso , verde, blu . Le corrispondenti probabilità di estrarre ogni pallina colorata sono : $pr$ , $pg$ , $pb$ . Ora , supponiamo che abbiamo il seguente modello parametrizzato per le probabilità di estrarre le palline di diversi colori :
$pr = 1/4$
$pg = 1/4 + p / 4$
$pb = 1/2 - p / 4$
con p parametro sconosciuto. Supponiamo ora che l'uomo che sta facendo l'esperimento è in realtà daltonico e non può discernere le palline rosse dalle verdi . Estrae N palline , ma vede solo m1 = nR + nG palline rosse / verdi e m2 = nB palline blu .
La domanda è: può l' uomo stimare il parametro p e con questo in mano calcolare la soluzione migliore per il numero di palline rosse e verdi ( ovviamente , conosce il numero di palline blu ) ? Penso che, ovviamente, può, ma per quanto riguarda EM ? Che cosa devo considerare ? Quali sono in questo caso gli step E ed M? Non so davvero come procedere pur avendo un esempio così semplice.
Quella che avevo pensato inizialmente era di cercare di massimizzare la verosimiglianza (likelihood) :
$L(m1,m2) = ([N!] / [m1! m2!])* p1^[m1] * p2^[m2] = ([N!] / [m1! m2!])* (1/2 + p/4)^[m1]* (1/4 - p/4)^[m2]$
prendendo il logaritmo e massimizzando rispetto a p avremo
$p = 2(m1-m2)/(m1+m2)$
e da qui il numero totale di palline rosse e blu sarà
$E(n1|m1) = ([p1]/(p1+p2))*m1 = 1/4(m1 + m2)$
$E(n2|m2) = ([p2]/(p1+p2))*m1 = 1/4(3m1 + m2)$
Ma la procedura EM cosa mi dovrebbe dare in questo caso? Quali sono gli step da rappresentare?
Spero di essere stato chiaro e che mi possiate dare una mano.