Criterio ML in caso di non identicamente distribuite

absinth
Ciao a tutti! Vi chiedo di aiutarmi con il dubbio. Sto facendo un esercizio in cui mi chiede di confrontare vari criteri. ML, MAP, MD.
Ma da quello che leggo le variabili aleatorie non sono identicamente distribuite ovvero 1% ammalati, fatto che non mi consente di applicare ML. Ecco la consegna:

Una popolazione di un’isola ha circa l’1% della popolazione af-
fetta da una rara malattia del sistema immunitario, che ha tra i suoi sintomi
quello di aumentare la produzione di un certo tipo di linfociti nel sangue. Un
semplice test per rivelare la malattia consiste quindi nell’eseguire un prelievo
di sangue e osservare la presenza di questi linfociti nel campione.
Per un paziente sano, il numero N di questi linfociti presenti in un cam-
pione (circa 50 mm3 di sangue) è una v.a. poissoniana di media $\lambda_s$ = 3.8. In
un malato invece, N è sempre poissoniana, ma la sua media è $\lambda_m$ = 18.5. Il
test effettuato su due pazienti rivela un valore di 10 linfociti nel campione per
il primo, e 12 per il secondo.
Cosa si deduce secondo i criteri MAP, ML, MD? Si confrontino i risultati.

Devo assumere io per ipotesi che 50% siano ammalati per rendere possibile l'applicazione di ML?

Risposte
Lo_zio_Tom
Il metodo ML è indipendente dalla distribuzione iniziale ed essendo il campione casuale tutti gli elementi sono iid di Poisson. Per il MAP (Maximum A Posteriori) devi definire una distribuzione a priori del parametro (una Prior) che sarà una Gamma di media compatibile con la distribuzione dei sani/ malati (ad esempio una Gamma di media 3.95), dato che la gamma è la coniugata del modello di Poisson. Il metodo MD non so cosa sia...se mi dici cosa significa l'acronimo...

Ora io non so che esame tu stia facendo (posti argomenti molto diversi uno dall'altro sul forum) né che tipo di risposta si aspetti l'esercizio ma tutto si gioca sulla definizione della prior. Se la prior è uniforme il risultato dei due metodi sarà il medesimo altrimenti il MAPsarà una via di mezzo fra la stima a priori ed i dati. La giusta scelta della prior però sposta il risultato della stima facendo prevalere il risultato dei dati o delle informazioni iniziali.

absinth
è che bisognerebbe usare metodi impiegati nelle modulazioni digitali. MD - minimum distance - non credo sia molto usato al di fuori.

In ogni caso non capisco bene perché sono comunque iid...
in questo caso M=2 (ammalati e sani) quindi $p_n = 1/100$ per $n=0$ e $p_n = 99/100$ per $n=1$ e secondo la stima likelihood se fossero iid $p_n =1/M \forall n$ e

$\hat{a}_0 = \underset{\forall n \in \{ 1,...,M \}}{\text{argmax}} p_{r|a_0}(\rho|n)$

che è possibile fare proprio grazie al fatto che sono iid altrimenti bisognerebbe tenerne conto e applicare il criterio MAP (formula simile a quella di Bayes etc...). Per $\rho$ considero i vari eventi di poisson.

nel mio caso ammalati/sani non sono iid, cioè $p_n$ cambia a seconda di $n$ quindi l'ipotesi non viene rispettata.
Forse sono io che non capisco qualcosa? come si dovrebbe applicare il criterio ML?

Per il criterio MD è ancora peggio perché per essere applicato chiede anche che il canale sia AWGN (rumore bianco) e cioè $p_{r|a_0}(\rho|n)$ gaussiana, cosa che di nuovo non avviene perché le concentrazioni condizionate a malato/sano sono v.a. di poisson. Il criterio consiste in una derivazione della distanza minima tra le misure e i valori teorici per la stima, cosa che è possibile se sono tutte gaussiane, facendo il logaritmo poi norma etc per la distribuzione...

sono io che lo applico male questi criteri?

Lo_zio_Tom
Ill metodo ML consiste nel massimizzare la verosimiglianza che è di poisson. Gli elementi del campione sono iid perché scelti casualmente dalla popolazione. Il fatto che alcuni siano malati ed altri no cambia solo il parametro...quindi devi massimizzare $p(ul(x)|theta) prop e ^(-ntheta)theta^(Sigmax)$ che è massima in $hat(theta)=bar(x)$

Con il MAP invece massimizzi una gamma di parametri $(a+Sigmax;n+b)$ dove a e b sono i parametri della prior.

Posso sbagliare ma lo stimatore MD sarà quello con il MSE minore, ovvero $hat(theta)_(MD)=(a+Sigmax)/(b+n)$

Questo è ciò che posso dirti...di più non so aiutarti .. che studi fai?

absinth
ingegneria dell'informazione... questi esercizi riguardano il corso di telecomunicazioni

Grazie mille per le risposte chiedo solo un'ultima informazione, per MD non importa ma per la MAP non capisco:
forse mi sto confondendo con la misura e la stima a priori... per te quali sono i parametri a e b della prior da inserire nella MAP ? hanno a che fare con 1/100 e 99/100 ? la distribuzione gamma non la conosco ma a priori credo che la variabile sia ancora poisson e abbia una media $E(\rho|a_0)p(a_0) + E(\rho|a_1)p(a_1) = 3.8*99/100+18.5/100 = 3.947$
O pensandola diversamente la somma di poissoniane moltiplicate per costanti dovrebbe ancora dare una variabile di poisson che ha come media la somma di quelle precedenti moltiplicate per le costanti corrispondenti che in questo caso sono le probabilità percentuali sano/malato... se quello che ho detto è completamente sbagliato basta che mi dici quali sono i parametri a e b nella prior e dove mettere le probabilità percentuali

Lo_zio_Tom
Io invece non so nulla di telecomunicazioni ma penso di conoscere un po' di statistica bayesiana e ti posso dimostrare che con un modello di poisson la priori è gamma, coniugata al modello.
$pi(theta) prop theta^(a-1)e^(-btheta)$

Infatti, applicando il teorema di bayes, con i dati $p(ul(x)|theta)$ di poisson, ottieni subito la posterior

$pi(theta|ul(x)) prop theta^((a+Sigmax)-1)e^(-(b+n)theta$

Che è ancora gamma.

I parametri a e b vanno scelti in modo da rispettare la media della popolazione, considerando che l'1% è malato e quindi sceglierei proprio una gamma di media $a/b= 3,95$ come hai trovato tu. La distribuzione a priori si riferisce al parametro incognito e non al modello che ovviamente è poissoniano.

Ovviamente a seconda della scelta di a e b, fissato il fatto che il loro rapporto è circa 4, cambia il peso della prior nella stima finale.....e quindi non esiste una scelta univoca[nota]occorrerebbe fissare ad esempio una condizione anche sul momento secondo oppure sul primo e terzo quartile ecc ecc[/nota]. Probabilmente con una scelta appropriata dei parametri a,b riesci anche a salvaguardare le ipotesi necessarie per il resto dell'esercizio.

Facilmente massimizzi la posterior (ne fai il log, derivi e poni =0) ottenendo

$hat(theta)_(MAP)=(a+Sigmax-1)/(b+n)$

Mentre penso che $E[theta |ul(x)]=hat(theta)_(MD)=(a+Sigmax)/(b+n)$ essendo la media della posterior lo stimatore con errore quadratico medio minimo (di solito si chiama $hat(theta)_(MMSE)$ ma penso che stiamo parlando della stessa cosa)

Non so se è questo che fate in telecomunicazioni ma ti assicuro che la logica bayesiana è questa.

^^^^^^^^^^^^^^

Ti ho preparato anche un ulteriore esempio per spiegare cosa intendo.

Lanciamo 10 volte una moneta ed otteniamo 7 teste.
Lo stimatore ML consiste nel massimizzare la verosimiglianza che, a meno di una costante moltiplicativa, è la seguente:

$theta^7(1-theta)^3$

Fai il log, derivi, poni=0 e trovi $hat(theta)_(ML)=7/10$

Tale stima è del tutto indipendente da opinioni personali circa la bilanciatura della moneta.

Ora invece supponi di sapere che la moneta è regolare...allora possiamo inserire nella stima una distribuzione a priori di $theta$ che sia intorno ad $1/2$
Per ragioni che non ti sto a spiegare, dato un modello binomiale, la prior è una Beta.

Posso quindi definire una prior così

$pi(theta)="Beta"(10,10) prop theta ^9(1-theta)^9$ di media appunto $E(theta)=10/(10+10)=1/2$

Ottenendo la seguente distribuzione a posteriori

$pi(theta|ul(x)) prop theta^(16)(1-theta)^(12)$

Da cui massimizzando trovi

$hat(theta)_(MAP)=16/28=0,571$

Mentre $hat(theta)_(MMSE)=17/30=0,566$

Però potresti scegliere come prior ad esempio questa

$pi(theta)="Beta"(100,100) prop theta^99(1-theta )^99$ sempre di media $1/2$ ma che porta alla stima $hat(theta)_(MAP)=106/208=0,51$

....molto più vicino al valore che ci aspetteremmo dalle nostre convinzioni che la moneta è regolare. La scelta dei giusti parametri della prior è proprio il lavoro del ricercatore.
Tieni presente che le beta così impostate sono praticamente gaussiane..fai un grafico e te ne rendi conto subito

Dimostrare che lo stimatore di $theta$ che minimizza la distanza fra le stime ed il valore vero sia proprio la media della posterior è praticamente immediato. Basta minimizzare la seguente funzione di rischio

$R=int(theta-a)^2f(theta|x)d theta =inttheta^2f(theta|x)d theta+a^2intf(theta |x)d theta-2aintthetaf(theta|x)d theta $

Derivi rispetto ad $a$ ottenendo

$2a-2E[theta|x]$ che è uguale a zero sse $a=E[theta|x]$

Ovviamente nulla vieta di usare una diversa funzione di distanza, ad es $|theta-a|$ che porta, con semplici ed analoghi passaggi, a trovare come stimatore ottimale la mediana della posterior. Infatti, in questo caso, basta minimizzare

$R=int |theta-a|f(theta|x)d theta=int_a^(+oo)(theta-a)f(theta|x)d theta+int_(-oo)^a(a-theta)f(theta|x)d theta$

Derivi utilizzando la integral rule di Leibnitz ottenendo

$int_(-oo)^af(theta|x)d theta-int_a^(+oo)f(theta|x)d theta =F_(theta|x)(a)-1+F_(theta|x)(a)=0$

Tale quantità è uguale a zero sse

$F_(theta|x)(a)=1/2$

Che è proprio la definizione di mediana.



Spero che ora l'argomento sia più chiaro...tieni presente che sono in spiaggia, senza libri e scrivo col cellulare...

absinth
"tommik":
tieni presente che sono in spiaggia, senza libri e scrivo col cellulare...


un grande! sei stato chiaro comunque! :smt023 infatti mi ero bloccato alla scelta dei parametri a e b che ho visto che sono infiniti e conta solo il rapporto... questi strumenti di stima sembrano più avanzati rispetto a quelli che ho studiato ma mi fa piacere conoscerli comunque... in conclusione essendo la scelta dei parametri abbastanza laboriosa possiamo limitarci a concludere che non esiste una scelta univoca per i parametri... in ogni caso una cosa che non mi torna da quello che hai scritto in entrambi i post:
sembra che ogni volta che voglia arrivare alla posterior valga $\pi(\theta |\underline{x}) = \pi(\underline{x}|\theta) \pi(\theta) $

quando per Bayes dovrebbe valere $\pi(\theta |\underline{x}) = \pi(\underline{x}|\theta)\frac{ \pi(\theta)}{\pi(\underline{x})} $

(onestamente non saprei neanche cosa sia la $\pi(\underline{x})$ in questo caso dato che la distribuzione dietro alle misure è l'incognita)

forse c'è qualcosa che mi sfugge? quella che scrivi a me sembra $\pi(\theta , \underline{x})$

Lo_zio_Tom
Hai ragione (anzi abbiamo ragione entrambi) .. se infatti noti, ho sempre detto che la posterior è "proporzionale" a $pi(theta)p(ul(x)|theta)$

Dove noti anche che ho scritto $pi$ per la distribuzione del parametro e $p$ per quella del modello dato che in generale sono diverse

Es:
Gamma-Poisson
Beta-Binomiale
Pareto-Uniforme
Gaussiana-Gaussiana

Ecc ecc

Per fare i conti correttamente con il teorema di bayes, per trovare la posterior bisognerebbe dividere per

$p(ul(x))=int_ (Theta) pi(theta)p(ul(x)|theta) d theta$

Per rendertene conto basta prendere il teorema di bayes, anche nelle sue forme più elementari e vedrai che questa generalizzazione è molto intuitiva...

Tale integrale non è sempre agevole da calcolare e soprattutto è inutile... infatti, essendo integrato in $theta$ diventa una costante moltiplicativa.

Negli esempi che ti ho fatto, guardando $pi(theta)p(ul(x)|theta)$ già riconosciamo forma e parametri della posterior... Non è necessario svenarsi per calcolare il denominatore di bayes, tanto sapendo già qual è la posterior sappiamo anche quanto vale la costante di normalizzazione, tra l'altro ininfluente ai fini della stima.

Facciamo la stessa cosa con il metodo ML:

Lanciamo 10 volte la moneta ottenendo 7 teste. Lo stimatore ML esce calcolando l'atgmax (anzi, meglio l'argsup) della seguente verosimiglianza

$L=((10),(7))theta ^7(1-theta)^3$

Ma se noti leggendo ciò che ho scritto nel mio esempio, ho fatto i conti senza prendere in considerazione il coefficiente binomiale....

absinth
ah si infatti non ho letto bene la notazione, poi me ne ero dimenticato della probabilità totale che si poteva ricavare...

si infatti è chiaro che essendo una costante moltiplicativa non influisce in alcun modo sulla stima per la quale è sufficiente la parte "variabile" della distribuzione contenente anche l'incognita da stimare, per il calcolo del caso massimo etc...

grazie mille per le risposte! :) Non conoscevo questo tipo di stima conjugate prior, sembrano strumenti più avanzati. Le stime che abbiamo trattato ad esempio nei modelli di stato che riguardavano il calcolo dei parametri (media/varianza) conoscendo il tipo di distribuzione che c'è dietro (di solito trasformazioni di gaussiane trattavamo) e quindi l'approccio Fisheriano e alcuni stimatori tipo ML o LS (least squares) poi per valutare la correttezza dello stimatore usavamo MSE (mean square error). Erano tutti a partire dalle misure date, trovare i parametri (media/varianza). Questi concetti di funzioni conjugate prior/posterior non li abbiamo mai visti ma comunque mi fa piacere informarmi

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.