Verosimiglianza, probabilità condizionata e probabilità a posteriori
Ciao a tutti, ho alcuni dubbi sulla funzione di verosimiglianza e sul suo legame con la probabilità condizionata, spero che possiate darmi un aiuto.
Nella teoria della stima si vuole stimare il valore di un parametro $theta$ avendo a disposizione N misure $ul(x)_0=(x_01, ... , x_(0N))$, realizzazioni di una variabile aleatoria (VA) N-dimensionale $ul(X)=(X_1, ... , X_N)$.
Se non ho capito male la funzione di verosimiglianza non è una funzione di probabilità, i.e. non opera sulla VA $ul(X)$, ma è una funzione che fissata la realizzazione $ul(x)_0$ (a valle della misura/osservazione dell'esperimento) opera sul parametro incognito $theta$. La funzione di verosimiglianza è definita attraverso la densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$:
$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x)_0$
Nel caso di misure statisticamente indipendenti si può fattorizzare la densità di probabilità congiunta nella produttoria delle N densità marginali:
$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x_0))=prod_(n = 1)^(N) p_(X_n;theta)(x_n;theta)$
dove ogni marginale si può determinare conoscendo il modello probabilistico dell'esperimento.
Nel metodo di stima della massima verosimiglianza (ML) si considera il parametro incognito $theta$ come deterministico, cioè non aleatorio, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(ML)$ che massimizza la funzione $L_(ul(x)_0)(theta)$, di solito in versione logaritmica.
Nel metodo di stima della massima probabilità a posteriori (MAP) si considera il parametro incognito $theta$ come aleatorio, cioè si ha a disposizione una densità di probabilità a priori $p_theta(theta)$, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(MAP)$ che massimizza la densità di probabilità a posteriori $p_(theta|ul(X))(theta|ul(x))|_(ul(x)=ul(x)_0)$, di solito in versione logaritmica usando la formula di Bayes.
Dubbio 1
Se fin qui mi è chiaro (a meno che non abbia capito male), il mio dubbio riguarda la formula di Bayes che si utilizza per legare la verosimiglianza alla probabilità a posteriori.
La formula di Bayes per le densità di probabilità è:
$p_(theta|ul(X))(theta|ul(x))=(p_(ul(X)|theta)(ul(x)|theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$
Non ho capito perché nel criterio MAP al posto della densità di probabilità condizionata si considera la funzione di verosimiglianza, cioè si scrive:
$p_(theta|ul(X))(theta|ul(x))=(L(theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$
Non si era definita la verosimiglianza come densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$?
Esempio
Supponiamo che la VA $X$ sia data dalla somma di un parametro $theta$ e una VA Gaussiana $W$ con valore atteso nullo e varianza $sigma_w^2$: $X=theta+W$
Nel caso ML si considera $theta$ non aleatorio, quindi la $X$ è data dalla somma di una costante e la VA $W$. Dato che conosciamo la densità di probabilità $p_W(w)$ ricaviamo la densità di probabilità in base a quello che ci dice la teoria sulle trasformazioni di VA e otteniamo $p_X(x)=p_W(x-theta)$. Quindi $X$ è una VA Gaussiana con valore atteso $theta$ e varianza $sigma_w^2$.
Nel caso MAP si considera $theta$ aleatorio, (ad esempio una VA Gaussiana con valore atteso $m_(theta)$ e varianza $sigma_(theta)^2$), quindi secondo me $X$ dovrebbe essere data dalla somma delle due VA $theta$ e $W$. Per determinare la densità condizionata $p_(X|theta)(x|theta)$ che compare nella formula di Bayes calcolerei prima la $p_(X)(x)$ facendo la convoluzione tra le densità $p_(theta)(theta)$ e $p_(W)(w)$, quindi calcolerei la densità condizionata sfruttando la formula nota nel caso gaussiano e considerando il coefficiente di correlazione nullo. Sul libro invece si considera la verosimiglianza $L(theta)$ al posto della $p_(X|theta)(x|theta)$, potete spiegarmi perché?
Vi ringrazio!
Nella teoria della stima si vuole stimare il valore di un parametro $theta$ avendo a disposizione N misure $ul(x)_0=(x_01, ... , x_(0N))$, realizzazioni di una variabile aleatoria (VA) N-dimensionale $ul(X)=(X_1, ... , X_N)$.
Se non ho capito male la funzione di verosimiglianza non è una funzione di probabilità, i.e. non opera sulla VA $ul(X)$, ma è una funzione che fissata la realizzazione $ul(x)_0$ (a valle della misura/osservazione dell'esperimento) opera sul parametro incognito $theta$. La funzione di verosimiglianza è definita attraverso la densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$:
$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x)_0$
Nel caso di misure statisticamente indipendenti si può fattorizzare la densità di probabilità congiunta nella produttoria delle N densità marginali:
$L_(ul(x)_0)(theta) = p_(ul(X);theta)(ul(x); theta)|_(ul(x)=ul(x_0))=prod_(n = 1)^(N) p_(X_n;theta)(x_n;theta)$
dove ogni marginale si può determinare conoscendo il modello probabilistico dell'esperimento.
Nel metodo di stima della massima verosimiglianza (ML) si considera il parametro incognito $theta$ come deterministico, cioè non aleatorio, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(ML)$ che massimizza la funzione $L_(ul(x)_0)(theta)$, di solito in versione logaritmica.
Nel metodo di stima della massima probabilità a posteriori (MAP) si considera il parametro incognito $theta$ come aleatorio, cioè si ha a disposizione una densità di probabilità a priori $p_theta(theta)$, e avendo a disposizione la misura $ul(x)_0$ si cerca il valore $theta_(MAP)$ che massimizza la densità di probabilità a posteriori $p_(theta|ul(X))(theta|ul(x))|_(ul(x)=ul(x)_0)$, di solito in versione logaritmica usando la formula di Bayes.
Dubbio 1
Se fin qui mi è chiaro (a meno che non abbia capito male), il mio dubbio riguarda la formula di Bayes che si utilizza per legare la verosimiglianza alla probabilità a posteriori.
La formula di Bayes per le densità di probabilità è:
$p_(theta|ul(X))(theta|ul(x))=(p_(ul(X)|theta)(ul(x)|theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$
Non ho capito perché nel criterio MAP al posto della densità di probabilità condizionata si considera la funzione di verosimiglianza, cioè si scrive:
$p_(theta|ul(X))(theta|ul(x))=(L(theta)p_(theta)(theta))/(p_(ul(X)(ul(x)))$
Non si era definita la verosimiglianza come densità di probabilità congiunta della VA $ul(X)$, considerando $ul(X)=ul(x)_0$, parametrizzata dal parametro $theta$?
Esempio
Supponiamo che la VA $X$ sia data dalla somma di un parametro $theta$ e una VA Gaussiana $W$ con valore atteso nullo e varianza $sigma_w^2$: $X=theta+W$
Nel caso ML si considera $theta$ non aleatorio, quindi la $X$ è data dalla somma di una costante e la VA $W$. Dato che conosciamo la densità di probabilità $p_W(w)$ ricaviamo la densità di probabilità in base a quello che ci dice la teoria sulle trasformazioni di VA e otteniamo $p_X(x)=p_W(x-theta)$. Quindi $X$ è una VA Gaussiana con valore atteso $theta$ e varianza $sigma_w^2$.
Nel caso MAP si considera $theta$ aleatorio, (ad esempio una VA Gaussiana con valore atteso $m_(theta)$ e varianza $sigma_(theta)^2$), quindi secondo me $X$ dovrebbe essere data dalla somma delle due VA $theta$ e $W$. Per determinare la densità condizionata $p_(X|theta)(x|theta)$ che compare nella formula di Bayes calcolerei prima la $p_(X)(x)$ facendo la convoluzione tra le densità $p_(theta)(theta)$ e $p_(W)(w)$, quindi calcolerei la densità condizionata sfruttando la formula nota nel caso gaussiano e considerando il coefficiente di correlazione nullo. Sul libro invece si considera la verosimiglianza $L(theta)$ al posto della $p_(X|theta)(x|theta)$, potete spiegarmi perché?
Vi ringrazio!
Risposte
La verosimiglianza è proprio la funzione che rappresenta i dati, cioè le osservazioni $X_i$ dato un certo valore del parametro $theta$ che, in statistica bayesiana, è dotato di funzione di densità.
Sul parametro si possono avere o meno delle informazioni iniziali: se le abbiamo, tali informazioni sono contenute nella prior ($pi(theta)$) altrimenti il risultato coinciderà con quello della stima con la max verosimiglianza
Oltre al metodo MAP c'è anche quello che stima il parametro con la media della posterior; rispetto al MAP, questo metodo minimizza il MSE.
Ora sono in vacanza...se hai voglia quando torno ti mostro alcuni esempi pratici
Sul parametro si possono avere o meno delle informazioni iniziali: se le abbiamo, tali informazioni sono contenute nella prior ($pi(theta)$) altrimenti il risultato coinciderà con quello della stima con la max verosimiglianza
Oltre al metodo MAP c'è anche quello che stima il parametro con la media della posterior; rispetto al MAP, questo metodo minimizza il MSE.
Ora sono in vacanza...se hai voglia quando torno ti mostro alcuni esempi pratici
Grazie per la risposta!
Il metodo MMSE lo devo studiare nel prossimo capitolo del libro! Il mio dubbio più che altro è se per determinare la funzione di verosimiglianza devo considerare $theta$ come parametro o come variabile aleatoria. Se non ho capito male dici che $theta$ va considerato come parametro incognito in tutti i casi (ML, MAP, MMSE) e non come variabile aleatoria. O meglio, lo considero sempre come parametro quando calcolo la verosimiglianza (come nell'esempio che ho postato), e nel caso sia aleatorio in più aggiungo la probabilità a priori $p(theta)$. Se è così mi trovo.
Anche in alcune dispense online ho trovato un riscontro, ad esempio in queste dispense di statistica (numero a piè di pagina 338, 339), sul sito stats qui(1) e qui(2). Se è permesso riporto questa risposta di un utente:
In poche parole, se non ho capito male, sia nel caso ML che nel caso MAP per fare la stima devo calcolare la verosimiglianza $L(theta)$, l'unica differenza è che nel caso MAP devo considerare anche la $p(theta)$.
Per gli esempi va benissimo quando puoi, ti ringrazio molto!
Buona vacanza!
Il metodo MMSE lo devo studiare nel prossimo capitolo del libro! Il mio dubbio più che altro è se per determinare la funzione di verosimiglianza devo considerare $theta$ come parametro o come variabile aleatoria. Se non ho capito male dici che $theta$ va considerato come parametro incognito in tutti i casi (ML, MAP, MMSE) e non come variabile aleatoria. O meglio, lo considero sempre come parametro quando calcolo la verosimiglianza (come nell'esempio che ho postato), e nel caso sia aleatorio in più aggiungo la probabilità a priori $p(theta)$. Se è così mi trovo.
Anche in alcune dispense online ho trovato un riscontro, ad esempio in queste dispense di statistica (numero a piè di pagina 338, 339), sul sito stats qui(1) e qui(2). Se è permesso riporto questa risposta di un utente:
$p(x|θ)$ can be seen from two points of view:
1)As a function of $x$, treating $θ$ as known/observed. If $θ$ is not a random variable, then $p(x|θ)$ is called the (parameterized) probability of $x$ given the model parameters $θ$, which is sometimes also written as $p(x;θ)$ or $p_(θ)(x)$. If $θ$ is a random variable, as in Bayesian statistics, then $p(x|θ)$ is a conditional probability, defined as $(p(x,θ))/(p(θ))$.
2)As a function of $θ$, treating $x$ as observed. For example, when you try to find a certain assignment $hat(θ)$ for $θ$ that maximizes $p(x|θ)$, then $p(x|hat(θ))$ is called the maximum likelihood of $θ$ given the data $x$, sometimes written as $L(hat(θ)|x)$. So, the term likelihood is just shorthand to refer to the probability $p(x|θ)$ for some data $x$ that results from assigning different values to $θ$ (e.g. as one traverses the search space of $θ$ for a good solution). So, it is often used as an objective function, but also as a performance measure to compare two models as in Bayesian model comparison.
Often, this expression is still a function of both its arguments, so it is rather a matter of emphasis.
In poche parole, se non ho capito male, sia nel caso ML che nel caso MAP per fare la stima devo calcolare la verosimiglianza $L(theta)$, l'unica differenza è che nel caso MAP devo considerare anche la $p(theta)$.
Per gli esempi va benissimo quando puoi, ti ringrazio molto!
Buona vacanza!
Sì più o meno... nel caso della stima di Max verosimiglianza massimizzi la funzione $L(ul(x)|theta)$ rispetto a $theta$. Nel caso della stima MAP massimizzi la densità a posteriori
$P(theta|ul(x)) prop pi(theta)p(ul(x)|theta)$
Dove per $p(ul(x)|theta)$ si intende la verosimiglianza
Es: lanciamo 6 volte una moneta ed otteniamo 4 teste. La verosimiglianza è una binomiale:
$L prop theta^4(1-theta )^2$ che ha un massimo in $hat(theta)_(ML)=4/6$ ovvero un massimo in corrispondenza dello stimatore $bar(x)$
Ora se noi avessimo delle informazioni a priori sul parametro, ad esempio che la moneta è regolare (e quindi per noi $theta$ è intorno a 0.5) allora potremmo scegliere una prior che privilegia tali valori, ad esempio $pi(theta) prop theta(1-theta)$ ed utilizzare la stima MAP
$p(theta|ul(x))prop theta^5(1-theta)^3$ che ha un massimo in $hat(theta)_(MAP)=5/8$
Che è una via di mezzo fra le informazioni a priori (0,5) e le risultanze osservate (0.67).
Vedrai al capitolo successivo che questa distribuzione posterior è una $"Beta"(6,4)$ con media 0,6. Tale media è lo stimatore MMSE bayesiana
A presto... ora sono al circolo polare artico....un po' fuori mano per queste cose...
È un esempio fatto a braccio, molto semplicemente ma spero che ti abbia chiarito un po' le idee
$P(theta|ul(x)) prop pi(theta)p(ul(x)|theta)$
Dove per $p(ul(x)|theta)$ si intende la verosimiglianza
Es: lanciamo 6 volte una moneta ed otteniamo 4 teste. La verosimiglianza è una binomiale:
$L prop theta^4(1-theta )^2$ che ha un massimo in $hat(theta)_(ML)=4/6$ ovvero un massimo in corrispondenza dello stimatore $bar(x)$
Ora se noi avessimo delle informazioni a priori sul parametro, ad esempio che la moneta è regolare (e quindi per noi $theta$ è intorno a 0.5) allora potremmo scegliere una prior che privilegia tali valori, ad esempio $pi(theta) prop theta(1-theta)$ ed utilizzare la stima MAP
$p(theta|ul(x))prop theta^5(1-theta)^3$ che ha un massimo in $hat(theta)_(MAP)=5/8$
Che è una via di mezzo fra le informazioni a priori (0,5) e le risultanze osservate (0.67).
Vedrai al capitolo successivo che questa distribuzione posterior è una $"Beta"(6,4)$ con media 0,6. Tale media è lo stimatore MMSE bayesiana
A presto... ora sono al circolo polare artico....un po' fuori mano per queste cose...
È un esempio fatto a braccio, molto semplicemente ma spero che ti abbia chiarito un po' le idee
Tutto chiaro, ti ringrazio davvero tanto per la risposta! In pratica si usa la verosimiglianza anche nella stima MAP perché lavorando a valle della misurazione si ha a disposizione la realizzazione $x$ della variabile aleatoria $X$, quindi non ha senso considerare la densità di probabilità condizionata di $X$ rispetto a $theta$ poiché è una misura stocastica a monte, bensì ha senso considerare la verosimiglianza di $x$ rispetto a $theta$ perché è una misura statistica a valle. Perfetto!
L'esempio va benissimo, è molto chiaro, e ti ringrazio ancora nonostante la vacanza... Buon anno!
L'esempio va benissimo, è molto chiaro, e ti ringrazio ancora nonostante la vacanza... Buon anno!