Massimizzazione

markowitz
Avrei un pesante dubbio, che però non saprei se postare qui o in statistica e probabilità ma alla fine penso sia
più adeguato qua.
Il contesto è quello della massima verosimiglianza ma il problema è di analisi.

Ho una funzione $f: RR^n -> RR$ che è di densità ci probabilità (variabile aleatoria continua), con le sue
note proprietà. La prob. finisce qui.

Questa funzione dipende dal vettore n-dimensionale (di parametri) $theta$

Trovo la f di verosimiglianza che in sostanza è sempre (o facciamo finta che sia così) una
produttoria di f che chiamo $L(theta)$ che è sempre una funzione $RR^n -> RR$ ed eredità le sue
proprietà, tra cui quella che è sempre differenziabile su tutto il dominio. Almeno credo.

Devo massimizzare la funzione rispetto ai parametri $theta$, quindi annullo il gradiente.
Il tutto consiste nel ricavare un sistema, tipicamente non lineare, in $n$ variabili (i parametri).
La soluzione del problema, dal punto di vista dell'analisi matematica, mi da (???) il punto di massimo della funzione $L(theta)$
(probabilisticamente mi da gli stimatori)

Il "punto" :-D è che vorrei essere sicuro che quello trovato sia il punto di massimo globale e forte/unico
della funzione $L(theta)$. Come fare a essere sicuri???

Per quello che ne so, in generale, possiamo ricavare l'Hessiana della funzione in analisi ($L(theta)$ appunto) e valutarla
nei punti stazionari, o meglio nel nostro punto stazionario.
Se l'Hessiana (ipotizziamo che esistano derivate seconde continue.....) è definita negativa allora effettivamente
il punto è di massimo, ma LOCALE !!!
Posso essere sicuro che sia un massimo globale solo se, ad esempio, la funzione da massimizzare sia una
forma quadratica, da cui la matrice hessiana coincide con quella dei coefficienti (quindi costanti!) che deve
essere definita negativa.

Ma il caso generale della procedura non si riconduce ad una forma quadratica.

Rischio quindi di perdermi sui MASSIMI LOCALI??? specialmente mi turba il fatto che nell' Hessiana
non ci sono solo costanti.
(probabilisticamente sarebbe una tragedia)

L'ancora di salvezza a cui ho pensato è che la $L(theta)$ potrebbe essere sempre una funzione
globalmente strettamente concava, allora esisterebbe un solo MASSIMO GLOBALE FORTE!
(probabilisticamente saremmo a posto)
MA E' VERO? SEMPRE?

Insomma il rischio di avere tra i piedi massimi locali esiste?

N.B: tutto il ragionamento è farina del mio sacco quindi potrebbero esserci errori o comunque passaggi
non proprio giustificati.

Risposte
DajeForte
Magari in calcolo delle probabilità starebbe meglio (opinione personale - avresti secondo me più risposte).
"markowitz":
Ho una funzione $f: RR^n -> RR$ che è di densità ci probabilità (variabile aleatoria continua), con le sue
note proprietà. La prob. finisce qui.

Questa funzione dipende dal vettore n-dimensionale (di parametri) $theta$

Trovo la f di verosimiglianza che in sostanza è sempre (o facciamo finta che sia così) una
produttoria di f che chiamo $L(theta)$ che è sempre una funzione $RR^n -> RR$ ed eredità le sue
proprietà, tra cui quella che è sempre differenziabile su tutto il dominio. Almeno credo.

Già qua c'è un approccio sbagliato. $theta$ è un vettore d-dimensionale (che assumerà valore in un insieme $Theta subset RR^d$) dove d è la dimensione del parametro ed n è il numero delle osservazioni (devi in generale suppore n>d altrimenti potresti cadere in problematiche di coerenza della stima dei d parametri scalari).
La funzione di verosimiglianza come hai scritto è una funzione di $theta$ e dunque il suo dominio è $Theta$. In un certo senso giri il problema, fissi la n-upla di realizazioni e vedi la funzione di densità in funzione del parametro.
Per quanta riguarda le proprietà dunque dipendono si dalla funzione di densità/massa ma i in particolar modo dal legame tra parametro e funzione.
Prendi ad esempio una bernulli, metti in uno schema iid, la funzione di verosimiglianza è $theta^k(1-theta)^{n-k}$ dove $k=sum_{i=1}^{n}x_i$ e $theta in (0,1)$, e dunque è continua in $theta$.


"markowitz":
Devo massimizzare la funzione rispetto ai parametri $theta$, quindi annullo il gradiente.
Il tutto consiste nel ricavare un sistema, tipicamente non lineare, in $n$ variabili (i parametri).
La soluzione del problema, dal punto di vista dell'analisi matematica, mi da (???) il punto di massimo della funzione $L(theta)$
(probabilisticamente mi da gli stimatori)

Il "punto" :-D è che vorrei essere sicuro che quello trovato sia il punto di massimo globale e forte/unico
della funzione $L(theta)$. Come fare a essere sicuri???

Per quello che ne so, in generale, possiamo ricavare l'Hessiana della funzione in analisi ($L(theta)$ appunto) e valutarla
nei punti stazionari, o meglio nel nostro punto stazionario.
Se l'Hessiana (ipotizziamo che esistano derivate seconde continue.....) è definita negativa allora effettivamente
il punto è di massimo, ma LOCALE !!!
Posso essere sicuro che sia un massimo globale solo se, ad esempio, la funzione da massimizzare sia una
forma quadratica, da cui la matrice hessiana coincide con quella dei coefficienti (quindi costanti!) che deve
essere definita negativa.

Ma il caso generale della procedura non si riconduce ad una forma quadratica.

Rischio quindi di perdermi sui MASSIMI LOCALI??? specialmente mi turba il fatto che nell' Hessiana
non ci sono solo costanti.
(probabilisticamente sarebbe una tragedia)

L'ancora di salvezza a cui ho pensato è che la $L(theta)$ potrebbe essere sempre una funzione
globalmente strettamente concava, allora esisterebbe un solo MASSIMO GLOBALE FORTE!
(probabilisticamente saremmo a posto)
MA E' VERO? SEMPRE?

Insomma il rischio di avere tra i piedi massimi locali esiste?

N.B: tutto il ragionamento è farina del mio sacco quindi potrebbero esserci errori o comunque passaggi
non proprio giustificati.


Qua devi massimizzare $L(theta)$ per $theta in Theta$.
In linea generale non c'è una strada unica, chiedi aiuto all'analisi.
In linea di massima capitano casi dove la funzione è $C^2$ in quasi tutto $Theta$ tranne un insieme di punti finito (finito è l'insieme che escludi - magari contabile), quindi fai gradiente/l'Hessiana (dove puoi farli e magari avrai più massimi locali) e poi la valuti in quei punti particolari, a questo punto il massimo globale è il punto che ti da massimo assoluto tra quelli locai (con hessiana ed a estremi).

In linea generale quello che devi fare è una massimizzazione.

markowitz
Prima di tutto grazie per la risposta, forse hai ragione tu era meglio statistica e probabilità...comunque
ho fatto un po di casino,
facciamo un'esempio al massimo poi, forse, generalizziamo.
da wikipidia

http://it.wikipedia.org/wiki/Metodo_del ... imiglianza

La funzione di log-verosimiglianza $L(theta)$ va da $RR^2 -> RR$

o già sbaglio?

ricordando che le $x_i$ non sono variabili ma realizzazioni quindi costanti, le condizioni del prim'ordine
identificano un sistema di 2 equazioni in 2 incognite $mu$ e $sigma^2$.
Il gradiente si annulla con la soluzione proposta, ma come faccio a dare per scontato che quello sia un massimo?

DajeForte
Guarda qua:

http://en.wikipedia.org/wiki/Maximum_likelihood

In questo caso deve essere necessariamente $mu$ uguale alla media delle x_i e così ti riconduci ad una massimizzazione su una variabile.

markowitz
Vediamo il problema da un'altro punto di vista. Da cui cerco di arrivare direttamente alla vera "questio".
Ho capito il meccanismo della massima verosimiglainza, ed ho visto esempi, ad una variabile, in cui si vede bene che la funzione $RR -> RR$ $L(theta)$ ha un solo punto stazionario (la derivata prima si annulla in un solo punto) già graficamente si vede che è un massimo, ed in più la verifica analitica è in genere abbastanza comoda.

Spesso però si ha a che fare con funzioni $RR^n -> RR$ $L(theta)$ dove $n$ è il numero di parametri (probabilistici) che però adesso sono diventate variabili (analitiche). O no?

Probabilisticamente non cambia molto ma analiticamente la questiona si complica potenzialmente parecchio.

Devo annullare il gradiente ovvero risolvere un sistema, tipicamente non lineare, di $n$ equazioni in $n$ incognite che, in generale, può avere una o molte (come nessuna) soluzioni/punti stazionari.

In generale se il sistema si può risolvere in forma chiusa verifico sull'Hessiana la natura di tutti i punti e trovo il massimo globale forte (se esiste).
Ma tipicamente devo ricorrere a procedure numeriche per trovare una (la) soluzione ed, in generale, non è detto che sia un massimo e comunque nessuno sa se è il solo punto stazionario.

Tutta la problematica magicamente svanisce se $L(theta)$ è globalmente concava (strettamente). Se così è, la soluzione/punto stazionario è univoca ed è sicuramente il massimo globale forte e siamo (probabilisticamente) a posto.

Chi mi garantisce che $L(theta)$ è globalmente (strettamente) concava?
Vale per qualsiasi funzione di densità?
E' quindi impossibile che, almeno per i modelli più diffusi (tipo: ARMA GARCH PROBIT LOGIT ...),
l'algoritmo iterativo si "perda" su massimi locali?

markowitz
provo a porre la domanda in modo diverso magari qualcuno sa/vuole risponde:

ho una funzione del tipo

$logL(Theta, omega, alpha)= -(T/2)*log(2pi) -(1/2)*sum_T log(omega + alpha(y_(t-1)-X'_(t-1)*Theta)^2) - (1/2)*sum_T ((y_(t-1)-X'_(t-1)*Theta)^2)/(omega + alpha(y_(t-1)-X'_(t-1)*Theta)^2)$

in cui $Theta$ è un vettore n-dimensionale di valori reali così come $X_(t-1)$, mentre
$alpha,omega$ sono numeri reali positivi, $T$ è un numero naturale positivo.

Devo massimizzare $logL(Theta, omega, alpha)$ rispetto alle variabili in parentesi.

E' una funzione $RR^(n+2) -RR$, è globalmente concava?

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.