Informazione di Fisher
Ciao ragazzi. Partendo dalla funzione di verosimiglianza $ f(z;theta) $ lo stimatore di massima verosimiglianza è quello che massimizza la funzione $ f(z;theta) $ quindi devo derivare rispetto a $ theta $; inoltre $ f $ è una densità, quindi è una funzione strettamente positiva, il p.to di max per una funzione strettamente positiva è lo stesso p.to di max per la stessa log(funzione), quindi posso considerare $ log f(z;theta) $ detta log-verosimiglianza di cui ovviamente ne considero $ (partial logf(z;theta))/(partial theta) $ tale derivata è detta score $S$. L'informazione di Fisher altro non è che la varianza dello score, e poiché il valore atteso è zero, la varianza si riduce al solo momento secondo $ Var(S)=E[((partial logf(z;theta))/(partial theta))^2]=:I_F(theta) $. E fin qui non dovrei aver detto tutto giusto, o sbaglio? Il testo da cui sto studiando mi dice che equivalentemente si può considerare $ I_F(theta) = -E[((partial^2 logf(z;theta))/(partial theta^2)] $
Domanda: che relazione c'è tra la prima e la seconda equivalenza, cioè come giustifico la seguente? $ E[((partial logf(z;theta))/(partial theta))^2]=I_F(theta)=-E[((partial^2 logf(z;theta))/(partial theta^2)] $. Ho provato a cercare ovunque, ma tutti riportano questo risultato senza provarlo. Grazie
Domanda: che relazione c'è tra la prima e la seconda equivalenza, cioè come giustifico la seguente? $ E[((partial logf(z;theta))/(partial theta))^2]=I_F(theta)=-E[((partial^2 logf(z;theta))/(partial theta^2)] $. Ho provato a cercare ovunque, ma tutti riportano questo risultato senza provarlo. Grazie
Risposte
Per scrivere Questa guida ci ho perso delle ore....comunque ciò che stai cercando è la seconda identità di Bartlett e la dimostrazione l'ho messa in un link all'inizio della guida. Lì trovi la dimostrazione sia della Prima che della Seconda identità.
ah dimenticavo...nella mia guida ho indicato l'informazione della n-upla come n volte l'informazione di una singola osservazione....è lo stesso.
Nota Bene: lo stimatore di massima verosimiglianza non è il punto che massimizza la verosimiglianza come spesso scritto anche in Libri di Testo ma è l'argsup della verosimiglianza. Tale stimatore può anche non appartenere al dominio, purché appartenga alla sua chiusura euclidea.
Ecco una bella e corretta definizione tratta da un ottimo testo:

Es: si abbia una distribuzione uniforme in $(0; theta)$, estremi esclusi....Posto che estraiamo un campione casuale di ampiezza $n$ qual è lo stimatore di massima verosimiglianza di $theta$?
A conti fatti, come si vede in figura,

lo stimatore di massima verosimiglianza è $hat(theta)=X_((n))$, cioè l'ennesima statistica d'ordine, il massimo dei valori del campione....e tale valore non appartiene a $Theta$...in pratica quella verosimiglianza non ce l'ha un massimo....
ah dimenticavo...nella mia guida ho indicato l'informazione della n-upla come n volte l'informazione di una singola osservazione....è lo stesso.
Nota Bene: lo stimatore di massima verosimiglianza non è il punto che massimizza la verosimiglianza come spesso scritto anche in Libri di Testo ma è l'argsup della verosimiglianza. Tale stimatore può anche non appartenere al dominio, purché appartenga alla sua chiusura euclidea.
Ecco una bella e corretta definizione tratta da un ottimo testo:

Es: si abbia una distribuzione uniforme in $(0; theta)$, estremi esclusi....Posto che estraiamo un campione casuale di ampiezza $n$ qual è lo stimatore di massima verosimiglianza di $theta$?
A conti fatti, come si vede in figura,

lo stimatore di massima verosimiglianza è $hat(theta)=X_((n))$, cioè l'ennesima statistica d'ordine, il massimo dei valori del campione....e tale valore non appartiene a $Theta$...in pratica quella verosimiglianza non ce l'ha un massimo....
Grazie. Un'altra cosa: con un modello del tipo $ y_t=beta'x_t+u_t $ dove $ u_t~ARCH(p) $ supp. debolmente stazionario e condizionatamente normale t.c. $ u_t|I_(t-1)~N(0,sigma_t^2) $ e dove (*) $ sigma_t^2=alpha_0+sum_(j=1)^(p)alpha_ju_(t-j)^2 $. La pdf condizionata congiunta della generica osservazione $ f(u_t|I_(t-1);alpha,beta)=(2pisigma_t^2)^(-1/2)exp(-1/2(y_t-beta'x_t)^2/sigma_t^2) $ la cui funzione di verosimiglianza è data da: $ L(alpha,beta)=(2pi)^(-T/2) prod_(t=1)^(T)(sigma_t^2)^(-1/2) exp(-1/2 sum_(t=1)^T (y_t-beta'x_t)^2/sigma_t^2) $ da cui segue che la log-verosimiglianza è data da: $ logL(alpha,beta)=-T/2 log(2pi) - 1/2 sum_(t=1)^(T) log(sigma_t^2) -1/2 sum_(t=1)^T (y_t-beta'x_t)^2/sigma_t^2 $ che per la (*) risulta: $ logL(alpha,beta)=-T/2 log(2pi) - 1/2 sum_(t=1)^(T) log(alpha_0+sum_(j=1)^(p)alpha_ju_(t-j)^2) -1/2 sum_(t=1)^T (y_t-beta'x_t)^2/(alpha_0+sum_(j=1)^(p)alpha_ju_(t-j)^2) $
ERRATA CORRIGE
** Scusami, nella precedente c'è un refuso che non ha senso, considera questa**
Per gli stimatori di massima verosimiglianza di $ alpha $ e $ beta $ si considera la matrice di informazione di Fisher $ I_F(alpha,beta)=-E[ ( (partial^2 logL(alpha,beta)) /(partial alpha partial alpha') , (partial^2 logL(alpha,beta)) /(partial alpha partial beta') ),( (partial^2 logL(alpha,beta)) /(partial beta partial alpha') , (partial^2 logL(alpha,beta)) /(partial beta partial beta') ) ] $
Dopodiché il testo dice si può dimostrare - ma non lo fa - che $ (partial^2 logL(alpha,beta)) /(partial alpha partial beta')=0 $ di conseguenza anche $ (partial^2 logL(alpha,beta)) /(partial beta partial alpha')=0 $ in quanto sono uguali. E poi è scritto " asintoticamente, un test su $alpha$ (risp. $beta$) dipende solo dal primo blocco della matrice di informazione di Fisher ", e quindi dovrei calcolare la matrice $ I_infty(alpha,beta)=lim_(T -> infty) (I_F(alpha,beta))/T $.
Domande: che ne è di $ (partial^2 logL(alpha,beta)) /(partial beta partial beta') $? E poi il testo riporta quanto ti scrivo, ma poi dico come si fa a dare un risultato senza giustificarlo da un punto di vista computazionale, nel senso sono bravo anch'io a scrivere la matrice di informazione di Fisher, ok ma i calcoli??? Perché è molto poco pensabile di calcolarla manualmente. Va bene che un docente in sede d'esame non ti chiederà mai una cosa del genere, però è tanto per avere un'idea. Sapresti gentilmente aiutarmi in qualche modo? Perché un modo c'è sicuramente, ho provato a calcolare matrice hessiana della log-verosimiglianza su wolfram, ma a un certo punto ci rinuncia anche lui, da' errore, come se fosse molto complessa da calcolare. Esistono dei tool più avanzati per calcolare direttamente la matrice di informazione di Fisher?
** Scusami, nella precedente c'è un refuso che non ha senso, considera questa**
Per gli stimatori di massima verosimiglianza di $ alpha $ e $ beta $ si considera la matrice di informazione di Fisher $ I_F(alpha,beta)=-E[ ( (partial^2 logL(alpha,beta)) /(partial alpha partial alpha') , (partial^2 logL(alpha,beta)) /(partial alpha partial beta') ),( (partial^2 logL(alpha,beta)) /(partial beta partial alpha') , (partial^2 logL(alpha,beta)) /(partial beta partial beta') ) ] $
Dopodiché il testo dice si può dimostrare - ma non lo fa - che $ (partial^2 logL(alpha,beta)) /(partial alpha partial beta')=0 $ di conseguenza anche $ (partial^2 logL(alpha,beta)) /(partial beta partial alpha')=0 $ in quanto sono uguali. E poi è scritto " asintoticamente, un test su $alpha$ (risp. $beta$) dipende solo dal primo blocco della matrice di informazione di Fisher ", e quindi dovrei calcolare la matrice $ I_infty(alpha,beta)=lim_(T -> infty) (I_F(alpha,beta))/T $.
Domande: che ne è di $ (partial^2 logL(alpha,beta)) /(partial beta partial beta') $? E poi il testo riporta quanto ti scrivo, ma poi dico come si fa a dare un risultato senza giustificarlo da un punto di vista computazionale, nel senso sono bravo anch'io a scrivere la matrice di informazione di Fisher, ok ma i calcoli??? Perché è molto poco pensabile di calcolarla manualmente. Va bene che un docente in sede d'esame non ti chiederà mai una cosa del genere, però è tanto per avere un'idea. Sapresti gentilmente aiutarmi in qualche modo? Perché un modo c'è sicuramente, ho provato a calcolare matrice hessiana della log-verosimiglianza su wolfram, ma a un certo punto ci rinuncia anche lui, da' errore, come se fosse molto complessa da calcolare. Esistono dei tool più avanzati per calcolare direttamente la matrice di informazione di Fisher?