Principio di massima verosimiglianza.

Ariz93
Salve a tutti! Volevo saperne un po' di più su questo principio, sarò più preciso nell'effettuare la domanda:
In generale la verosimiglianza come differisce dalla probabilità?? Solo a causa del fatto che dobbiamo trovare il parametro tale che la funzione di verosimiglianza abbia un massimo?? Da qui sorgono altre domande: con che criterio viene scritta la funzione di verosimiglianza? Grazie a questo principio cosa possiamo ricavare?( ad esempio che considerazioni si possono fare sul test del chi quadro tramite questo principio. Inoltre: avreste degli esempio pratici su come applicarlo?
Infine :come si fa a dedurre da questo principio che il parametro che esce dalla media pesata è il migliore per un set di dati?

Grazie anticipatamente, spero di non chiedere troppo...se avete delle dispense o roba del genere vi ringrazio.:-)

Risposte
Ariz93
"Sergio":

Una funzione di massa/densità di probabilità dipende da uno o più parametri, ad esempio le probabilità dei diversi valori che può assumere una variabile esponenziale dipendono da un parametro \(\lambda\): \(f_X(x)=\lambda e^{-\lambda x}\).
Per indicare questo, si può scrivere: \(f_X(x\mid\lambda)=\lambda e^{-\lambda x}\), come se fosse una probabilità condizionata, anche se \(\lambda\) è solo un parametro che può assumere qualsiasi valore positivo, non una variabile aleatoria.
La funzione di verosimiglianza è: \(L(\lambda;x)=f_X(x\mid\lambda)\), ovvero la stessa cosa letta però come funzione di \(\lambda\). Dato che \(\lambda\) non è una variabile aleatoria, la funzione di verosimiglianza non è una funzione di densità di probabilità (tra l'altro, non è richiesto che abbia un integrale pari a 1).

Quindi la funzione di verosimiglianza sarebbe la stessa cosa della funzione densità di probabilità vista però come funzione di \( \lambda\) giusto? ( in questo caso la x è una variabile o viene considerata una costante?)
"Sergio":

Il Principio è una cosa, la procedura inferenziale un'altra.
Non ho capito cosa c'entri il test del chi quadro (e poi: quale dei tanti?). Per il resto, massimizzando la verosimiglianza si ottengono stimatori puntuali e insiemi di confidenza, si possono costruire test ecc. ecc.
Esempio banale: ti interessa conoscere la probabilità \(p\) che una moneta dia testa. Lanci 10 monete e ottieni 7 teste. Massimizzando la verosimiglianza ottieni che:
a) uno stimatore \(p\) è la media campionaria;
b) in questo caso la media campionaria è \(0.7\), quindi stimi \(p=0.7\)
Il Principio è una cosa, la procedura inferenziale un'altra.
Per il resto, prima di applicare una procedura inferenziale basata sulla massimizzazione della verosimiglianza occorre definire un modello statistico, in pratica occorre scegliere la legge di probabilità del processo aleatorio che genera i dati. Senza fare questo, non ha senso dire che «il parametro che esce dalla media pesata è il migliore».

Quindi questa funzione ti permette di determinare gli stimatori puntuali ed insiemi di confidenza.. non capisco però come il massimo della funzione di verosimiglianza ci faccia pensare ( in base alla distribuzione data) che lo stimatore sia "buono" . Ho sgoogolato un po' ed ho visto che per dire se uno stimatore è buono oppure no si usa il valore di aspettazione dello scostamento dello stimatore dal parametro e l'errore quadratico medio .Sbaglio se dico che il massimo della funzione di verosimiglianza coincide con il minimo dell'errore quadratico medio?

In quanto al test del chi-quadro,ho letto sul libro che un buon fit viene fatto in fisica facendolo con una funzione "semplice" infatti è sempre possibile fittare n dati sperimentali con un polinomio di grado n...chiedendomi il perché si facesse un tale ragionamento un mio amico mi ha detto che discende dal principio di massima verosimiglianza.

Ps: in quanto alle dispense, grazie mille Sergio :-).

Ariz93
Quindi il \(\displaystyle \theta \) che intendi tu nell'esempio sarebbe proprio la probabilità, cioè la funzione di verosimiglianza ti permette di trovare la miglior stima per quel campione casuale che possiedi. Perciò l funzione di verosimiglianza cambia col cambiare dello stimatore puntuale che intendi trovare?

In quanto al concetto asintotico: quindi è il massimo della funzione di verosimiglianza che si avvicina asintoticamente l valore di aspettazione giusto?( questo discorso col tuo esempio concreto mi affascina, sembra ci sia una certa ricorrenza sul discorso dell'asintoticità, mi viene in mente il concetto di frequenza che asintoticamente è uguale alla probabilità ed al teorema del limite centrale).

Sui metodi non so bene come risponderti quello del chi-quadro è quello che più frequentemente abbiamo usato( non se conosci l'esperienza dei chiodini) , il tuo discorso comunque fila anche se sul mio libro questa motivazione non c'è scritta, vi sono altre due motivazione interessanti però: gli n parametri non avrebbero molto senso fisico e anche per questioni di leggi che ricorrono nella fisica teorica.

Ariz93
"Sergio":

\(\theta\) è il parametro, non la probabilità. È il parametro che si intende stimare. La verosimiglianza di \(\theta\) è la probabilità di osservare un dato campione per diversi valori di \(\theta\).
\(\theta\) può anche essere un vettore; ad esempio, se hai dati che assumi provenire da una popolazione normale, \(\theta=(\mu,\sigma^2)\). Ovviamente \(\mu\) e \(\sigma^2\) non sono probabilità, ma sono i parametri che determinano la funzione di densità normale.
Se sono ignoti sia \(\mu\) e \(\sigma^2\), la funzione di verosimiglianza è sempre quella, così come sono sempre gli stessi gli stimatori: la media campionaria per \(\mu\), la varianza campionaria per \(\sigma^2\).

Ora tutto inizia ad essere più chiaro!

"Sergio":

Il massimo della funzione di verosimiglianza (se esiste: non sempre esiste) si avvicina sempre più (converge in probabilità) al valore vero del parametro, non al suo valore atteso. Siamo sempre lì: nelle impostazioni frequentista e di massima verosimiglianza il parametro non è una variabile aleatoria, quindi non ha molto senso parlare del suo valore atteso.

In effetti ha poco senso parlare di variabile aleatoria .(con questo senno tuto ta divenendo molto chiaro).

"Sergio":

In fisica si parla di "senso fisico", in statistica si parla più in generale di "interpretabilità". Se riesci a usare pochi parametri per spiegare la variabilità di 100 dati puoi facilmente interpretarli; se dovessi basarti sui 100 parametri di un polinomio di grado 100 non avresti fatto nemmeno un passo avanti: interpretare 100 parametri equivale a interpretare 100 dati.

Questo discorso dal punto di vista statistico ha molto senso ora appunto mi vien da pensare che diamine centri il principio di massima verosimiglianza e la procedura inferenziale con il fare il fit di un set di dati.(Forse per la stima dei parametri? Ma al massimo possiamo "lavorare i dati" per avere una distribuzione delle loro medie normale, ma ciò non serve se si ha già il metodo dei minimi quadrati. Forse c'entrano poco e nulla e basta)

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.