Modello di regressione lineare normale ML e bayesiano

markowitz
Nel modello lineare normale, intendo quello stimato con ML a funzione di verosimiglianza normale per i residui:

arrivo ad uno stimatore dei parametri (relativo al vettore di costanti ignote) del tipo $beta$ distribuito $N (beta_(ML) ,Sigma_(ML))$

se invece passo al framework bayesiano ed utilizzo una prior normale per $beta$ arrivo ad uno stimatore di $beta$ (inteso come posterior versus prior) del tipo $N (beta_(BY) ,Sigma_(BY))$

nel caso ML riesco agevolmente a calcolare intervalli di confidenza per i valori di $beta_(ML)$. Poi, una volta scelta una nulla su un parametro singolo, riesco, attraverso un test - z, a calcolare il relativo p-value. Anche se in realtà questo secondo passo lo vedo descitto sempre nel contesto dei minimi quadrati e non anche in quello ML, dove si parla invece di rapporti di verosimiglianza. Non vedo perché non utilizzarlo anche nella ML.

Il punto è che mi sembra di poter fare esattamente la stessa cosa nel caso bayesiano ma qui non sono proprio sicuro della liceità della cosa, anche se non vedo contraddizioni evidenti.
Forse cambia solo l'interpretazione? E come ? O forse proprio non si può fare ?

Risposte
markowitz
Ciao Sergio,
grazie per l'ampia spiegazione ... roba da vero prof!
Tra l'altro tu ti presenti per nome allora voglio farlo anche io: mi chiamo Giuseppe.

Ieri sera ho pensato a lungo su quello che hai scritto ed ho difficoltà a racchiudere tutti i miei dubbi ed osservazioni in poche parole. Quindi ti disturberò ancora in futuro :-)

Comunque per adesso te la butto li:

Dici che Fisher è stato il primo ad usare il concetto di p-value in un contesto che Lui stesso definiva post-sperimentale. Tuttavia il concetto di p-value appartiene anche al contesto pre-sperimentale, anzi di solito è inteso in questo senso. Tanto è vero che rappresenta una quantità che si può definire come: "la probabilità di osservare una statistica test ugualmente o maggiormente sfavorevole all'ipotesi nulla, rispetto alla statistica test osservata, data per vera l'ipotesi nulla stessa." in formule mi azzardo:
$T$= statistica test, suc = successiva , oss = osservata
$P(|T_(suc)|>=|T_(oss)||H_0)$
Tale definizione discende allora chiaramente dal contesto pre-sperimentale e dall'idea di campionamento ripetuto. Non di meno l'ho trovata scritta in vari testi di Econometria dove penso sarebbe la cornice post-sperimentale ad essere filisoficamente più compatibile con la realtà osservazionale con cui ci si confronta ... comunque, a quanto ne so tale differenza (post-versus pre sperimentale) è a dir poco sorvolata.
Tuttavia, se intendo bene, il nostro amico p-value (sul quale mi avevi già istruito ai miei primi passi in questo forum ... non so se ricordi :-D ) può essere considerato una grandezza ponte.
Allora qual'è una definizione (a parole ed in formule) appropriata per il concetto di p-value in un contesto post-sperimentale ?

markowitz
"Sergio":


[quote="markowitz"]Tanto è vero che rappresenta una quantità che si può definire come: "la probabilità di osservare una statistica test ugualmente o maggiormente sfavorevole all'ipotesi nulla, rispetto alla statistica test osservata, data per vera l'ipotesi nulla stessa." in formule mi azzardo:
$ T $= statistica test, suc = successiva , oss = osservata
$ P(|T_(suc)|>=|T_(oss)||H_0) $

Concordo (ovviamente) sulla definizione, ma non capisco perché "successiva".
La statistica test è una variabile aleatoria, quindi il p-value è semplicemente \( P(T\ge|T_{oss}|; H_0) \) - ovviamente nell'ambito di un test bilaterale del tipo \( \theta_0=0,\;\theta_1\ne 0 \).
Pignoleria "bayesiana": a rigore, \( P(T\ge |T_{oss}|\mid H_0) \) è una probabilità condizionata, ma non si può condizionare a qualcosa che non sia una variabile aleatoria, quindi sarebbe meglio scrivere \( P(T \ge |T_{oss}|; H_0) \) o, forse più chiaramente, \( P(T \ge |T_{oss}|; \theta=\theta_0) \). C'è anche chi scrive \( P_{\theta=\theta_0}(\dots) \), ma mi pare un po' troppo pesante.
[/quote]
con successiva, o meglio $T_(suc)$, intendevo solo forzare il concetto che si dovrebbe ripetere il test su altri dati e quindi osservare una nuova statistica test (numero) da confrontare col la vecchia $T_(oss)$ mi sembra di averla vista scritta così da qualche parte ma forse mi confondo... in effetti è meglio riferirsi direttamente alla v.a. $T$.
Una cosa, perché togli il valore assoluto da $T$ ?


"Sergio":

[quote="markowitz"]comunque, a quanto ne so tale differenza (post-versus pre sperimentale) è a dir poco sorvolata.

Mica tanto! Sembra così finché si rimane nell'impostazione frequentista. Il problema riemerge non appena ci si volge all'impostazione bayesiana, perché in essa l'ottica post-sperimentale riacquista importanza nel senso che l'unica inferenza possibile è quella basata su una distribuzione a posteriori che, pur se determinata anche da informazioni a priori, deriva dall'esperienza. In altri termini, esiste una versione bayesiana del principio di verosimiglianza.
[/quote]
non mi esprimevo sull'importanza del concetto ma solo al fatto che in vari testi non ne ho visto menzione.

"Sergio":

Il p-value non va molto d'accordo con l'approccio post-sperimentale. Ecco un esempio classico (tratto da Pawitan, In All Likelihood, Clarendon Press, 2001).


sinceramente l'esempio di Pawitan mi lascia perplesso. Se la mettiamo in questi termini potremmo anche pensare che le dieci realizzazioni che osserviamo siano frutto di una v.a. che si distribuisce in modo ipergeometrico o ipergeometrico negativo o altro ... è chiaro che se la v.a. che guida le realizzazioni non è la stessa non potro giungere alle stesse conclusioni. Se seguire un'ottica post-sperimentale significa avere un tale livello d'ignoranza rispetto al fenomeno ... tra l'altro a volte è proprio così ...
comunque, senza approfondire discorsi che ci allontanerebbero troppo dal problema originario, mi riferivo solo a v.a. di riferimento assolutamente identiche. Per questo avevo specificato nel testo "modello di regressione lineare normale"

tra l'altro i valori trovati nell'esempio non mi sembrano proprio dei p-value ma più dei gradi di verosimiglianza (certo collegati). Il p-value, a quanto ho capito, è legato al concetto di statistica test non ha quello di funzione di verosimiglianza.

E ancora:
1) sempre nell'esempio ad una statistica test ci si può comunque ricondurre ragionando di rapporto di verosimiglianza, in effetti in questi termini anche l'approccio ML come quello LS pporta a parlare di statistiche test e p-value. Tra l'altro almeno nel contesto del modello di regressione lineare normale si ragione esplicitamente di vari possibili test tra cui: Wald e rapporto di verosimiglianza. Il primo, salvo questioni cavillari, è analogo al caso OLS e quindi porta agli stessi risultati anche in termini di p-value; il secondo dovrebbe portare anch'esso alle stesse conclusioni, anche il termini di p-value.
2) peraltro come dicevi tu nel punto "d" del tuo primo post, nel contesto ML, per l'inferenza, si ragiona (o si dovrebbe?) di funzione di massima verrosimiglianza relativa ed in effetti ho trovato una dispensa dove nel contesto della stima dei parametri di un modello normale (non la regressione) ci si riferisce a tale quatità e non vi è traccia di statistiche test. Peraltro vorrei capire meglio se l'approccio è utilizzabile anche con la regressione e se i risultati a cui si arriva sono gli stessi dell'inferenza classica.

Al netto di questo mi sento di dire che, almeno nel contesto di regressione lineare normale, l'inferenza classica si può fare; e per le ipotesi sui singoli parametri mi posso ricondurre ad un test zeta, lo stesso del modello OLS con residui normali omoschedastici a varianza nota.


"Sergio":

Si può poi dire, e si dice, che la moda o media o mediana della distribuzione a posteriori forniscono una stima puntuale, che un intervallo tra due quantili fornisce un insieme di credibilità analogo a un intervallo di confidenza ecc. ecc., ma in realtà ciò accade solo perché, disponendo di una distribuzione di probabilità (a posteriori) ci poi puoi fare tutti i giochini che ti pare. L'unico vero obiettivo è la distribuzione a posteriori.
Precisato questo, si parla anche di un p-value "bayesiano" (v. in particolare Gelman & C., Bayesian Data Analysis, di cui è imminente la terza edizione), ma il suo utilizzo è diverso.


dulcis in fundo è qui che volevo arrivare.
In definitiva, sempre limitandomi al contesto di regressione lineare normale e senza pretese di generalità:
mi ritrovo con la prior che è normale, la funzione di verosimiglianza di prima, ed una posterior che è normale.
Sulla seconda ho già detto, sulla prima posso ragionare di una sorta di p-value a priori perché una zeta posso tranquillamente costruirla (anche se non è proprio una statistica test). Solo qui, dove si può ragionare direttamente di probabilità, il numero che trovo sarà da interpretare come: la probabilità che, data la prior, il valore del parametro sia in valore assoluto maggiore o uguale di quello che sottopongo a test (ovvero ho testato una nulla di uguaglianza). Un ragionamento analogo lo posso fare anche sulla posterior che in realtà è quello che interessa.
In questo modo ho una lettura facile e diretta di:
1) una probabilità a priori dell'ipotesi
2) un p-value classico sull'ipotesi stessa
3) una probabilità a posteriori sull'ipotesi

Il tutto è poco più di una congettura che per adesso numeri alla mano mi sembra tornare. Non ti pare intrigante?
Io insisto sul p-value perché è meravigliosamente facile da leggere ... senza doversi riferire a statistiche test funzioni di verosimiglianza bayes factor e quant'altro.

markowitz
"Sergio":


[quote="markowitz"]Al netto di questo mi sento di dire che, almeno nel contesto di regressione lineare normale, l'inferenza classica si può fare; e per le ipotesi sui singoli parametri mi posso ricondurre ad un test zeta, lo stesso del modello OLS con residui normali omoschedastici a varianza nota.

Varianza nota?
Non vorrei che sotto sotto ci fosse la necessità di una distinzione tra regressione su piccoli campioni, dove si usano i test \( t \), e regressione su grandi campioni, dove si usano i test \( z \) e si dimostra che vari test conducono asintoticamente agli stessi risultati.
[/quote]
La varianza nota avrebbe un senso ovvero: data questa nella regressione OLS anche in piccoli campioni posso ragionare di zeta e Wald invece che di t ed F. Però non so se vale lo stesso nel contesto ML dove la convergenza in distribuzione degli stimatori ad una normale è garantita solo asintoticamente. Comunque come accennavo prima lasciamo stare questioni cavillari ... facciamola facile ... in realtà intendo ragionare di grandi campioni così ci togliamo un po di problemi.



"Sergio":
Postilla.

[quote="markowitz"]Io insisto sul p-value perché è meravigliosamente facile da leggere ... senza doversi riferire a statistiche test funzioni di verosimiglianza bayes factor e quant'altro.

Io considero il p-value una schifezza :wink:

Un p-value piccolo, quindi, non ti dice nulla su \( \beta_1 \) se non che lo puoi ipotizzare diverso da zero.
Il punto è: quanto diverso da \( 0 \)? Anche \( 0.000001 \) è diverso da zero. Anche \( 1000000 \) è diverso da zero.
Il p-value non ti dice in quale delle due situazioni ti trovi. E non te lo dice proprio perché la relativa informazione è "annegata" nella costruzione di una statistica test che, per definizione, ha una distribuzione non dipendente dal valore del parametro.
Se vuoi avere un'idea del valore credibile di \( \beta_1 \) devi guardare insieme alla stima puntuale e al suo standard error, ovvero all'intervallo di confidenza.
Dopo di che guardare al p-value diventa assolutamente inutile: se hai un p-value piccolo hai un intervallo di confidenza che non comprende lo zero, e viceversa. Ma l'intervallo di confidenza ti dice molto di più.[/quote]

In parte convengo con quello che dici, infatti stima puntuale ed errore standard della stessa restano le informazioni base con cui valutare la coerenza di quant'altro dire.
Tuttavia il concetto generale di p-value è comodissimo nel seguente senso:
ci troviamo continuamente nella necessità di dover testare un'ipotesi che definiamo (secondo me infelicemente perché porta confusione) nulla. Da qui, rimaniamo nell'inferenza classica, abbiamo una stima puntuale ed un errore standard, poi partendo da un livello di significatività del test prendiamo i valori critici e ragioniamo di intervalli di confidenza dove però abbiamo bisogno di riferirci ad una statistica test; ovvero abbiamo tutto per ragionare sull'ipotesi.
Peccato però che in generale, come ben sai, i valorii critici non sono sempre quelli di una zeta che sappiamo a memoria ma ne abbiamo una miriade. Ovvero stima puntuale ed errore standard non sono sufficienti dobbiamo arrivare ad un intervallo di confidenza prima di espimerci sull'ipotesi. Poi anche li, accettiamo ? rifiutiamo? alla fine dipende dalla distanza tra valore sotto ipotesi e stima puntuale, ma nel linguaggio della verifica d'ipotesi si dice che dipende dal livello di significatività del test; è quale scelgo? qual'è il minimo livello di significatività che mi porta al limite del rifiuto? proprio quello detto osservato, ovvero il p-value !
E' chiaro che siamo in un ragionamento circolare, e se uno ha tutti questi concetti ben saldi in mente, anche senza p-value, non si perderà (lasciamo poi stare discorsi sulla potenza del test). Tuttavia ho notato che quando si parla a persone che non hanno o hanno perso familiarità con l'inferenza statistica, ragionando di un'ipotesi c'è solo una cosa che vogliono sapere:
E' vera o è falsa?!
Lo statistico di turrno DEVE dire che non ci sono certezze (ci sono invece incertezze che giungono da molte direzioni)... però se vuole farsi capire al volo (senza stare a badare troppo ai dettagli, in cui magari scendere dopo) dovrebbe dare una qualche misura di probabilità sull'ipotesi stessa. Il p-value va incontro a quest'esigenza, per questo mi è subito piaciuto. Secondo me anche gli statistici bayesiani dovrebbero andare incontro a quest'esigenza.
Da qui la congettura a cui ero arrivato.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.