Verifica d'ipotesi p-valore

markowitz
Nella verifica d'ipotesi il p-valore ha una definizione ben precisa ma (come ovvio) molto tecnica e difficilmente comunicabile a chi non si e' mai interessato di inferenza statistica. In sostanza e' comunque corretto dire che un suo valore basso indica evidenza a sfavore dell'ipotesi nulla.
Quello che ha me interessa e' sapere se si e' (anche solo informalmente) autorizzzati a dire che:
il p-valore rappresenta la probabilita' che l'ipotesi nulla sia vera!

Io sinceramente suppongo di si. C'e' qualcuno che e' d'accordo con me e che magari possa indicarmi dei riferimenti a sostegno di questo argomento?

Viceversa se qualcuno ha opinione discordante puo' spiegarmi (in modo possibilmente dettagliato)le sue ragioni?

Grazie


[mod="Fioravante Patrone"]Usando potenti strumenti di editing ho convertito in miniuscolo :wink: [/mod]

Risposte
adaBTTLS1
[mod="adaBTTLS"]benvenut* nel forum.
devo chiederti di modificare il titolo ed il testo, perché nel forum usare tutte maiuscole equivale a gridare, e il gridare non è gradito.
puoi controllare tu stess* dando un'occhiata al regolamento.
ciao e buona permanenza.[/mod]

markowitz
Il titolo lo ho cambiato io, il testo non so chi. Ad ogni modo e la prima volta che mi capita di sentir dire che scrivere maiuscolo è, in qualche modo, forma di maleducazione. In ogni caso secondo me e più importante la sostanza della forma. Speriamo che qualcuno (ad esempio il caro Sergio) abbia risposte interessanti per il mio quesito.

Fioravante Patrone1
Il testo l'ho cambiato io. E c'è anche scritto esplicitamente.

[mod="Fioravante Patrone"]Neanche a me dà fastidio se uno scrive in maiuscolo. Penso sia un retaggio di tempi andati. E sono convinto che la sostanza sia di solito molto più importante della forma.
Ma c'è un regolamento e va rispettato. Dato che sono qui anche per questo, chiudo questo thread per 24 ore.[/mod]

Fioravante Patrone1
Repeat after me: “the p-value is NOT the probability the null hypothesis is true given the observed data”.
da:http://mark.reid.name/iem/the-earth-is-round.html

Ma, soprattutto, leggersi questo gioiellino: Cohen, J. (1994) The earth is round (P < .05). American Psychologist, 49, 997­1003
In pdf lo si trova qui:
http://www.projectimplicit.net/nosek/te ... /cohen.pdf

markowitz
Quanto da voi esposto è effettivamente convincente, siete riusciti a chiarire quello che per me era un dubbio. In definitiva vi ringrazio per le risposte.
Vorrei solamente puntualizzare che conoscevo anche prima, in modo meno formale, il significato di p-valore (ho i miei principali riferimenti a riguardo in: STATISTICA; Levine, Krehbiel, Berenson; APOGEO 2002; ed in: INTRODUZIONE ALL'ECONOMETRIA; Stock, Watson; PEARSON Prentice Hall 2005) ed in questi testi viene si data la definizione di p-valore in termini di livello di significatività osservata ma in sostanza non si soffermano sull'idea del condizionamento, come invece fatto nel pdf consigliato da Fioravante e nelle ultime righe della risposta di Sergio. Tale constatazione era sufficiente a risoolvere il problema.
L'errore logico che ho commesso era nel ritenere che siccome un p-valore alto è interpretabile come evidenza a favore della nulla e viceversa un p-valore basso è interpretabile come evidenza a favore dell'alternativa (ricordando che detto valore è comunque una misura di probabilità) pensavo si potesse interpretare come prob. che la nulla fosse corretta, ma non è così.
Ad ogni modo credo che sia eccessivo usare l'aggettivo "ovvio" se non altro perchè per prima cosa lo stesso pdf indicato nel link non avrebbe motivo di essere stato pubblicato se la risposta alla mia domanda fosse stata ovvia, ed inoltre ponendo la stessa domenda a ragazzi laureati a pieni voti in discipline di carattere scientifico non ho ottenuto risposte esaurienti.
In definitiva,specie in contesti spinosi come il calcolo delle probabilità, parole come: ovvio, banale e simili (non solo a mio parere) sarebbero da evitare.
Ad ogni modo vi ringrazio nuovamente per le risposte

markowitz
Devo necessariamente dire che io appartengo a quella categoria di persone che si pongono delle domande e cercano di ottenere delle risposte il più possibile fondate. Il "volgo" è una categoria molto diffusa ma, secondo me, a prescindere dai propri studi e dalla posizione che si ricopre, comprende tutte quelle persone che, più che porsi domande, ostentano sicurezza (ed anche arroganza) nelle risposte che danno senza in realtà conoscere gli argomenti di cui parlano. Situazione, peraltro, non molto diffusa nella statistica (ed in generale nelle scienze forti) quanto in temi come economia e giurisprudenza, dove molti soggetti (anche persone di un certo livello sociale) sono (illusoriamente) convinti di essere esperti, e di poter quindi sbeffeggiare e denigrare i "veri" esperti. Cosa che io non ho mai fatto. Alla luce di questo devo dire che, a mio parere, se l'obbiettivo è la diffusione e condivisione della conoscenza (come penso sia vero in questo forum da cui mi sono da poco iscritto), non si può prescindere dal tentativo di mettere a proprio agio l'interlocutore anche quando commette errori; comportarsi diversamente alimenta quella corrente secondo la quale la conoscenza tende a rimanere un "salotto per pochi". Per quello che mi riguarda concludo qui una polemica che non era, assolutamente, mia intenzione aprire.

Tornando a questioni più interessanti sarei felice di avere ancora delucidazioni, magari da parte delle persone che mi hanno precedentemente risposto, visto che godono di ottima preparazione.
Il punto è che, se ho ben capito, definendo $D=$ dati osservati; si è concluso che $p-value=P[D|H0]$ ovvero il p-value è la probabilità di osservare i dati effettivamente osservati data per vera l'ipotesi nulla.
Ma a questo punto, nonostante l'informazione sia interessante, converrete con me nel dire che a chi effettua il test, interesserebbe sapere se $H0$ è vera oppure no, per fare questo si usano i dati che offrono informazione, quindi: vorrebbe conoscere $P[H0|D]$, se il p-value risultasse indipendente da tale valore avrebbe ben poco potere informativo.
Se non erro si può dire che: $P[H0|D]=(P[D|H0]P[H0]) / (P[D|H0]P[H0] + P[D|H1]P

)$
A questo punto i termini non noti sono $P[H0]$ $P

$ e $P[D|H1]$
Adesso, l’$H1$ ho è vera o non lo è ma visto che non lo sappiamo, in termini preventivi ovvero senza informazione, mi sembra ragionevole poter ipotizzare $P[H0]=P

=0,5$
Quindi si ottiene: $P[H0|D]=(P[D|H0]) / (P[D|H0] + P[D|H1])$
Ovvero: $P[H0|D]=(p-value) / (p-value + P[D|H1])$
Quindi ammesso che un aumento del p-valore non comporti un aumento di $P[D|H1]$
(il che mi sembra ragionevole anzi mi sembra ragionevole una diminuzione)
si può comunque dire che se il p-valore sale anche $P[H0|D]$ sale, il che sarebbe confortante.

Vorrei sapere se questo ragionamento è corretto e se si, magari sapere che significato si può dare a $P[D|H1]$ e, magari, come individuare tale valore.

Altrimenti se il ragionamento non è corretto vorrei sapere come si può ottenere qualche informazione su $P[H0|D]$, quale relazione lo lega al p-valore (sia formale che concettuale)
ed individuare gli eventuali punti critici (possibilmente nei termini delle formule sopra, o simili)
che rendono impossibile andare oltre il p-valore.

Grazie.


Fioravante Patrone1
"markowitz":
io appartengo a quella categoria di persone che si pongono delle domande e cercano di ottenere delle risposte il più possibile fondate.


Adesso, l’$H1$ ho è vera o non lo è ma visto che non lo sappiamo, in termini preventivi ovvero senza informazione, mi sembra ragionevole poter ipotizzare $P[H0]=P

=0,5$


L'ipotesi $H_0$ è che se adesso bevo un sorso d'acqua non mi succede nulla di drammatico (diciamo nell'arco di pochi minuti).
L'ipotesi $H_1$ è che se adesso bevo un sorso d'acqua crepo (diciamo nell'arco di pochi minuti).
In termini preventivi assegno 0.5 di probabilità...
Uhm, sembra non tornare molto. Magari ciò spiega il perché del mantra che citavo qualche post fa.
O forse si potrebbe riflettere sul fatto che l'espressione "senza informazione" è un po' "thick". Io, per quel poco di esperienza che ho, la prenderei con le molle (anche piuttosto lunghe).

Non è che, oltre a porsi delle domande, varrebbe la pena di provare a riflettere un po' di più sulla fondatezza delle proprie "risposte"?

markowitz
Io d'abitudine ho visto scomodare test statistici solamente a riguardo di problemi per i quali abbiamo notevole incertezza. Ad esempio nella stima di un modello econometrico, correttamente specificato, ha senso chiedersi se il coefficente relativo ad un regressore sia, o meno, significativamente diverso da zero. E se preventivamente non ho informazione non mi sembra un'assurdità suppore (ripeto a priori) che la nulla e l'alternativa siano equiprobabili.
Nel caso illustrato dal signor Fioravante l'esperienza quotidiana stessa da informazione ed, anzi, in base ad una rilevazione statistica si potrebbe anche ricavare una sorta di approssimazione sul valore numerico della probabilità di stare male dopo pochi minuti bevendo un bicchiere d'aqua (qualche bottiglia "avvelenata" ogni tanto si trova). La considerazione è quindi fuori luogo, ed in ogni caso non da risposta alle domande poste.
A parte questo, dopo aver speso parole di apprezzamento per la qualità degli interventi precedentemente fatti (anche da lui) noto con rammarico che il signor Fioravante (che tra l'altro dovrebbe essere esempio di correttezza, pacatezza e moderazione) non ha spirito collaborativo ma, al contrario, si diverte a comportarsi con arroganza e deride gli interlocutori.
Il mio era solamente un tentativo di intuire quali fossero le cause che generano i problemi esposti, sperando in ulteriori chiarimenti. Tra l'altro quanto precedentemente scritto era frutto di un'idea messa giu in pochi minuti, non certo si aveva la pretesa di aver fatto un gran lavoro di statistica teorica. Dopodiché, se il signor Fioravante ha dei problemi personali con me, non è il caso di scrivere sul forum ma possiamo proseguire la conversazione al mio indirizzo e-mail: realesky@yahoo.it

OdisseoM
Per l'esattezza il p-value é la Probabilità che - se l'ipotesi nulla Ho é vera - i dati si presentino come quelli osservati o più sfavorevoli ancora all'ipotesi nulla stessa.


Per esempio, se sono state osservate tre sole croci in 13 lanci, il p-value é la probabilità di avere 3 croci o meno in 13 lanci se la moneta é buona ( Pc = 0,5 ).

markowitz
Voglio ringraziare Sergio per l’esaustiva risposta e per il riferimento che, quando potrò, cercherò di consultare.
Vorrei adesso solo spiegare perché, dopo aver capito il ruolo del condizionamento nel contesto del p-value, ho trovato interessante cercare di capire di più su $P(H0|D)$
Se ipotizziamo di interloquire con dei soggetti che sanno poco di statistica e probabilità (come la maggior parte delle persone); e se poniamo:
$H0=$ imputato colpevole; $H1=$ imputato innocente; $D=$ forti indizi a favore dell’$H0$.
Adesso se tramite una serie di passaggi logicamente valida dimostro che si ottiene:
$P(D|H0)=90%$ o comunque un valore arbitrariamente alto, il profano (e forse non solo) si potrebbe accorgere di un problema etico, ovvero, il risultato che porto parte da una sorta di presunzione di colpevolezza.
Se a tal punto dicessi $P(D|H0)=P(H0|D)$ o comunque potessi dire che, anche senza poter assegnare un valore numerico a $P(H0|D)$ si può dimostrare un’importante relazione diretta tra le due prob. il discorso sarebbe diverso perché mi porrei come “totalmente non prevenuto” nei confronti dell’$H0$.
In un processo gli indizi, come in economia i dati osservati, non sono (o almeno facciamo finta che non siano) oggetto di discussione; quindi la mia argomentazione sarebbe molto più convincente.
Mi interessava capire se tale relazione (sperabilmente positiva) tra le 2 prob. (da me impropriamente abbozzata e da Sergio posta in termini adeguati) fosse, in qualche modo, matematicamente fondata; o se fosse solo un “trucco da illusionista”.
Grazie per i chiarimenti.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.