Domanda P value
Ciao a tutti! Avrei una domanda relativa al concetto di p value dei test d'ipotesi..
Per quanto ne so valgono le seguenti definizioni
$\alpha = P( text{errore del I tipo}) = P(text{rifiutare H | H vera}) $
$ text{P-value} = P(text{dati osservati | H vera}) $
Con $ H$ ipotesi nulla.
In altre parole il P-value é la probabilitá di osservare i dati del campione (o dei dati piú "estremi") supponendo vera l'ipotesi nulla.
Inoltre rifiutiamo $H$ se la statistica test $U$ assume un valore appartenente alla regione critica.
Ora io non ho capito come mai dobbiamo rifiutare $H$ se $text{P-value} < \alpha $. Intuitivamente capisco che possa aver senso rifiutare $H$ se i dati osservati sono molto improbabili (e quindi malamente spiegati dall'ipotesi nulla) ma, fino a prova contraria, ció che conta é il valore assunto dalla statistica test.
In altre parole mi interessa dimostrare che le due condizioni di rifiuto da me citate sono equivalenti.
Grazie dell'aiuto!
Per quanto ne so valgono le seguenti definizioni
$\alpha = P( text{errore del I tipo}) = P(text{rifiutare H | H vera}) $
$ text{P-value} = P(text{dati osservati | H vera}) $
Con $ H$ ipotesi nulla.
In altre parole il P-value é la probabilitá di osservare i dati del campione (o dei dati piú "estremi") supponendo vera l'ipotesi nulla.
Inoltre rifiutiamo $H$ se la statistica test $U$ assume un valore appartenente alla regione critica.
Ora io non ho capito come mai dobbiamo rifiutare $H$ se $text{P-value} < \alpha $. Intuitivamente capisco che possa aver senso rifiutare $H$ se i dati osservati sono molto improbabili (e quindi malamente spiegati dall'ipotesi nulla) ma, fino a prova contraria, ció che conta é il valore assunto dalla statistica test.
In altre parole mi interessa dimostrare che le due condizioni di rifiuto da me citate sono equivalenti.
Grazie dell'aiuto!
Risposte
"Koller":
Ora io non ho capito come mai dobbiamo rifiutare $H$ se $text{P-value} < \alpha $.
dunque per definire il pvalue (probabilità di osservare i dati più estremi dato $H_(0)$) occorre prima contestualizzare il test; il test può essere:
a) bilaterale
b) unilaterale sinistro
c) unilaterale destro.
Supponiamo che il test sia unilaterale destro. In questo caso il pvalue è definito come $P(X>x|H_(0))$
Supponiamo ora che la regione di rifiuto sia la seguente:
$C:{sum_(i)X_(i)>k}$ con un'ampiezza del test pari a $P{sum_(i)X_(i)>k|H_(0)}=alpha=10%$
Se il pvalue è minore di $alpha$ significa che siamo nella regione di rifiuto, come dovresti agevolmente comprendere dal seguente esempio grafico dove a puro titolo di esempio ho supposto un Pvalue=5%

fammi sapere se ora hai capito e tieni presente che questo concetto è fondamentale per capire come affronatare i problemi di prova delle ipotesi
Innanzitutto grazie per avermi risposto! se con $X$ hai indicato lo statistica test e con $x$ il valore dello statistica test OSSERVATO nei dati io non ho capito cosa sia la sommatoria degli $X_i$
"Koller":
Innanzitutto grazie per avermi risposto! se con $X$ hai indicato lo statistica test e con $x$ il valore dello statistica test OSSERVATO nei dati io non ho capito cosa sia la sommatoria degli $X_i$
la notazione $P(X>x)$ è generica ed indica la probabilità che la variabile $X$ sia maggiore di un determinato valore $x$.
Quando si fa un test, esso viene basato su una determinata statistica campionaria.....molto spesso uno stimatore sufficiente, es la somma dei dati campionari...o la media campionaria o altro.
A puro titolo di esempio ti ho fatto un caso molto comune in cui la regione di rifiuto è quella in cui la somma dei valori campionari sia maggiore di un valore critico.....
spero sia chiaro
**********************
facciamo un semplice esempio:
supponiamo che la distribuzione della popolazione sia una normale di varianza 1 e media non nota, ovvero
$X~ N(mu;1)$
e vogliamo provare l'ipotesi che
${{: ( H_(0):mu=0 ),( H_(1):mu=1 ) :}$
per fare ciò estraiamo un campione casuale che fornisce le seguenti rilevazioni;
$ul(X)={0,9;0,8;0,8;0,9}$
la media del campione è $bar(x)=0,85$
a conti fatti, utilizzando il lemma di Neyman Pearson, la regione di rifiuto relativa al test più potente è:
$C:{bar(x)>k}$
Nel nostro caso il pvalue è (basta standardizzare e cercare il valore sulle tavole della normale)
$P(Z>(0,85-0)sqrt(4)}=P{Z>1,7}=0,045$
quindi rifiutiamo l'ipotesi che la media della nostra distribuzione sia zero a livello $alpha=0,05$...ma accettiamo l'ipotesi che la media sia zero ad esempio a livello $alpha=0,01$
oltre al metodo del pvalue ne esiste anche un altro che è forse il più comune: potremmo ragionare anche diversamente, ovvero fissare l'errore di prima specie e andare a vedere qual è l'ascissa critica.
Se fissiamo $alpha=0,05$ avremo una regione critica del tipo
$P(bar(x)>k|0)=P{Z>(bar(x)-0)sqrt(4)}=0,05$
ovvero $bar(x)>(1,64)/2$
$bar(x)>0,82$
essendo $bar(x)=0,85$ rifiutiamo....
Se ho capito bene dunque affermare che il Pvalue é minore della probabilitá di errore del primo tipo significa, in base al grafico (in effetti molto eloquente), che la statistica in questione cade nella regione critica e che quindi si rifiuta l'ipotesi nulla. Questo ha molto senso e direi che chiarisce in pieno il mio dubbio. Grazie mille.
"Koller":
Ciao a tutti! Avrei una domanda relativa al concetto di p value dei test d'ipotesi..
Per quanto ne so valgono le seguenti definizioni
$ \alpha = P( text{errore del I tipo}) = P(text{rifiutare H | H vera}) $
$ text{P-value} = P(text{dati osservati | H vera}) $
Con $ H $ ipotesi nulla.
In altre parole il P-value é la probabilitá di osservare i dati del campione (o dei dati piú "estremi") supponendo vera l'ipotesi nulla.
Inoltre rifiutiamo $ H $ se la statistica test $ U $ assume un valore appartenente alla regione critica.
Ora io non ho capito come mai dobbiamo rifiutare $ H $ se $ text{P-value} < \alpha $. Intuitivamente capisco che possa aver senso rifiutare $ H $ se i dati osservati sono molto improbabili (e quindi malamente spiegati dall'ipotesi nulla) ma, fino a prova contraria, ció che conta é il valore assunto dalla statistica test.
In altre parole mi interessa dimostrare che le due condizioni di rifiuto da me citate sono equivalenti.
Grazie dell'aiuto!
Ed infatti lo sono!
Ovvero il p-value è funzione della statistica test osservata ... a volte sono in corrispondenza biunivoca.
Personalmente il p-value lo ritengo sempre da preferire visto che, essendo una probabilità, resta sempre compreso tra $0$ ed $1$ ... non è così semplice per le infinite possibili statistiche test.
In ogni caso le belle scritture che riporti, e riportano vari testi, mi hanno fatto arrovellare non poco ... e non sono certo l'unico. In effetti quelle scritture indicano probabilità che possono avere un sapore un po esoterico e per renderlo più chiaro bisognerebbe dire a chiare lettere che suppongono di lavorare con una ben definita distribuzione per una ben definita statistica test relativa ad una ben definita specificazione.