[Teoria] Significatività e p-dei-dati
Buona sera,
Si definisce $alpha in (0,1)$ in modo tale che
dove $H_o : mu=mu_o$. Tutto ciò per un test bilaterale diventa
e, siccome supponiamo di commettere un errore di prima specie, $Z:=(bar(X)-mu_o)/(sigma/sqrt(n))~ mathcal(N)(0,1)$ ottenendo
Il problema, per me, inizia da proprio da qui: non riesco a capire i passaggi per ottenere
In sintesi:
ho capito che in questo modo non si può accetarre $H_o$ se $(bar(X)-mu_o)/(sigma/sqrt(n)) > z_(alpha/2)$ però, analiticamente, come si passa
EDIT: ho risolto
Ovvero, in conclusione, si calcola la probabilità che una normale standard teorica coincida o si discosti da una normale standard empirica (condizionata a $H_o$)
Si definisce $alpha in (0,1)$ in modo tale che
$P(\text{errore I specie})<=alpha$
$P(\text{rifiutare }H_o \text{ vera})<=alpha$
$P(\text{rifiutare }H_o \text{ vera})<=alpha$
dove $H_o : mu=mu_o$. Tutto ciò per un test bilaterale diventa
$P(|bar(X)-mu_o|>z_(alpha/2) sigma/sqrt(n))<=alpha$
e, siccome supponiamo di commettere un errore di prima specie, $Z:=(bar(X)-mu_o)/(sigma/sqrt(n))~ mathcal(N)(0,1)$ ottenendo
$P(|Z|>z_(alpha/2) )<=alpha$
$2P(Z>z_(alpha/2))<=alpha$
$2P(Z>z_(alpha/2))<=alpha$
Il problema, per me, inizia da proprio da qui: non riesco a capire i passaggi per ottenere
$P(|Z|>|(bar(X)-mu_o)/(sigma/sqrt(n))|)<=alpha$
$2P(Z>(bar(X)-mu_o)/(sigma/sqrt(n)))<=alpha$
$2P(Z>(bar(X)-mu_o)/(sigma/sqrt(n)))<=alpha$
In sintesi:
ho capito che in questo modo non si può accetarre $H_o$ se $(bar(X)-mu_o)/(sigma/sqrt(n)) > z_(alpha/2)$ però, analiticamente, come si passa
da $P(Z>z_(alpha/2))<=alpha/2$ a $P(Z>(bar(X)-mu_o)/(sigma/sqrt(n)))<=alpha/2$
EDIT: ho risolto
$P(Z>(bar(X)-mu_o)/(sigma/sqrt(n)))<=alpha/2=P(Z>z_(alpha/2))$
$A_((bar(X)-mu_o)/(sigma/sqrt(n))) <= A_(z_(alpha/2)) hArr (bar(X)-mu_o)/(sigma/sqrt(n))>z_(alpha/2)$
Ovvero, in conclusione, si calcola la probabilità che una normale standard teorica coincida o si discosti da una normale standard empirica (condizionata a $H_o$)

](/datas/uploads/forum/emoji/eusa_wall.gif)
Risposte
Dunque @Magma, non ho ben capito come pensi di aver risolto e comunque manca qualche "tassello" importante nella teoria sottostante. Dato che, come avrai capito anche dai recenti post, questo è un argomento che mi interessa parecchio, posto di seguito la soluzione completa del problema.
Iniziamo con un teorema fondamentale
Supponiamo di avere il seguente sistema di ipotesi
$H_0: theta in Theta_0$
$H_1: theta in Theta_1$
Con $Theta_0 uu Theta_1= Theta$
Allora il test UMP (Uniformly Most Powerful Test) è dato dalla seguente regione critica:
Rifiutiamo $H_0$ se e solo se
Con $k$ determinato in modo che
Vediamo quindi un esempio pratico (che poi è l'esempio che hai fatto tu)
Supponiamo che $X~ N(mu;sigma^2)$ con $sigma^2$ nota.
Supponiamo inoltre di voler sottoporre a verifica il seguente sistema di ipotesi utilizzando un campione casuale di ampiezza $n$ estratto da $X$
${{: ( H_0: mu=mu_0 ),( H_1: mu !=mu_0 ) :}$
$Sup_(theta in Theta_0)L(ul(x)|theta)=(1/(sigmasqrt(2pi)))^nExp{-1/(2sigma^2)sum_i(X_i-mu_0)^2}$
$Sup_(theta in Theta)L(ul(x)|theta)=(1/(sigmasqrt(2pi)))^nExp{-1/(2sigma^2)sum_i(X_i-bar(X))^2}$
e ciò in quanto, per definizione, il sup su tutto lo spazio campionario è proprio il valore della verosimiglianza in corrispondenza dello stimatore di massima verosimiglianza ($hat(mu)=bar(X)$)
Facendo il rapporto dei due sup otteniamo
$Exp{1/(2sigma^2)[sum_i(X_i-bar(X))^2-sum_i(X_i-mu_0)^2]}<=k$
Osservando che
$sum_i(X_i-mu_0)^2=sum_i(X_i-bar(X))^2+n(bar(X)-mu_0)^2$, sostituendo sopra e con pochi elementari passaggi algebrici si ottiene
$[(bar(X)-mu_0)/(sigma/sqrt(n))]^2> -2logk$
che è come dire
$|(bar(X)-mu_0)/(sigma/sqrt(n))|> h$
dove $h$ è il quantile della gaussiana standard in quanto la media campionaria, sotto ipotesi $H_0$, si distribuisce come una normale di media $mu_0$ e varianza $sigma^2/n$.
In conclusione, la regione di rifiuto del test è
$|(bar(X)-mu_0)/(sigma/sqrt(n))|> z_(alpha/2)$
in pratica si rifiuta quando la statistica test $Z_(stat)=(bar(X)-mu_0)/(sigma/sqrt(n))$ cade nelle code della Gaussiana Standard.....(es, con un livello di confidenza del 95%, quando $|Z_(stat)|>2$)
Sperando di averti scritto qualche cosa di interessante....ci dovremo risentire alla prossima puntata...quando farai lo stesso esempio ma con varianza ignota: qualche passaggio in più per derivare la regione critica sulla base di una $mathcal(T)$ di Student.
buona lettura
PS: faccio notare che la comprensione di questo post è di importanza fondamentale per capire tutte le formule che stanno alla base della Teoria della Prova delle Ipotesi.
Iniziamo con un teorema fondamentale
Supponiamo di avere il seguente sistema di ipotesi
$H_0: theta in Theta_0$
$H_1: theta in Theta_1$
Con $Theta_0 uu Theta_1= Theta$
Allora il test UMP (Uniformly Most Powerful Test) è dato dalla seguente regione critica:
Rifiutiamo $H_0$ se e solo se
$lambda(ul(x))=[Sup_(theta in Theta_0)L(ul(x)|theta)]/[Sup_(theta in Theta)L(ul(x)|theta)]<=k$
Con $k$ determinato in modo che
$Sup_(theta in Theta_0)P{lambda(ul(x))<=k}=alpha$
Vediamo quindi un esempio pratico (che poi è l'esempio che hai fatto tu)
Supponiamo che $X~ N(mu;sigma^2)$ con $sigma^2$ nota.
Supponiamo inoltre di voler sottoporre a verifica il seguente sistema di ipotesi utilizzando un campione casuale di ampiezza $n$ estratto da $X$
${{: ( H_0: mu=mu_0 ),( H_1: mu !=mu_0 ) :}$
$Sup_(theta in Theta_0)L(ul(x)|theta)=(1/(sigmasqrt(2pi)))^nExp{-1/(2sigma^2)sum_i(X_i-mu_0)^2}$
$Sup_(theta in Theta)L(ul(x)|theta)=(1/(sigmasqrt(2pi)))^nExp{-1/(2sigma^2)sum_i(X_i-bar(X))^2}$
e ciò in quanto, per definizione, il sup su tutto lo spazio campionario è proprio il valore della verosimiglianza in corrispondenza dello stimatore di massima verosimiglianza ($hat(mu)=bar(X)$)
Facendo il rapporto dei due sup otteniamo
$Exp{1/(2sigma^2)[sum_i(X_i-bar(X))^2-sum_i(X_i-mu_0)^2]}<=k$
Osservando che
$sum_i(X_i-mu_0)^2=sum_i(X_i-bar(X))^2+n(bar(X)-mu_0)^2$, sostituendo sopra e con pochi elementari passaggi algebrici si ottiene
$[(bar(X)-mu_0)/(sigma/sqrt(n))]^2> -2logk$
che è come dire
$|(bar(X)-mu_0)/(sigma/sqrt(n))|> h$
dove $h$ è il quantile della gaussiana standard in quanto la media campionaria, sotto ipotesi $H_0$, si distribuisce come una normale di media $mu_0$ e varianza $sigma^2/n$.
In conclusione, la regione di rifiuto del test è
$|(bar(X)-mu_0)/(sigma/sqrt(n))|> z_(alpha/2)$
in pratica si rifiuta quando la statistica test $Z_(stat)=(bar(X)-mu_0)/(sigma/sqrt(n))$ cade nelle code della Gaussiana Standard.....(es, con un livello di confidenza del 95%, quando $|Z_(stat)|>2$)
Sperando di averti scritto qualche cosa di interessante....ci dovremo risentire alla prossima puntata...quando farai lo stesso esempio ma con varianza ignota: qualche passaggio in più per derivare la regione critica sulla base di una $mathcal(T)$ di Student.
buona lettura
PS: faccio notare che la comprensione di questo post è di importanza fondamentale per capire tutte le formule che stanno alla base della Teoria della Prova delle Ipotesi.

"tommik":
Dunque @Magma, non ho ben capito come pensi di aver risolto
Infatti mi erano venuti altri dubbi

"tommik":
comunque manca qualche "tassello" importante nella teoria sottostante.
Sì, me ne rendo conto anche io: secondo me è una materia che viene spiegata con poco rigore
](/datas/uploads/forum/emoji/eusa_wall.gif)
Comunque adesso sto andando in facoltà, appena torno leggo la tua risposta!

"Magma":
Ovvero, in conclusione, si calcola la probabilità che una normale standard teorica coincida o si discosti da una normale standard empirica (condizionata a $ H_o $)![]()
Direi di no. Scritta così sembra che si parli di un test di adattamento, ma non è così.
Non ho seguito bene tutto quello che hai scritto ma penso che ti riferisca al contesto dei minimi quadrati più che a quello della massima verosimiglianza (che tommik ha spiegato egregiamente), o più semplicemente di ipotesi su medie campionarie.
Comunque sia, molto informalmente, direi che vai a controllare se il valore della statistica test (ne hai uno solo) è "compatibile" con quello che ti aspetteresti di osservare (nella logica del campionamento ripetuto e quindi come se di statistiche test ne potessi produrre molte) se lo stesso fosse generato da una distribuzione che stai ipotizzando valida (nel tuo caso la Normale standard). Quest'ultima è la distribuzione della statistica test costruita condizionando su $H_0$. Se il valore della statistica test era "difficile da osservare" allora rifiuti $H_0$ (e rischi di cadere nell'errore di prima specie). Diciamo che il succo è tutto qui. E bada che non vale solo nel caso che analizzi ma è proprio la logica generale (di Neyman Pearson) che funziona così.
"Magma":
Sì, me ne rendo conto anche io: secondo me è una materia che viene spiegata con poco rigore![]()
Su questo non hai tutti i torti ... tieni però conto che non è una materia agevole ed il fine tipicamente non è di formare statistici teorici ... si punta ad altro. Comunque sicuro è rischioso ed infatti a volte le conseguenze si vedono.
Eccomi
Allora devo dire che ho scoperto un mondo che non faceva (ho fatto l'esame proprio oggi
) del corso: ad esempio, sembrerà assurdo (forse), ma non si è mai parlato di UMP, dei minimi quadrati e né tantomeno di Neyman Pearson; si è fatto solo l'intervallo di confidenza per uno stimatore puntuale di massima-verosimiglianza.
@tommik: Il ragionamento a grandi linee l'ho capito e ho trovato anche un libro che sembrerebbe spiegare l'argomento bene Probabilità e Statistica: Appunti di teoria ed esercizi svolti - E. L. Piazza; lo conosci?
Il mio dubbio però è: perché vale

Allora devo dire che ho scoperto un mondo che non faceva (ho fatto l'esame proprio oggi

@tommik: Il ragionamento a grandi linee l'ho capito e ho trovato anche un libro che sembrerebbe spiegare l'argomento bene Probabilità e Statistica: Appunti di teoria ed esercizi svolti - E. L. Piazza; lo conosci?
Il mio dubbio però è: perché vale
$ P((bar(X)-mu_o)/(sigma/sqrt(n))>z_(alpha/2))<=alpha/2 hArr P(Z>(bar(X)-mu_o)/(sigma/sqrt(n)))<=alpha/2 qquad $ 

No il libro che indichi non lo conosco ma il ragionamento che ho fatto lo trovi pari pari su qualunque libro ben fatto di inferenza. La relazione di equivalenza che proponi non mi pare abbia molto senso:
$Z=(bar(X)-mu)/sigma sqrt(n)$
Quindi ti ritrovi con
$P(Z>Z)<=alpha/2$
Mentre ha senso la prima: $P(Z>z)<=alpha/2$
( z minuscola è un valore di Z)
L'hai presa da un libro o da appunti?
Se l'hai presa da appunti non starei tanto ad impazzire, anche perché l'approccio che ti hanno spiegato è del tutto fuorviante. Se, al contrario, l'hai presa da un testo occorrerebbe leggere per bene il contesto e capire cosa intende...
Per capire la prova di ipotesi devi partire da
1) lemma di Neyman-Pearson (ipotesi semplici)
2) rapporto di verosimiglianza generalizzato (quello che ti ho illustrato io per ipotesi composte)
3) rapporto di verosimiglianza monotono
Ecc ecc
$Z=(bar(X)-mu)/sigma sqrt(n)$
Quindi ti ritrovi con
$P(Z>Z)<=alpha/2$
Mentre ha senso la prima: $P(Z>z)<=alpha/2$
( z minuscola è un valore di Z)
L'hai presa da un libro o da appunti?
Se l'hai presa da appunti non starei tanto ad impazzire, anche perché l'approccio che ti hanno spiegato è del tutto fuorviante. Se, al contrario, l'hai presa da un testo occorrerebbe leggere per bene il contesto e capire cosa intende...
Per capire la prova di ipotesi devi partire da
1) lemma di Neyman-Pearson (ipotesi semplici)
2) rapporto di verosimiglianza generalizzato (quello che ti ho illustrato io per ipotesi composte)
3) rapporto di verosimiglianza monotono
Ecc ecc
"tommik":
La relazione di equivalenza che proponi non mi pare abbia molto senso:
$Z=(bar(X)-mu)/sigma sqrt(n)$
Quindi ti ritrovi con
$P(Z>Z)<=alpha/2$
Esattamente! Colpito e affondato. :smt023
"tommik":
Mentre ha senso la prima: $P(Z>z)<=alpha/2$
( z minuscola è un valore di Z)
L'hai presa da un libro o da appunti?
Se l'hai presa da appunti non starei tanto ad impazzire, anche perché l'approccio che ti hanno spiegato è del tutto fuorviante. Se, al contrario, l'hai presa da un testo occorrerebbe leggere per bene il contesto e capire cosa intende...
Sempre dallo Sheldon Ross, per l'ingegneria e le scienze :|
La formula esatta riportata dal libro è:
$|(bar(X)-mu)/sigma sqrt(n)|>z_(alpha/2) hArr P(Z>|(bar(X)-mu)/sigma sqrt(n)|)<=alpha/2$
ma dalla dimostrazione della ricerca della regione critica si ha:
$P(|bar(X)-mu_o|>c)<=alpha$
$1)$ $P((bar(X)-mu_o)/(sigma/sqrt(n))>c sqrt(n)/sigma)<=alpha/2$
$hArr c sqrt(n)/sigma = z_(alpha/2)$
$rArr c= z_(alpha/2) sigma/sqrt(n)$
$1)$ $P((bar(X)-mu_o)/(sigma/sqrt(n))>c sqrt(n)/sigma)<=alpha/2$
$hArr c sqrt(n)/sigma = z_(alpha/2)$
$rArr c= z_(alpha/2) sigma/sqrt(n)$
quindi io ho sostituito $c$ in $1)$
$P((bar(X)-mu_o)/(sigma/sqrt(n))>z_(alpha/2))<=alpha/2$
che però è tautologico per definizione di $z_(beta)=P(Z>z_beta), qquad beta in (0,1)$
"tommik":
Per capire la prova di ipotesi devi partire da
1) lemma di Neyman-Pearson (ipotesi semplici)
2) rapporto di verosimiglianza generalizzato (quello che ti ho illustrato io per ipotesi composte)
3) rapporto di verosimiglianza monotono
Ottimo, ti ringrazio! :smt023 :-D
"Magma":
Sempre dallo Sheldon Ross, per l'ingegneria e le scienze![]()
La formula esatta riportata dal libro è:
$|(bar(X)-mu)/sigma sqrt(n)|>z_(alpha/2) hArr P(Z>|(bar(X)-mu)/sigma sqrt(n)|)<=alpha/2$
Lo Sheldon Ross è un ottimo testo per il calcolo delle probabilità. Per la parte di inferenza leggerei altro.
Comunuque la formula così scritta è corretta e non è proprio ciò che avevi scritto tu.
Qui semplicemente intende che $|(bar(X)-mu)/sigma sqrt(n)|$ è la statistica test osservata e non la variabile...quindi è $z$ e la seconda parte della tua relazione di equivalenza ti viene
$P(Z>|z|)<=alpha/2$
Così è giusta e ti sta dicendo che se il valore osservato della statistica test, in valore assoluto, è maggiore del valore critico $z_(alpha/2)$ allora sei nella coda di destra della gaussiana dove l'area sottesa alla densità è pari a metà dell'errore di prima specie (l'altra metà dell'errore è nella coda di sinistra)
La difficoltà di capire questi concetti risiede in una spiegazione che, per essere il più semplice possibile, è ridotta ai minimi termini e rischia di essere ambigua, risultando poco comprensibile; per questo dico che è un approccio che non mi piace.
Ecco invece delle Ottime, ma davvero ottime dispense sintetiche per la parte di inferenza che riassumono i risultati dei maggiori testi di riferimento (fra cui anche lo Shedon Ross, ma per altre cose). In poche pagine trovi davvero TUTTO ciò che ti serve e ben spiegato. Inoltre, come sempre, nell'ultima pagina c'è la bibliografia con i maggiori testi da cui la dispensa è tratta; testi che ovviamente ti consiglio di leggere, anche perché la lettura delle sole dispense rischia di essere "troppo" sintetica.
ciao
Ti ringrazio per le dispense

Cercando alcune dispense riguardo le $sigma-\text{algebra}$ ho trovato questa http://users.dma.unipi.it/flandoli/AppuntiProb15-16.pdf, però è un concetto che viene dato per scontato
EDIT: Trovato http://www.mat.uniroma2.it/~caramell/did_0405/cap2.pdf
EDIT: Trovato http://www.mat.uniroma2.it/~caramell/did_0405/cap2.pdf