Sequenze di tentativi - intervallo di confidenza
Sto aiutando mio nipote con l'esame di Statistica per Economia, ed ha un problema, sulla carta facile, che mi ha causato qualche perplessità. Credo che sia facile perchè è tratto tra i primi problemi di un vecchio testo, ed in genere sono ordinati per difficoltà.
Problema. Sia [tex]\mu_n[/tex] il numero di successi in una sequenza di [tex]n[/tex] prove, con probabilità di successo [tex]p[/tex] per ciascuna prova.
a) Determinare, usando il principio di massima verosimiglianza, una stima per [tex]p[/tex]. Verificare la sua correttezza e consistenza. [Risp. [tex]p^*=\frac{\mu_n}{n}[/tex], è corretto e consistente]
b) Determinare un intervallo asintotico di confidenza per [tex]p[/tex] con coefficiente di confidenza [tex]1-2\alpha[/tex].
[Risp. [[tex]p^*-u_{\alpha}\sqrt{\displaystyle \frac{p^*}{n}(1-p^*)}[/tex], [tex]p^*+u_{\alpha}\sqrt{\displaystyle \frac{p^*}{n}(1-p^*)}[/tex], dove [tex]u_{\alpha}[/tex] soddisfa la condizione [tex]\displaystyle \frac{1}{\sqrt{2\pi}}\displaystyle \int_{-\infty}^{u_\alpha}e^{-u^2/2}du=1-\alpha[/tex]]
Nessuna difficoltà per la parte a).
Per la parte b), usando il teorema di de Moivre, si ha [tex]P(-u_\alpha \le \displaystyle \frac{\mu_n-np}{\sqrt{np(1-p)}} \le u_\alpha) \rightarrow \displaystyle \frac{1}{\sqrt{2\pi}}\displaystyle \int_{-u_\alpha}^{u_\alpha}e^{-u^2/2}du=1-2\alpha[/tex], e si tratta di risolvere per [tex]p[/tex] la diseguaglianza tra parentesi. Tuttavia, per ottenere la soluzione ho dovuto porre [tex]-u_\alpha \le \displaystyle \frac{\mu_n-np}{\sqrt{np^*(1-p^*)}} \le u_\alpha[/tex], cioè usare lo stimatore per [tex]p[/tex] al denominatore, con un passaggio che mi sembra a dir poco arbitrario. Vi vengono in mente considerazioni, o metodi di risoluzione, più convincenti?
Problema. Sia [tex]\mu_n[/tex] il numero di successi in una sequenza di [tex]n[/tex] prove, con probabilità di successo [tex]p[/tex] per ciascuna prova.
a) Determinare, usando il principio di massima verosimiglianza, una stima per [tex]p[/tex]. Verificare la sua correttezza e consistenza. [Risp. [tex]p^*=\frac{\mu_n}{n}[/tex], è corretto e consistente]
b) Determinare un intervallo asintotico di confidenza per [tex]p[/tex] con coefficiente di confidenza [tex]1-2\alpha[/tex].
[Risp. [[tex]p^*-u_{\alpha}\sqrt{\displaystyle \frac{p^*}{n}(1-p^*)}[/tex], [tex]p^*+u_{\alpha}\sqrt{\displaystyle \frac{p^*}{n}(1-p^*)}[/tex], dove [tex]u_{\alpha}[/tex] soddisfa la condizione [tex]\displaystyle \frac{1}{\sqrt{2\pi}}\displaystyle \int_{-\infty}^{u_\alpha}e^{-u^2/2}du=1-\alpha[/tex]]
Nessuna difficoltà per la parte a).
Per la parte b), usando il teorema di de Moivre, si ha [tex]P(-u_\alpha \le \displaystyle \frac{\mu_n-np}{\sqrt{np(1-p)}} \le u_\alpha) \rightarrow \displaystyle \frac{1}{\sqrt{2\pi}}\displaystyle \int_{-u_\alpha}^{u_\alpha}e^{-u^2/2}du=1-2\alpha[/tex], e si tratta di risolvere per [tex]p[/tex] la diseguaglianza tra parentesi. Tuttavia, per ottenere la soluzione ho dovuto porre [tex]-u_\alpha \le \displaystyle \frac{\mu_n-np}{\sqrt{np^*(1-p^*)}} \le u_\alpha[/tex], cioè usare lo stimatore per [tex]p[/tex] al denominatore, con un passaggio che mi sembra a dir poco arbitrario. Vi vengono in mente considerazioni, o metodi di risoluzione, più convincenti?
Risposte
Per costruire un intervallo di confidenza per [tex]p[/tex] potresti usare la t di Student, in cui fai uso della media campionaria [tex]np^*[/tex] e della varianza campionaria nota [tex]np^*(1-p^*)[/tex].
Poi, asintoticamente, la t di Student tende alla normale standard.
Poi, asintoticamente, la t di Student tende alla normale standard.
Confesso che il suggerimento non mi è del tutto chiaro. Per una sequenza di prove a probabilità finita la scelta naturale mi sembra la binomiale, e non saprei giustificare l'uso della t di Student (che di solito si usa in variabili con distribuzione normale) più di quanto sappia giustificare l'uso dello stimatore. Inoltre la perplessità è dovuta proprio all'apparente uso della varianza "campionaria" (lasciando la media come parametro), che non è richiesto nemmeno dalla necessità di rendere algebricamente risolvibile il problema, visto che in ogni caso ci si riconduce ad un'equazione di secondo grado.
PS. Ho trovato adottata anche questa definizione, per i grandi campioni, in cui si determina l'intervallo di confidenza in base a [tex]P(-z_\alpha \le \displaystyle \frac{\hat{\theta}-\theta}{\sigma_{\hat{\theta}}} \le z_\alpha) = 1 - 2\alpha[/tex]. La risoluzione dell'esercizio vi si conforma, ma confesso che ancora non mi sono chiari i criteri in base ai quali si può considerare la varianza non dipendente dal parametro ma assunta al valore campionario. Devo comunque ammettere che non ho grandi conoscenze di statistica (era studiata in margine al corso di Laboratorio di Fisica 1).
PS. Ho trovato adottata anche questa definizione, per i grandi campioni, in cui si determina l'intervallo di confidenza in base a [tex]P(-z_\alpha \le \displaystyle \frac{\hat{\theta}-\theta}{\sigma_{\hat{\theta}}} \le z_\alpha) = 1 - 2\alpha[/tex]. La risoluzione dell'esercizio vi si conforma, ma confesso che ancora non mi sono chiari i criteri in base ai quali si può considerare la varianza non dipendente dal parametro ma assunta al valore campionario. Devo comunque ammettere che non ho grandi conoscenze di statistica (era studiata in margine al corso di Laboratorio di Fisica 1).