Quale distribuzione?
Un kit di test casalingo a basso costo per una malattia trasmissibile è in fase di sperimentazione per valutare la sua sensibilità \( \pi \), cioè la probabilità di mostrare risultati positivi quando la malattia è effettivamente presente. Ognuno degli \(n\) pazienti con la malattia confermata viene testato con il kit ripetutamente, fino al primo risultato positivo. Assumiamo che \(\pi\) sia lo stesso per ogni paziente, e che i singoli test siano indipendenti. Sia \( X_i\) il numero di risultati negativi prima del primo positivo per il paziente \(i\).
a) Qual'è la distribuzione di \(X_i\)?
b) Scrivere la log-likelihood, e calcolare il MLE (maximum likelihood estimation)
c) Dare un intervallo di confidenza approssimato di tipo Wald per il parameto \( \pi \) per un \( \alpha \) dato.
Allora sarà semplice ma non so come trovare la distribuzione \( X_i\), che mi serve poi per fare gli altri punti, qualcuno potrebbe aiutarmi?
a) Qual'è la distribuzione di \(X_i\)?
b) Scrivere la log-likelihood, e calcolare il MLE (maximum likelihood estimation)
c) Dare un intervallo di confidenza approssimato di tipo Wald per il parameto \( \pi \) per un \( \alpha \) dato.
Allora sarà semplice ma non so come trovare la distribuzione \( X_i\), che mi serve poi per fare gli altri punti, qualcuno potrebbe aiutarmi?
Risposte
Okay direi che \( X_1,\ldots,X_n \sim Geom(\pi ) \) però non saprei come dimostrarlo, cioé ad intuito nel senso che è la geometrica che esprime il fatto che si osservino \( X_i \) fallimenti prima di un successo.
Quindi \( f(X_i,\pi) = \pi (1-\pi)^{X_i} \)
Da cui
\[ L(\pi) = \prod_{i=1}^{n} f(X_i,\pi) = \prod_{i=1}^{n} \pi (1-\pi)^{X_i} \]
e si ha dunque
\[ \ell(\pi) = n \log \pi + \log(1-\pi) \sum_{i=1}^{n} X_i = n \log \pi + \log(1-\pi) n \overline{X} \]
da cui
\[ \frac{d}{d\pi} \ell(\pi) = \frac{n}{\pi} - \frac{ n \overline{X}}{1-\pi}\]
che ha come radice
\[ \widehat{\pi} = \frac{n}{n+n \overline{X}} \]
che è un massimo effettivamente perché la derivata seconda è sempre negativa, infatti
\[ \frac{d^2}{d^2\pi} \ell(\pi)= -\frac{n}{\pi^2} - \frac{ n \overline{X}}{(1-\pi)^2}\]
Per il punto c) invece mmm ci devo pensare ancora un attimo. Ma non ho troppo ben capito cosa mi chieda.
Quindi \( f(X_i,\pi) = \pi (1-\pi)^{X_i} \)
Da cui
\[ L(\pi) = \prod_{i=1}^{n} f(X_i,\pi) = \prod_{i=1}^{n} \pi (1-\pi)^{X_i} \]
e si ha dunque
\[ \ell(\pi) = n \log \pi + \log(1-\pi) \sum_{i=1}^{n} X_i = n \log \pi + \log(1-\pi) n \overline{X} \]
da cui
\[ \frac{d}{d\pi} \ell(\pi) = \frac{n}{\pi} - \frac{ n \overline{X}}{1-\pi}\]
che ha come radice
\[ \widehat{\pi} = \frac{n}{n+n \overline{X}} \]
che è un massimo effettivamente perché la derivata seconda è sempre negativa, infatti
\[ \frac{d^2}{d^2\pi} \ell(\pi)= -\frac{n}{\pi^2} - \frac{ n \overline{X}}{(1-\pi)^2}\]
Per il punto c) invece mmm ci devo pensare ancora un attimo. Ma non ho troppo ben capito cosa mi chieda.
"3m0o":
a) Qual'è la distribuzione di \(X_i\)?
Non è la geometrica? (con valore iniziale 0 invece del forse più comune 1, ma si può fare)
Io farei cosi, potreste dirmi se vi sembra giusto
Abbiamo che la distribuzione geometrica è una famiglia esponenziale a un parametro. Abbiamo quindi
\[ f(x,\pi) = \exp \left( \eta(\pi) T(x) - d(\pi) + S(x) \right) \]
Sia \( \widehat{\pi}_n \) il MLE di \( \pi \), e sia \[ \widehat{J}_n = nJ( \widehat{\pi}_n) = n \frac{d''( \widehat{\pi}_n)\eta'( \widehat{\pi}_n) -d'(\widehat{\pi}_n)\eta''(\widehat{\pi}_n)}{\eta'(\widehat{\pi}_n)} \]
allora abbiamo un intervallo di confidenza bilaterale \( [L(X_1,\ldots,X_n) , U(X_1,\ldots,X_n)] \) con soglia di confidenza \(1-\alpha \) dove
\[ L(X_1,\ldots,X_n) = \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \]
\[ U(X_1,\ldots,X_n) = \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \]
mentre nel caso di un intervallo unilaterale abbiamo \( [ L(X_1,\ldots,X_n), \infty) \), e \( (-\infty, U(X_1,\ldots,X_n)] \) dove
\[ L(X_1,\ldots,X_n) = \widehat{\pi} - z_{1-\alpha} \widehat{J}_n^{-1/2} \]
\[ U(X_1,\ldots,X_n) = \widehat{\pi} + z_{1-\alpha} \widehat{J}_n^{-1/2} \]
e dove \( z_{1-\beta} \) indica il \( \beta\)-quantile della distribuzione geometrica.
Verifichiamo il caso bilaterale:
\[ \mathbb{P}\left( \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \leq \pi \leq \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \right) \]
\[ = \mathbb{P}\left( - z_{1-\alpha/2} \leq \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \leq z_{1-\alpha/2} \right) \]
\[ = \mathbb{P}\left( z_{\alpha/2} \leq \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \leq z_{1-\alpha/2} \right) \]
\[ = F_n(z_{1-\alpha/2}) - F_n(z_{\alpha/2}) + \mathbb{P}\left( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) = z_{\alpha/2} \right) \]
dove \(F_n \) è la funzione di ripartizione di \( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \), inoltre abbiamo usato il fatto che \( z_{\alpha/2} =- z_{1-\alpha/2} \) per un teorema abbiamo che \( F_n(x) \to \Phi(x) \) per ogni \( x \in \mathbb{R} \), dove \( \Phi \) è la funzione di ripartizione di \(N(0,1) \). Inoltre abbiamo che
\[ \mathbb{P}\left( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) = z_{\alpha/2} \right) \to 0 \]
dunque abbiamo che
\[ \mathbb{P}\left( \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \leq \pi \leq \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \right) \to \Phi(z_{1-\alpha/2}) - \Phi(z_{\alpha/2}) \]
\[ = 1- \alpha/2 - \alpha/2 = 1 - \alpha \]
pertanto l'intervallo sopracitato è l'intervallo di confidenza approssimativo con soglia \(1-\alpha \).
In modo simile dimostriamo i casi unilaterali.
Abbiamo che la distribuzione geometrica è una famiglia esponenziale a un parametro. Abbiamo quindi
\[ f(x,\pi) = \exp \left( \eta(\pi) T(x) - d(\pi) + S(x) \right) \]
Sia \( \widehat{\pi}_n \) il MLE di \( \pi \), e sia \[ \widehat{J}_n = nJ( \widehat{\pi}_n) = n \frac{d''( \widehat{\pi}_n)\eta'( \widehat{\pi}_n) -d'(\widehat{\pi}_n)\eta''(\widehat{\pi}_n)}{\eta'(\widehat{\pi}_n)} \]
allora abbiamo un intervallo di confidenza bilaterale \( [L(X_1,\ldots,X_n) , U(X_1,\ldots,X_n)] \) con soglia di confidenza \(1-\alpha \) dove
\[ L(X_1,\ldots,X_n) = \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \]
\[ U(X_1,\ldots,X_n) = \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \]
mentre nel caso di un intervallo unilaterale abbiamo \( [ L(X_1,\ldots,X_n), \infty) \), e \( (-\infty, U(X_1,\ldots,X_n)] \) dove
\[ L(X_1,\ldots,X_n) = \widehat{\pi} - z_{1-\alpha} \widehat{J}_n^{-1/2} \]
\[ U(X_1,\ldots,X_n) = \widehat{\pi} + z_{1-\alpha} \widehat{J}_n^{-1/2} \]
e dove \( z_{1-\beta} \) indica il \( \beta\)-quantile della distribuzione geometrica.
Verifichiamo il caso bilaterale:
\[ \mathbb{P}\left( \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \leq \pi \leq \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \right) \]
\[ = \mathbb{P}\left( - z_{1-\alpha/2} \leq \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \leq z_{1-\alpha/2} \right) \]
\[ = \mathbb{P}\left( z_{\alpha/2} \leq \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \leq z_{1-\alpha/2} \right) \]
\[ = F_n(z_{1-\alpha/2}) - F_n(z_{\alpha/2}) + \mathbb{P}\left( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) = z_{\alpha/2} \right) \]
dove \(F_n \) è la funzione di ripartizione di \( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \), inoltre abbiamo usato il fatto che \( z_{\alpha/2} =- z_{1-\alpha/2} \) per un teorema abbiamo che \( F_n(x) \to \Phi(x) \) per ogni \( x \in \mathbb{R} \), dove \( \Phi \) è la funzione di ripartizione di \(N(0,1) \). Inoltre abbiamo che
\[ \mathbb{P}\left( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) = z_{\alpha/2} \right) \to 0 \]
dunque abbiamo che
\[ \mathbb{P}\left( \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \leq \pi \leq \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \right) \to \Phi(z_{1-\alpha/2}) - \Phi(z_{\alpha/2}) \]
\[ = 1- \alpha/2 - \alpha/2 = 1 - \alpha \]
pertanto l'intervallo sopracitato è l'intervallo di confidenza approssimativo con soglia \(1-\alpha \).
In modo simile dimostriamo i casi unilaterali.
"3m0o":
Per il punto c) invece mmm ci devo pensare ancora un attimo. Ma non ho troppo ben capito cosa mi chieda.
Una nota proprietà degli stimatori di massima verosimiglianza è appunto che essi sono asintoticamente normali con una certa media ed una certa varianza (che dovresti conoscere). A questo punto puoi calcolare un intervallo di confidenza approssimato usando questa gaussiana.
C'è un typo nel simbolo di derivata seconda, correggilo se vuoi.
"tommik":
Una nota proprietà degli stimatori di massima verosimiglianza è appunto che essi sono asintoticamente normali con una certa media ed una certa varianza (che dovresti conoscere). A questo punto puoi calcolare un intervallo di confidenza approssimato usando questa gaussiana.
Intendi quello che ho fatto qui sopra o altro?
"tommik":
C'è un typo nel simbolo di derivata seconda, correggilo se vuoi.
Perdonami ma non lo vedo
"3m0o":
\[ \frac{d^2}{d^2\pi} \ell(\pi) \]
1. può esserti utile questo topic. Ti puoi fermare alla distribuzione asintotica dello stimatore di Max Verosimiglianza.
2. la derivata seconda non si dovrebbe scrivere così?
$d^2/(d pi^2)l(pi)$
o ancora meglio
$partial^2/(partial pi^2 )l(pi)$
2. la derivata seconda non si dovrebbe scrivere così?
$d^2/(d pi^2)l(pi)$
o ancora meglio
$partial^2/(partial pi^2 )l(pi)$
"tommik":
1. può esserti utile questo topic. Ti puoi fermare alla distribuzione asintotica dello stimatore di Max Verosimiglianza.
Grazie l'ho letto, presumo quindi che non intendevi la stessa cosa che ho fatto io.
Ma comunque credo vada bene come ho proceduto io, sbaglio?
"tommik":
2. la derivata seconda non si dovrebbe scrivere così?
$d^2/(d pi^2)l(pi)$
o ancora meglio
$partial^2/(partial pi^2 )l(pi)$
Ah... hai ragione.
"3m0o":
Ma comunque credo vada bene come ho proceduto io, sbaglio?
sbagli. Ti chiede espressamente un intervallo approssimato. Infatti al punto 2) ti chiede di calcolare appunto l'MLE
Lo stimatore di max verosimiglianza $hat(theta)$ ha distribuzione asintotica normale
$\sqrt(nI_X(\theta))[\hat(theta)-theta]dot ~ N(0;1)$
Per un riferimento veloce, questa dispensina al paragrafo 2.1.3
Per l'utilizzo di Wald (che poi è la stessa cosa della dispensina sopra) vedi la definizione del test di Wald
Se segui il mio topic passo passo hai anche la soluzione + il metodo delta che ti verrà sicuramente utile in futuro
Ma scusa, se abbiamo un pivo approssimativo \( g(X_1,\ldots,X_n,\theta) \to Y \) in distribuzione possiamo costruire un intervallo di confidenza approssimativo siccome abbiamo che se \(q_1,q_2 \) sono i quantili di \(F_Y \) tale che
\[ \mathbb{P}[q_1 \leq Y \leq q_2] = 1-\alpha \]
allora \( \mathbb{P}(q_1 \leq g(X_1,\ldots,X_n,\theta) \leq q_2) \to 1- \alpha \)
E nel mio libro c'è la seguente proposizione: Pivots approssimativo di Wald
Sia \( X_1,\ldots,X_n \) un campione iid con una stessa distribuzione e funzione di densità/massa \(f(x,\theta) \) che appartiene ad una famiglia esponenziale non degenere a 1 parametro.
\[ f(x,\theta) = \exp( \eta(\theta)T(x)-d(\theta)+(x) ) \]
con \(x \in \mathcal{X} , \theta \in \Theta \).
Supponiamo che
1. Lo spazio dei parametri \( \Theta \subset \mathbb{R} \) sia un insieme aperto
2. La funzione \( \eta \) sia una biiezione due volte continuamente derivabile tra \( \Theta \) e \( \eta(\Theta) \).
Sia \( \widehat{\theta}_n \) lo stimatore di massimo verosomiglianza di \( \theta \) e \( \widehat{J}_n \) definito come nel mio commento sopra. Definiamo
\[ g(X_1,\ldots,X_n, \theta) := \widehat{J}_n^{1/2} ( \widehat{\theta}_n- \theta) \]
allora
\[ g(X_1,\ldots,X_n, \theta) \to N(0,1) \]
in distribuzione, e abbiamo dunque che \(g \) è un pivot approssimativo per \( \theta \).
Da questo c'è pure nel libro l'esercizio di dimostrare che gli Intervalli di confidenza approssimativi di Wald sono quelli che ho scritto io.
Non capisco dove sbaglio.
\[ \mathbb{P}[q_1 \leq Y \leq q_2] = 1-\alpha \]
allora \( \mathbb{P}(q_1 \leq g(X_1,\ldots,X_n,\theta) \leq q_2) \to 1- \alpha \)
E nel mio libro c'è la seguente proposizione: Pivots approssimativo di Wald
Sia \( X_1,\ldots,X_n \) un campione iid con una stessa distribuzione e funzione di densità/massa \(f(x,\theta) \) che appartiene ad una famiglia esponenziale non degenere a 1 parametro.
\[ f(x,\theta) = \exp( \eta(\theta)T(x)-d(\theta)+(x) ) \]
con \(x \in \mathcal{X} , \theta \in \Theta \).
Supponiamo che
1. Lo spazio dei parametri \( \Theta \subset \mathbb{R} \) sia un insieme aperto
2. La funzione \( \eta \) sia una biiezione due volte continuamente derivabile tra \( \Theta \) e \( \eta(\Theta) \).
Sia \( \widehat{\theta}_n \) lo stimatore di massimo verosomiglianza di \( \theta \) e \( \widehat{J}_n \) definito come nel mio commento sopra. Definiamo
\[ g(X_1,\ldots,X_n, \theta) := \widehat{J}_n^{1/2} ( \widehat{\theta}_n- \theta) \]
allora
\[ g(X_1,\ldots,X_n, \theta) \to N(0,1) \]
in distribuzione, e abbiamo dunque che \(g \) è un pivot approssimativo per \( \theta \).
Da questo c'è pure nel libro l'esercizio di dimostrare che gli Intervalli di confidenza approssimativi di Wald sono quelli che ho scritto io.
Non capisco dove sbaglio.
Sì scusa è la stessa cosa...ho letto ciò che hai scritto troppo frettolosamente
OK. Ma avrei una domanda, quale intervallo scegliere? Bilaterale? Unilaterale destro? sinistro?