Quale distribuzione?

Studente Anonimo
Studente Anonimo
Un kit di test casalingo a basso costo per una malattia trasmissibile è in fase di sperimentazione per valutare la sua sensibilità \( \pi \), cioè la probabilità di mostrare risultati positivi quando la malattia è effettivamente presente. Ognuno degli \(n\) pazienti con la malattia confermata viene testato con il kit ripetutamente, fino al primo risultato positivo. Assumiamo che \(\pi\) sia lo stesso per ogni paziente, e che i singoli test siano indipendenti. Sia \( X_i\) il numero di risultati negativi prima del primo positivo per il paziente \(i\).

a) Qual'è la distribuzione di \(X_i\)?
b) Scrivere la log-likelihood, e calcolare il MLE (maximum likelihood estimation)
c) Dare un intervallo di confidenza approssimato di tipo Wald per il parameto \( \pi \) per un \( \alpha \) dato.

Allora sarà semplice ma non so come trovare la distribuzione \( X_i\), che mi serve poi per fare gli altri punti, qualcuno potrebbe aiutarmi?

Risposte
Studente Anonimo
Studente Anonimo
Okay direi che \( X_1,\ldots,X_n \sim Geom(\pi ) \) però non saprei come dimostrarlo, cioé ad intuito nel senso che è la geometrica che esprime il fatto che si osservino \( X_i \) fallimenti prima di un successo.

Quindi \( f(X_i,\pi) = \pi (1-\pi)^{X_i} \)
Da cui
\[ L(\pi) = \prod_{i=1}^{n} f(X_i,\pi) = \prod_{i=1}^{n} \pi (1-\pi)^{X_i} \]
e si ha dunque
\[ \ell(\pi) = n \log \pi + \log(1-\pi) \sum_{i=1}^{n} X_i = n \log \pi + \log(1-\pi) n \overline{X} \]

da cui
\[ \frac{d}{d\pi} \ell(\pi) = \frac{n}{\pi} - \frac{ n \overline{X}}{1-\pi}\]
che ha come radice
\[ \widehat{\pi} = \frac{n}{n+n \overline{X}} \]
che è un massimo effettivamente perché la derivata seconda è sempre negativa, infatti
\[ \frac{d^2}{d^2\pi} \ell(\pi)= -\frac{n}{\pi^2} - \frac{ n \overline{X}}{(1-\pi)^2}\]

Per il punto c) invece mmm ci devo pensare ancora un attimo. Ma non ho troppo ben capito cosa mi chieda.

ghira1
"3m0o":

a) Qual'è la distribuzione di \(X_i\)?

Non è la geometrica? (con valore iniziale 0 invece del forse più comune 1, ma si può fare)

Studente Anonimo
Studente Anonimo
Io farei cosi, potreste dirmi se vi sembra giusto

Abbiamo che la distribuzione geometrica è una famiglia esponenziale a un parametro. Abbiamo quindi
\[ f(x,\pi) = \exp \left( \eta(\pi) T(x) - d(\pi) + S(x) \right) \]

Sia \( \widehat{\pi}_n \) il MLE di \( \pi \), e sia \[ \widehat{J}_n = nJ( \widehat{\pi}_n) = n \frac{d''( \widehat{\pi}_n)\eta'( \widehat{\pi}_n) -d'(\widehat{\pi}_n)\eta''(\widehat{\pi}_n)}{\eta'(\widehat{\pi}_n)} \]
allora abbiamo un intervallo di confidenza bilaterale \( [L(X_1,\ldots,X_n) , U(X_1,\ldots,X_n)] \) con soglia di confidenza \(1-\alpha \) dove
\[ L(X_1,\ldots,X_n) = \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \]
\[ U(X_1,\ldots,X_n) = \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \]
mentre nel caso di un intervallo unilaterale abbiamo \( [ L(X_1,\ldots,X_n), \infty) \), e \( (-\infty, U(X_1,\ldots,X_n)] \) dove
\[ L(X_1,\ldots,X_n) = \widehat{\pi} - z_{1-\alpha} \widehat{J}_n^{-1/2} \]
\[ U(X_1,\ldots,X_n) = \widehat{\pi} + z_{1-\alpha} \widehat{J}_n^{-1/2} \]

e dove \( z_{1-\beta} \) indica il \( \beta\)-quantile della distribuzione geometrica.

Verifichiamo il caso bilaterale:
\[ \mathbb{P}\left( \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \leq \pi \leq \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \right) \]
\[ = \mathbb{P}\left( - z_{1-\alpha/2} \leq \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \leq z_{1-\alpha/2} \right) \]
\[ = \mathbb{P}\left( z_{\alpha/2} \leq \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \leq z_{1-\alpha/2} \right) \]
\[ = F_n(z_{1-\alpha/2}) - F_n(z_{\alpha/2}) + \mathbb{P}\left( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) = z_{\alpha/2} \right) \]
dove \(F_n \) è la funzione di ripartizione di \( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) \), inoltre abbiamo usato il fatto che \( z_{\alpha/2} =- z_{1-\alpha/2} \) per un teorema abbiamo che \( F_n(x) \to \Phi(x) \) per ogni \( x \in \mathbb{R} \), dove \( \Phi \) è la funzione di ripartizione di \(N(0,1) \). Inoltre abbiamo che
\[ \mathbb{P}\left( \widehat{J}_n^{1/2} (\widehat{\pi}_n-\pi) = z_{\alpha/2} \right) \to 0 \]
dunque abbiamo che
\[ \mathbb{P}\left( \widehat{\pi} - z_{1-\alpha/2} \widehat{J}_n^{-1/2} \leq \pi \leq \widehat{\pi} + z_{1-\alpha/2} \widehat{J}_n^{-1/2} \right) \to \Phi(z_{1-\alpha/2}) - \Phi(z_{\alpha/2}) \]
\[ = 1- \alpha/2 - \alpha/2 = 1 - \alpha \]
pertanto l'intervallo sopracitato è l'intervallo di confidenza approssimativo con soglia \(1-\alpha \).

In modo simile dimostriamo i casi unilaterali.

Lo_zio_Tom
"3m0o":


Per il punto c) invece mmm ci devo pensare ancora un attimo. Ma non ho troppo ben capito cosa mi chieda.


Una nota proprietà degli stimatori di massima verosimiglianza è appunto che essi sono asintoticamente normali con una certa media ed una certa varianza (che dovresti conoscere). A questo punto puoi calcolare un intervallo di confidenza approssimato usando questa gaussiana.

C'è un typo nel simbolo di derivata seconda, correggilo se vuoi.

Studente Anonimo
Studente Anonimo
"tommik":


Una nota proprietà degli stimatori di massima verosimiglianza è appunto che essi sono asintoticamente normali con una certa media ed una certa varianza (che dovresti conoscere). A questo punto puoi calcolare un intervallo di confidenza approssimato usando questa gaussiana.

Intendi quello che ho fatto qui sopra o altro?
"tommik":

C'è un typo nel simbolo di derivata seconda, correggilo se vuoi.

Perdonami ma non lo vedo
"3m0o":


\[ \frac{d^2}{d^2\pi} \ell(\pi) \]

Lo_zio_Tom
1. può esserti utile questo topic. Ti puoi fermare alla distribuzione asintotica dello stimatore di Max Verosimiglianza.

2. la derivata seconda non si dovrebbe scrivere così?

$d^2/(d pi^2)l(pi)$

o ancora meglio

$partial^2/(partial pi^2 )l(pi)$

Studente Anonimo
Studente Anonimo
"tommik":
1. può esserti utile questo topic. Ti puoi fermare alla distribuzione asintotica dello stimatore di Max Verosimiglianza.

Grazie l'ho letto, presumo quindi che non intendevi la stessa cosa che ho fatto io.
Ma comunque credo vada bene come ho proceduto io, sbaglio?

"tommik":

2. la derivata seconda non si dovrebbe scrivere così?

$d^2/(d pi^2)l(pi)$

o ancora meglio

$partial^2/(partial pi^2 )l(pi)$

Ah... hai ragione.

Lo_zio_Tom
"3m0o":

Ma comunque credo vada bene come ho proceduto io, sbaglio?


sbagli. Ti chiede espressamente un intervallo approssimato. Infatti al punto 2) ti chiede di calcolare appunto l'MLE

Lo stimatore di max verosimiglianza $hat(theta)$ ha distribuzione asintotica normale

$\sqrt(nI_X(\theta))[\hat(theta)-theta]dot ~ N(0;1)$



Per un riferimento veloce, questa dispensina al paragrafo 2.1.3

Per l'utilizzo di Wald (che poi è la stessa cosa della dispensina sopra) vedi la definizione del test di Wald

Se segui il mio topic passo passo hai anche la soluzione + il metodo delta che ti verrà sicuramente utile in futuro

Studente Anonimo
Studente Anonimo
Ma scusa, se abbiamo un pivo approssimativo \( g(X_1,\ldots,X_n,\theta) \to Y \) in distribuzione possiamo costruire un intervallo di confidenza approssimativo siccome abbiamo che se \(q_1,q_2 \) sono i quantili di \(F_Y \) tale che
\[ \mathbb{P}[q_1 \leq Y \leq q_2] = 1-\alpha \]
allora \( \mathbb{P}(q_1 \leq g(X_1,\ldots,X_n,\theta) \leq q_2) \to 1- \alpha \)

E nel mio libro c'è la seguente proposizione: Pivots approssimativo di Wald

Sia \( X_1,\ldots,X_n \) un campione iid con una stessa distribuzione e funzione di densità/massa \(f(x,\theta) \) che appartiene ad una famiglia esponenziale non degenere a 1 parametro.
\[ f(x,\theta) = \exp( \eta(\theta)T(x)-d(\theta)+(x) ) \]
con \(x \in \mathcal{X} , \theta \in \Theta \).
Supponiamo che
1. Lo spazio dei parametri \( \Theta \subset \mathbb{R} \) sia un insieme aperto
2. La funzione \( \eta \) sia una biiezione due volte continuamente derivabile tra \( \Theta \) e \( \eta(\Theta) \).
Sia \( \widehat{\theta}_n \) lo stimatore di massimo verosomiglianza di \( \theta \) e \( \widehat{J}_n \) definito come nel mio commento sopra. Definiamo
\[ g(X_1,\ldots,X_n, \theta) := \widehat{J}_n^{1/2} ( \widehat{\theta}_n- \theta) \]
allora
\[ g(X_1,\ldots,X_n, \theta) \to N(0,1) \]
in distribuzione, e abbiamo dunque che \(g \) è un pivot approssimativo per \( \theta \).

Da questo c'è pure nel libro l'esercizio di dimostrare che gli Intervalli di confidenza approssimativi di Wald sono quelli che ho scritto io.

Non capisco dove sbaglio.

Lo_zio_Tom
Sì scusa è la stessa cosa...ho letto ciò che hai scritto troppo frettolosamente

Studente Anonimo
Studente Anonimo
OK. Ma avrei una domanda, quale intervallo scegliere? Bilaterale? Unilaterale destro? sinistro?

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.