*** Interessante*** Formulazione della pdf
Innanzitutto riporto il testo dell esercizio:
"un esame clinico dovrebbe restituire il valore 0 per gli individui sani e 20 per quelli malati. Tuttavia il test è affetto da un errore casuale Gaussiano con media 0 e deviazione standard 10. Il risultato è quindi una variabile aleatoria X e si prende una decisione mediante confronto con una soglia: se X>10 si dichiara che il paziente è malato, altrimenti che è sano. Gli individui che si sottopongono al test sono sani con una probabilità p=0.8 e malati con probabilità 1-p=0.2
1. esprimere la pdf di X e tracciarne un grafico accurato
2. calcolare media e varianza di X
3. determinare la probabilità che un paziente sano venga dichiarato malato e quella che un paziente malato venga dichiarato sano
4. calcolare la probabilità che il test dia esito errato
5. determinare il valore di x0 diverso da 10 che minimizza la probabilità d'errore [ricordare che Q(x) si ottiene per integrazione di una pdf Gaussiana standard]"
Espongo prima i quesiti e poi il mio ragionamento: 1.non mi è chiaro come considerare lo spazio campione di dei risultati ideali cioè se continuo tra 0 e 20 o su tutto R o ancora discreto contenente le due condizioni possibili dei pazienti; questo mi impedisce di comprendere come possa realizzarsi la vaiabile X richiesta. Credo che una volta ferrato questo gli altri punti siano meccanicamente risolvibili con le solite proprietà. 2. la differenza tra il terzo e il quarto punto sta che nel terzo sono due probabilità separate mentre nel quarto una singola (se poi gli insiemi sono disgiunti somma delle prime due); 3. nel quinto punto la Q(x) non è in genere definita come 1-G(x) e che in realtà è la G(x) che si ottiene come per integrazione di pdf gaussiana standard?.
Allora, il mio problema principale è il primo punto ovvero trovare la pdf di X. il mio ragionamento finora è stato:
$ Omega ={S,M} $
con S sano e M malato: è dunque un insieme discreto.
Ho quindi individuato la variabile aleatoria dei risultati ideali cioè senza errore Y:
$ Y={ ( 0...se...omega=S ) ,(20...se...omega=M ):} $
(considerate spazio i puntini);
per quanto riguarda l errore da testo so che è gaussiano con parametri 0 e 100 (10 quadrato) quindi:
$ W~ N(0,100) $
e la sua pdf è immediata.
Ho poi supposto che per ragioni fisiche il risutato ideale e l errore gaussiano siano in realtà indipendenti quindi W e Y indipendenti con tutte le conseguenze.
Infine ho considerato la mia variabile aleatoria X, risultato reale, come semplice somma delle precedenti:
$ X=Y+W $
Di conseguenza, essendo le due v.a. addendo indipendenti ho che la pdf di X è la convoluzione delle precedenti:
calcolo la pdf di Y che è una v.a. discreta quindi
\( pdf(y)=0.8\delta (y)+0.2\delta (y-20) \)
per propietà della delta e della convoluzione si ha
\( pdf^X(x)=0.8pdf^W (x)+0.2pdf^W (x-20) \)
con una siffatta pdf però non so procedere per il terzo punto quindi presumo che sia sbagliata... delucidazioni? preferibilmente sufficientemente rigorose per il primo punto e almeno qualitative per gli altri punti. grazie infinite in anticipo
"un esame clinico dovrebbe restituire il valore 0 per gli individui sani e 20 per quelli malati. Tuttavia il test è affetto da un errore casuale Gaussiano con media 0 e deviazione standard 10. Il risultato è quindi una variabile aleatoria X e si prende una decisione mediante confronto con una soglia: se X>10 si dichiara che il paziente è malato, altrimenti che è sano. Gli individui che si sottopongono al test sono sani con una probabilità p=0.8 e malati con probabilità 1-p=0.2
1. esprimere la pdf di X e tracciarne un grafico accurato
2. calcolare media e varianza di X
3. determinare la probabilità che un paziente sano venga dichiarato malato e quella che un paziente malato venga dichiarato sano
4. calcolare la probabilità che il test dia esito errato
5. determinare il valore di x0 diverso da 10 che minimizza la probabilità d'errore [ricordare che Q(x) si ottiene per integrazione di una pdf Gaussiana standard]"
Espongo prima i quesiti e poi il mio ragionamento: 1.non mi è chiaro come considerare lo spazio campione di dei risultati ideali cioè se continuo tra 0 e 20 o su tutto R o ancora discreto contenente le due condizioni possibili dei pazienti; questo mi impedisce di comprendere come possa realizzarsi la vaiabile X richiesta. Credo che una volta ferrato questo gli altri punti siano meccanicamente risolvibili con le solite proprietà. 2. la differenza tra il terzo e il quarto punto sta che nel terzo sono due probabilità separate mentre nel quarto una singola (se poi gli insiemi sono disgiunti somma delle prime due); 3. nel quinto punto la Q(x) non è in genere definita come 1-G(x) e che in realtà è la G(x) che si ottiene come per integrazione di pdf gaussiana standard?.
Allora, il mio problema principale è il primo punto ovvero trovare la pdf di X. il mio ragionamento finora è stato:
$ Omega ={S,M} $
con S sano e M malato: è dunque un insieme discreto.
Ho quindi individuato la variabile aleatoria dei risultati ideali cioè senza errore Y:
$ Y={ ( 0...se...omega=S ) ,(20...se...omega=M ):} $
(considerate spazio i puntini);
per quanto riguarda l errore da testo so che è gaussiano con parametri 0 e 100 (10 quadrato) quindi:
$ W~ N(0,100) $
e la sua pdf è immediata.
Ho poi supposto che per ragioni fisiche il risutato ideale e l errore gaussiano siano in realtà indipendenti quindi W e Y indipendenti con tutte le conseguenze.
Infine ho considerato la mia variabile aleatoria X, risultato reale, come semplice somma delle precedenti:
$ X=Y+W $
Di conseguenza, essendo le due v.a. addendo indipendenti ho che la pdf di X è la convoluzione delle precedenti:
calcolo la pdf di Y che è una v.a. discreta quindi
\( pdf(y)=0.8\delta (y)+0.2\delta (y-20) \)
per propietà della delta e della convoluzione si ha
\( pdf^X(x)=0.8pdf^W (x)+0.2pdf^W (x-20) \)
con una siffatta pdf però non so procedere per il terzo punto quindi presumo che sia sbagliata... delucidazioni? preferibilmente sufficientemente rigorose per il primo punto e almeno qualitative per gli altri punti. grazie infinite in anticipo
Risposte
dunque.....non ho letto attentamente tutto il post (anche perché il tempo a disposizione è quello che è.....
) ma la PDF che hai calcolato è assolutamente corretta e ci si poteva arrivar anche senza tirare in ballo la convoluzione; la variabile casuale in esame infatti si comporterà per l'80% come una $N(0;100)$ e per il restante 20% come una $N(20;100)$
quindi, come hai già osservato
$f(x)=0.8f(x|S)+0.2f(x|M)$
a questo punto tutti i calcolì richiesti sono assolutamente elementari. Ad esempio, gli errori che si possono commettere sono di due tipi
1° errore,test positivo quando è sano:
$P(X>10|S)=P(X>10|mu=0)=1-Phi(10/10)=1-Phi(1)$
2° errore, test negativo dato che l'individuo è malato
$P(X<10|M)=P(X<10|mu=20)=Phi((10-20)/10)=Phi(-1)$
ora penso tu sia in grado di continuare da solo....
C'è un esempio che ti può interessare qui ed un esempio del tutto simile sullo Sheldon Ross, esempio 5.5b
saluti

quindi, come hai già osservato
$f(x)=0.8f(x|S)+0.2f(x|M)$
a questo punto tutti i calcolì richiesti sono assolutamente elementari. Ad esempio, gli errori che si possono commettere sono di due tipi
1° errore,test positivo quando è sano:
$P(X>10|S)=P(X>10|mu=0)=1-Phi(10/10)=1-Phi(1)$
2° errore, test negativo dato che l'individuo è malato
$P(X<10|M)=P(X<10|mu=20)=Phi((10-20)/10)=Phi(-1)$
ora penso tu sia in grado di continuare da solo....
C'è un esempio che ti può interessare qui ed un esempio del tutto simile sullo Sheldon Ross, esempio 5.5b
saluti
Innanzitutto grazie per aver risposto 
ho controllato l'esempio da te suggeritomi e praticamente era il mio esercizio con numeri diversi quindi mi è stato molto utile e chiarificatore oltre alla tua risposta.
Dubbio persiste sul 5 punto ahimè mi sembra un po' impossibile da fare: quando si parla di minimi immagino una derivata, in questo caso derivata della probabilità associata a derivata della CDF e quindi la pdf, tuttavia non si annulla mai la pdf quindi non troverei dei massimi o minimi; in più non capisco il suggerimento. Per il prof l'ultimo quesito è da eccellenza quindi finora sarebbe anche più che sufficiente ma per curiosità personale vorrei non tenere questo quesito in sospeso

ho controllato l'esempio da te suggeritomi e praticamente era il mio esercizio con numeri diversi quindi mi è stato molto utile e chiarificatore oltre alla tua risposta.
Dubbio persiste sul 5 punto ahimè mi sembra un po' impossibile da fare: quando si parla di minimi immagino una derivata, in questo caso derivata della probabilità associata a derivata della CDF e quindi la pdf, tuttavia non si annulla mai la pdf quindi non troverei dei massimi o minimi; in più non capisco il suggerimento. Per il prof l'ultimo quesito è da eccellenza quindi finora sarebbe anche più che sufficiente ma per curiosità personale vorrei non tenere questo quesito in sospeso
azz... non mi lasci nemmeno il tempo di rispondere, stavo ancora scrivendo la risposta....sto rispondendo nei ritagli di tempo sul lavoro...
Per quanto riguarda il grafico, una volta nota la forma funzionale di $f(x)$ non mi pare un grosso problema. Io ormai sono decenni che non frequento più le scuole ma per te non dovrebbe essere un lavoro impossibile
$f(x)=0.8*1/(10sqrt(2pi))e^(-x^2/200)+0.2*1/(10sqrt(2pi))e^(-(x-20)^2/200)$

Per il punto 3 ti ho praticamente detto come fare.....
Per quanto riguarda il grafico, una volta nota la forma funzionale di $f(x)$ non mi pare un grosso problema. Io ormai sono decenni che non frequento più le scuole ma per te non dovrebbe essere un lavoro impossibile
$f(x)=0.8*1/(10sqrt(2pi))e^(-x^2/200)+0.2*1/(10sqrt(2pi))e^(-(x-20)^2/200)$

Per il punto 3 ti ho praticamente detto come fare.....

"tommik":
azz... non mi lasci nemmeno il tempo di rispondere, stavo ancora scrivendo la risposta....sto rispondendo nei ritagli di tempo sul lavoro...
Perdonami ahahha mi sono svegliato presto con questo pallino, comunque ancora grazie e ovviamente le risposte sono asincrone quindi quando puoi ripsondi ovviamente. Detto ciò "hai fatto trenta fai pure trentuno" rimane il 5 punto

OT: come si inserisce il grafico in risposta?
E' più un problema matematico che statistico
Per la funzione di errore ti avevo già indirizzato sulla strada corretta:
$Err= 0.8[1-Phi(x/10)]+0.2Phi((x-20)/10)$
è questione di minimizzzarla....
eccoti comunque una sorta di grafico dell'errore che si commette al variare di $x_0$, tanto per darti un'idea
Per la funzione di errore ti avevo già indirizzato sulla strada corretta:
$Err= 0.8[1-Phi(x/10)]+0.2Phi((x-20)/10)$
è questione di minimizzzarla....
eccoti comunque una sorta di grafico dell'errore che si commette al variare di $x_0$, tanto per darti un'idea

"lukixx":
Dubbio persiste sul 5 punto ahimè mi sembra un po' impossibile da fare...ma per curiosità personale vorrei non tenere questo quesito in sospeso
Curiosità appagata... beh, insomma, non si annulla mai mi pare un po' eccessivo....la funzione errore è una mistura di due CDF, una con segno + e l'altra con segno meno....occorre fare qualche calcolo.....
$Err(x)=0.8-0.8int_(-oo)^(x/10)1/sqrt(2pi) e^(-t^2/2)dt+0.2int_(-oo)^((x-20)/10)1/sqrt(2pi) e^(-t^2/2)dt$
deriviamo rispetto a x e poniamo $=0$
$d/(dx) Err(x)=-0.8/sqrt(2pi)*1/10 e^(-x^2/200)+0.2/sqrt(2pi)*1/10e^(-(x-20)^2/200)=0$
semplifichiamo qua e là....
$e^(-(x-20)^2/200)=4e^(-x^2/200)$
passiamo ai logaritmi e otteniamo
$x_0=(200log4+400)/40~~16.93$
come si vede anche dal grafico, con un errore totale dell'$11.21%$
Commento: dal grafico della funzione Errore si vede bene che, scegliere come soglia critica un valore molto basso significa considerare malati tutti coloro che hanno un valore del test molto basso, ad esempio $X> -30$. A questo punto è evidente che tutti risulteranno positivi e l'errore è pari alla percentuale di individui sani: 80%
Allo stesso modo scegliendo una soglia per il test elevata, ad esempio $X>50$ tutti risulteranno negativi e l'errore che si commetterebbe è pari alla percentuale di individui effettivamente malati, ovvero il 20% della popolazione.

grazie, davvero paziente e disponibile, ma persistono dei dubbi:
1.in questa scrittura intendi la pdf condizionale?
$f(x)=0.8f(x|S)+0.2f(x|M)$
se si, non saprei come trovare la pdf congiunta dato che le variabili non sono indipendenti (risultato reale X e risultato ideale Y), piuttosto io ho reinterpretato l'insieme ${X>10|S}$ : avendo fissato
$X=Y+W$ con $X$ risultato reale, $Y$ risultato ideale, $W$ errore gaussiano
si ha che $X=0+W>10$ quindi equivalente all insieme ${W>10}$ la cui probabilità è quella da te riportata. Analogamente per l'altro errore
2.la funzione probabilità d'errore non capisco come l hai trovata: fare una semplice integrazione della pdf di X non da lo stesso risultato da te riportato (nè tantomeno sarebbe logicamente corretto perchè troverei la CDF di X, non la probabilità che il risultato sia errato):
$Err= 0.8[1-Phi(x/10)]+0.2Phi((x-20)/10)$
3.Per giungere alla Err(x) ho allora supposto che tu abbia semplicemente moltiplicato i due tipi di errore per le probabilità riportate in traccia e sommate banalmente perchè gli insiemi sono disgiunti (p=0.8 per i sani e 1-p=0.2 per i malati: rileggendo millemila volte il testo ho interpretato i due dati come le probabilità della condizione di salute effettiva e non come risultato del test, quindi di Y e non di X), quindi
$p\cdot[1-Phi(x/10)] + (1-p)\cdotPhi((x-20)/10)$
e hai potuto banalmente moltiplicare perchè $Y$ e $W$ (rispettivamente risultato ideale e errore gaussiano) sono indipendenti (o almeno lo si può supporre generalmente) e posso considerare in questo ragionamento la v.a. W perchè le probabilità di errore calcolate in (3.) le ho ricondotte a probabilità relative alla sola v.a. W stessa, andando ora a porre semplicemente $x$ al posto di $10$ nella $Phi(x)$
4. In fin dei conti non capisco proprio Err(x) che cosa sia: se funzione di probabilità dovrebbe essere identicamente nulla perchè la probabilità in unico punto è nulla eccetto per le v discrete; se è una CDF dovrebbe essere crescente e tendente a 1 quale non è quella da te proposta. Non dico assolutamente che tu sbagli ma io non capisco
1.in questa scrittura intendi la pdf condizionale?
$f(x)=0.8f(x|S)+0.2f(x|M)$
se si, non saprei come trovare la pdf congiunta dato che le variabili non sono indipendenti (risultato reale X e risultato ideale Y), piuttosto io ho reinterpretato l'insieme ${X>10|S}$ : avendo fissato
$X=Y+W$ con $X$ risultato reale, $Y$ risultato ideale, $W$ errore gaussiano
si ha che $X=0+W>10$ quindi equivalente all insieme ${W>10}$ la cui probabilità è quella da te riportata. Analogamente per l'altro errore
2.la funzione probabilità d'errore non capisco come l hai trovata: fare una semplice integrazione della pdf di X non da lo stesso risultato da te riportato (nè tantomeno sarebbe logicamente corretto perchè troverei la CDF di X, non la probabilità che il risultato sia errato):
$Err= 0.8[1-Phi(x/10)]+0.2Phi((x-20)/10)$
3.Per giungere alla Err(x) ho allora supposto che tu abbia semplicemente moltiplicato i due tipi di errore per le probabilità riportate in traccia e sommate banalmente perchè gli insiemi sono disgiunti (p=0.8 per i sani e 1-p=0.2 per i malati: rileggendo millemila volte il testo ho interpretato i due dati come le probabilità della condizione di salute effettiva e non come risultato del test, quindi di Y e non di X), quindi
$p\cdot[1-Phi(x/10)] + (1-p)\cdotPhi((x-20)/10)$
e hai potuto banalmente moltiplicare perchè $Y$ e $W$ (rispettivamente risultato ideale e errore gaussiano) sono indipendenti (o almeno lo si può supporre generalmente) e posso considerare in questo ragionamento la v.a. W perchè le probabilità di errore calcolate in (3.) le ho ricondotte a probabilità relative alla sola v.a. W stessa, andando ora a porre semplicemente $x$ al posto di $10$ nella $Phi(x)$
4. In fin dei conti non capisco proprio Err(x) che cosa sia: se funzione di probabilità dovrebbe essere identicamente nulla perchè la probabilità in unico punto è nulla eccetto per le v discrete; se è una CDF dovrebbe essere crescente e tendente a 1 quale non è quella da te proposta. Non dico assolutamente che tu sbagli ma io non capisco
Sarà difficile dipanare questi dubbi perché riguardano tutta la parte iniziale del programma di statistica...e un po' anche la teoria della prova delle ipotesi...
Provo comunque a fare un po' di chiarezza sull'argomento:
La funzione di densità del test è la stessa che viene a te
$f(x|S)$ indica la $N(mu;100)$ condizionata all'individuo sano, ovvero quello con media 0.
$P(S)f(x|S) +P(M)f(x|M)$ è quindi la densità richiesta.
Attenzione ! Non è una somma di variabili ma una mistura di densità, come puoi controllare leggendo qui, esempio 9.6 pag 194
^^^^^^^^^^^^^^^^^^^^^^^^^^
Infatti non è una CDF né una PDF. E' una funzione, variabile rispetto al valore critico del test, che dice quale sia l'errore totale che si commette in relazione alla soglia critica scelta.
Prova a vederla così: sappiamo che nella distribuzione normale il dominio $mu+-3sigma$ comprende più del 99.7% dei casi. Quindi la distribuzione del test fatto sui sani avrà valori compresi fra $[-30;+30]$ mentre quello fatto sui malati restituirà valori $in [-10;50]$ Ora, se fissiamo la soglia critica per definire malato / sano in $x_0=-40$ evidentemente TUTTI risulteranno positivi al test, ma sappiamo che solo il 20% è malato e di conseguenza l'errore sarà 80% (vedi grafico per $x rarr -oo$)
Analogamente, se fisso la soglia critica ad $x_0=60$ tutti risuteranno sani... e l'errore tenderà alla % di malati, ovvero 20%
Facendo variare $x_0$ all'interno del dominio vedi che l'errore varia ed ha un minimo in $x_0~~17$ (per la precisione 16.931).
Per capire meglio è meglio fare un passino indietro e calcolare il valore di Err per un fissato $x_0=10$ (quesito 4)
Prova quindi a fare una tabella a doppia entrata che partiziona lo spazio dei risultati $Omega$ in questo modo:

Ora dovresti riuscire a " vedere" chairamente quali sono i due tipi di errore che danno la probabilità che il test sia errato (che ti chiede al punto 4 e che in pratica sono gli errori di prima e seconda specie che si commettono sempre in un sistema di prova delle ipotesi in statistica)....
$Omega$ può essere così partizionato:
$Omega=(S nn T^+) uu (M nn T^+) uu (S nn T^-) uu ( M nn T^-)$
L'errore complessivo del test è ovviamente
$Err= P(S nn T^+) +P(M nn T^-)$
Ovvero
$0.8P(X>10|mu=0)+0.2P(X<10|mu=20)=$
$=0,8[1-Phi(1)]+0.2Phi(-1)=0.127+0.032=0.159$
Gli altri due insiemi della partizione sono gli eventi del test corretto: (sani ; negativi) $uu$ (malati; positivi)
Ed ecco anche una rappresentazione grafica (il disegno non è in scala...) dei due errori condizionati:

Ora veniamo al punto 5. Effettivamente è un po' più complesso e bisogna esprimere Err in funzione del valore critico scelto $x_0 in RR$.
Ti ho mostrato anche tutti i conti analitici per arrivare alla soluzione; se non è chiaro forse è meglio che studi ancora un po' la teoria; tieni presente che siamo partiti da un esercizio interessante per finire a spiegare il teorema delle probabilità totali....
cordiali saluti
Provo comunque a fare un po' di chiarezza sull'argomento:
La funzione di densità del test è la stessa che viene a te
$f(x|S)$ indica la $N(mu;100)$ condizionata all'individuo sano, ovvero quello con media 0.
$P(S)f(x|S) +P(M)f(x|M)$ è quindi la densità richiesta.
Attenzione ! Non è una somma di variabili ma una mistura di densità, come puoi controllare leggendo qui, esempio 9.6 pag 194
^^^^^^^^^^^^^^^^^^^^^^^^^^
"lukixx":
4. In fin dei conti non capisco proprio Err(x) che cosa sia: se funzione di probabilità dovrebbe essere identicamente nulla perchè la probabilità in unico punto è nulla eccetto per le v discrete; se è una CDF dovrebbe essere crescente e tendente a 1 quale non è quella da te proposta.
Infatti non è una CDF né una PDF. E' una funzione, variabile rispetto al valore critico del test, che dice quale sia l'errore totale che si commette in relazione alla soglia critica scelta.
Prova a vederla così: sappiamo che nella distribuzione normale il dominio $mu+-3sigma$ comprende più del 99.7% dei casi. Quindi la distribuzione del test fatto sui sani avrà valori compresi fra $[-30;+30]$ mentre quello fatto sui malati restituirà valori $in [-10;50]$ Ora, se fissiamo la soglia critica per definire malato / sano in $x_0=-40$ evidentemente TUTTI risulteranno positivi al test, ma sappiamo che solo il 20% è malato e di conseguenza l'errore sarà 80% (vedi grafico per $x rarr -oo$)
Analogamente, se fisso la soglia critica ad $x_0=60$ tutti risuteranno sani... e l'errore tenderà alla % di malati, ovvero 20%
Facendo variare $x_0$ all'interno del dominio vedi che l'errore varia ed ha un minimo in $x_0~~17$ (per la precisione 16.931).
Per capire meglio è meglio fare un passino indietro e calcolare il valore di Err per un fissato $x_0=10$ (quesito 4)
Prova quindi a fare una tabella a doppia entrata che partiziona lo spazio dei risultati $Omega$ in questo modo:

Ora dovresti riuscire a " vedere" chairamente quali sono i due tipi di errore che danno la probabilità che il test sia errato (che ti chiede al punto 4 e che in pratica sono gli errori di prima e seconda specie che si commettono sempre in un sistema di prova delle ipotesi in statistica)....
$Omega$ può essere così partizionato:
$Omega=(S nn T^+) uu (M nn T^+) uu (S nn T^-) uu ( M nn T^-)$
L'errore complessivo del test è ovviamente
$Err= P(S nn T^+) +P(M nn T^-)$
Ovvero
$0.8P(X>10|mu=0)+0.2P(X<10|mu=20)=$
$=0,8[1-Phi(1)]+0.2Phi(-1)=0.127+0.032=0.159$
Gli altri due insiemi della partizione sono gli eventi del test corretto: (sani ; negativi) $uu$ (malati; positivi)
Ed ecco anche una rappresentazione grafica (il disegno non è in scala...) dei due errori condizionati:

Ora veniamo al punto 5. Effettivamente è un po' più complesso e bisogna esprimere Err in funzione del valore critico scelto $x_0 in RR$.
Ti ho mostrato anche tutti i conti analitici per arrivare alla soluzione; se non è chiaro forse è meglio che studi ancora un po' la teoria; tieni presente che siamo partiti da un esercizio interessante per finire a spiegare il teorema delle probabilità totali....
cordiali saluti