Domanda banale o no? (binomiale, poisson o niente di tutto questo)
Ciao a tutti, mi è stato proposto questo quesito, e vorrei capire se il mio ragionamento è eccessivamente elaborato quando si potrebbe arrivare ad una conclusione banalmente.
Statisticamente si è valutato che il tasso di omicidi annuale negli Stati Uniti è di 0,5 ogni 100.000 abitanti.
In un na cittadina di 13.000 abitanti nell'ultimo anno, sono stati registrati 2 omicidi. Ci sono ragioni per credere che questa cittadina sia meno sicura rispetto alla media nazionale?
Ovviamente, la valutazione più intuitiva è semplicemente $2/13000 >0.5/100000$, e quindi istintivamente direi che la città in questione è meno sicura della media nazionale. Tuttavia, visto il contesto in cui questa domanda mi è stata posta, mi sembra strano che la risposta possa essere semplicemente questa, e quindi ho provato a fare delle considerazioni probabilistiche.
la probabilità di avere un omicidio è $p=0.5/100000$, il numero di abitanti è $n=13000$, quindi ho pensato di utilizzare una distribuzione binomiale, dove la v.a. X è il numero di omicidi nella cittadina in questione.
\( X\sim B(n,p) \)
\( p_X(k)=\mathbb{P}(X=k)=\begin{pmatrix}n\\k\end{pmatrix}\cdot p^k\cdot(1-p)^{n-k}\;\; \)
\(p_X(2)=\begin{pmatrix}13000\\2\end{pmatrix}\cdot\left(\frac{0.5}{100000}\right)^2\cdot\left(1-\frac{0.5}{10000}\right)^{12998}\;=\;0.001979\;\simeq\;0.2\%\)
Oppure, visto che $p$ è "piccola" ed $n$ è relativamente grande, si può utilizzare una Poisson con $\lambda=n*p$ che mi da un risultato analogo:
\(Y\sim P(\lambda)\)
$\lambda = n*p = 0,065$
\( p_Y(k)=\mathbb{P}(Y=k)=e^{-\lambda}\cdot\frac{\lambda^k}{k!} \)
\( p_Y(2)=e^{-0,065}\cdot\frac{\left(0,065\right)^2}2=\;0.001979\;\simeq\;0.2\% \)
Quindi, in una cittadina di 13.000 abitanti qualsiasi, la probabilità di avere 2 omicidi in un anno è di circa lo $0,2%$, questo, seguendo il mio ragionamento, mi fa pensare che la cittadina in questione ha un livello di sicurezza più basso rispetto alla media nazionale. Quindi mi sembra di aver fatto tantissimi calcoli (non io personalmente, parlo di Python
) per ottenere un risultato ovvio.
Vorrei avere qualche vostro parere, cosa ne pensate?
Statisticamente si è valutato che il tasso di omicidi annuale negli Stati Uniti è di 0,5 ogni 100.000 abitanti.
In un na cittadina di 13.000 abitanti nell'ultimo anno, sono stati registrati 2 omicidi. Ci sono ragioni per credere che questa cittadina sia meno sicura rispetto alla media nazionale?
Ovviamente, la valutazione più intuitiva è semplicemente $2/13000 >0.5/100000$, e quindi istintivamente direi che la città in questione è meno sicura della media nazionale. Tuttavia, visto il contesto in cui questa domanda mi è stata posta, mi sembra strano che la risposta possa essere semplicemente questa, e quindi ho provato a fare delle considerazioni probabilistiche.
la probabilità di avere un omicidio è $p=0.5/100000$, il numero di abitanti è $n=13000$, quindi ho pensato di utilizzare una distribuzione binomiale, dove la v.a. X è il numero di omicidi nella cittadina in questione.
\( X\sim B(n,p) \)
\( p_X(k)=\mathbb{P}(X=k)=\begin{pmatrix}n\\k\end{pmatrix}\cdot p^k\cdot(1-p)^{n-k}\;\; \)
\(p_X(2)=\begin{pmatrix}13000\\2\end{pmatrix}\cdot\left(\frac{0.5}{100000}\right)^2\cdot\left(1-\frac{0.5}{10000}\right)^{12998}\;=\;0.001979\;\simeq\;0.2\%\)
Oppure, visto che $p$ è "piccola" ed $n$ è relativamente grande, si può utilizzare una Poisson con $\lambda=n*p$ che mi da un risultato analogo:
\(Y\sim P(\lambda)\)
$\lambda = n*p = 0,065$
\( p_Y(k)=\mathbb{P}(Y=k)=e^{-\lambda}\cdot\frac{\lambda^k}{k!} \)
\( p_Y(2)=e^{-0,065}\cdot\frac{\left(0,065\right)^2}2=\;0.001979\;\simeq\;0.2\% \)
Quindi, in una cittadina di 13.000 abitanti qualsiasi, la probabilità di avere 2 omicidi in un anno è di circa lo $0,2%$, questo, seguendo il mio ragionamento, mi fa pensare che la cittadina in questione ha un livello di sicurezza più basso rispetto alla media nazionale. Quindi mi sembra di aver fatto tantissimi calcoli (non io personalmente, parlo di Python

Vorrei avere qualche vostro parere, cosa ne pensate?
Risposte
Ciao @Flamber!
io prima di rispondere ad un messaggio leggo sempre la storia di chi scrive e mi sono accorto che sei un utente esperto che, in genere, dà risposte piuttosto che chiedere aiuto.....quindi non ti voglio togliere il gusto di risolvere l'esercizio e ti dò un paio di suggerimenti
1) le due distribuzioni, Poisson e Binomiale sono molto legate fra loro, nel senso che la Poisson è la distribuzione limite della Binomiale[nota]si dimostra in un paio di passaggi utilizzando il teorema di Levy-Cramér (le due distribuzioni convergono se e solo se convergono le due funzioni caratteristiche[/nota].
Ciò per dire che, nell'esercizio in questione, l'uso della distribuzione Binomiale o Poisson è indifferente.
2) l'esercizio è semplice ma non così banale....una volta visto che la media è superiore a quello che ti aspetti ti si chiede una certa inferenza: la differenza riscontrata rientra o no nella "normale" variabilità del fenomeno?
In altri termini si chiede di sottoporre a prova il seguente sistema di ipotesi
Puoi guardare qualunque libro di base sul problema della Verifica di Ipotesi statistiche o anche qui sul forum...ci sono decine e decine di esercizi tutti svolti.
Ovviamente nel caso in questione
la differenza è talmente alta che il test non potrà che convalidare la tua intuizione....ma pensa se la media nazionale fosse 10 ogni 100.000 persone.....ti troveresti sempre una media più alta di quella nazionale ovvero di circa 15 omicidi su 100.000 persone invece che 10 ma qui le cose comincerebbero ad essere complicate da risolvere "intuitivamente"
^^^^^^^^^^^^^^^^^^^^
Vediamo un altro esempio interessante:
Abbiamo 123 pazienti con una certa patologia; a 62 pazienti viene somministrato un certo farmaco sperimentale mentre a 61 viene somministrata dell'acqua distillata (un placebo). I risultati sono in tabella;
Dei 62 pazienti trattati ne sono guariti il $84%$
Dei 61 pazienti non trattati ne sono guariti il $66%$
$84%>66%$ quindi il farmaco è efficace? Per rispondere con una certa "fiducia statistica" dobbiamo decidere se veramente $84>66$ oppure se $84~~66$ perché la differenza rientra nella normale variabilità del fenomeno....
.....per questo esistono i test per decidere....e per questo è necessario studiare la teoria prima di cercare soluzioni intuitive.
io prima di rispondere ad un messaggio leggo sempre la storia di chi scrive e mi sono accorto che sei un utente esperto che, in genere, dà risposte piuttosto che chiedere aiuto.....quindi non ti voglio togliere il gusto di risolvere l'esercizio e ti dò un paio di suggerimenti
1) le due distribuzioni, Poisson e Binomiale sono molto legate fra loro, nel senso che la Poisson è la distribuzione limite della Binomiale[nota]si dimostra in un paio di passaggi utilizzando il teorema di Levy-Cramér (le due distribuzioni convergono se e solo se convergono le due funzioni caratteristiche[/nota].
Ciò per dire che, nell'esercizio in questione, l'uso della distribuzione Binomiale o Poisson è indifferente.
2) l'esercizio è semplice ma non così banale....una volta visto che la media è superiore a quello che ti aspetti ti si chiede una certa inferenza: la differenza riscontrata rientra o no nella "normale" variabilità del fenomeno?
In altri termini si chiede di sottoporre a prova il seguente sistema di ipotesi
${{: ( mathcal(H)_0: mu=5*10^(-6) ),( mathcal(H)_1: mu>5*10^(-6) ) :}$
Puoi guardare qualunque libro di base sul problema della Verifica di Ipotesi statistiche o anche qui sul forum...ci sono decine e decine di esercizi tutti svolti.
Ovviamente nel caso in questione
"Flamber":
...la valutazione più intuitiva è semplicemente $2/13000 >0.5/100000$,
la differenza è talmente alta che il test non potrà che convalidare la tua intuizione....ma pensa se la media nazionale fosse 10 ogni 100.000 persone.....ti troveresti sempre una media più alta di quella nazionale ovvero di circa 15 omicidi su 100.000 persone invece che 10 ma qui le cose comincerebbero ad essere complicate da risolvere "intuitivamente"
^^^^^^^^^^^^^^^^^^^^
Vediamo un altro esempio interessante:
Abbiamo 123 pazienti con una certa patologia; a 62 pazienti viene somministrato un certo farmaco sperimentale mentre a 61 viene somministrata dell'acqua distillata (un placebo). I risultati sono in tabella;
Trattamento | Guariti | Non Guariti | Totale |
---|---|---|---|
52 | 10 | 62 | No |
21 | 61 | Totale | 92 |
123 |
Dei 62 pazienti trattati ne sono guariti il $84%$
Dei 61 pazienti non trattati ne sono guariti il $66%$
$84%>66%$ quindi il farmaco è efficace? Per rispondere con una certa "fiducia statistica" dobbiamo decidere se veramente $84>66$ oppure se $84~~66$ perché la differenza rientra nella normale variabilità del fenomeno....
.....per questo esistono i test per decidere....e per questo è necessario studiare la teoria prima di cercare soluzioni intuitive.
Ciao @tommik
Ti ringrazio per la risposta e per i suggerimenti. Penso che il problema di fondo sia il fatto che il mio background è da ingegnere elettronico, quindi visto il ruolo fondamentale che essa riveste nel campo delle telecomunicazioni, ho studiato abbastanza approfonditamente la teoria del calcolo delle probabilità, le variabili aleatorie ed i processi stocastici, mentre sono quasi completamente a digiuno di Statistica.
Per questo motivo ho utilizzato erroneamente un interpretazione probabilistica del fenomeno, ottenendo un risultato fuorviante (e questo l'ho capito grazie al tuo ultimo paragrafo), quando invece sarebbero state necessarie valutazioni di natura statistica.
Molte persone (anche in campo scientifico) tendono spesso a confondere queste due discipline, che invece, come tu sicuramente saprai dato che in questo campo ci lavori (o almeno questa è la mia impressione), sono profondamente diverse nonostante abbiano dei punti di convergenza reciproci.
Per farti capire di un pò quale è il mio livello, ad esempio, non ho idea di quale sia il significato del simbolo $mathcal(H)$ in questo contesto.
Sono comunque felice di non aver ricevuto direttamente una risposta, dato che ho ancora qualche giorno per ragionarci sopra, e cercherò di colmare, per quanto possibile, le mie lacune nell'ambito della verifica di ipotesi statistiche. Cercherò di postare qualche calcolo e/o riflessione in modo da ricevere qualche feedback.
Ti faccio quindi una domanda. Ho scelto di utilizzare una distribuzione di Poisson invece di una binomiale, dato che il valore di n e p me lo permettono.
Se non ho capito male, il tuo consiglio è quello di calcolare la media e la varianza della v.a. che segue $P(\lambda)$ e cercare di capire se 2 omicidi rientrano in un intervallo ragionevole. Non riesco però a capire che valore attribuire a $\lambda$.
Non senso che io dovrei modellizzare il fenomeno a livello nazionale ( quindi in questo caso dovrei scegliere $\lambda = 5*10^(-6)$?), calcolare media e varianza su questo valore e vedere se $2/13000$ rientra in un determinato range?
oppure devo scegliere $\lambda = n*p$ ma in questo caso mi ritroverei nella situazione iniziale dato che non avrei un riferimento a livello nazionale.
So he il post è confuso, spero che hi legge riesca a capirci qualcosa
Ti ringrazio per la risposta e per i suggerimenti. Penso che il problema di fondo sia il fatto che il mio background è da ingegnere elettronico, quindi visto il ruolo fondamentale che essa riveste nel campo delle telecomunicazioni, ho studiato abbastanza approfonditamente la teoria del calcolo delle probabilità, le variabili aleatorie ed i processi stocastici, mentre sono quasi completamente a digiuno di Statistica.
Per questo motivo ho utilizzato erroneamente un interpretazione probabilistica del fenomeno, ottenendo un risultato fuorviante (e questo l'ho capito grazie al tuo ultimo paragrafo), quando invece sarebbero state necessarie valutazioni di natura statistica.
Molte persone (anche in campo scientifico) tendono spesso a confondere queste due discipline, che invece, come tu sicuramente saprai dato che in questo campo ci lavori (o almeno questa è la mia impressione), sono profondamente diverse nonostante abbiano dei punti di convergenza reciproci.
Per farti capire di un pò quale è il mio livello, ad esempio, non ho idea di quale sia il significato del simbolo $mathcal(H)$ in questo contesto.
Sono comunque felice di non aver ricevuto direttamente una risposta, dato che ho ancora qualche giorno per ragionarci sopra, e cercherò di colmare, per quanto possibile, le mie lacune nell'ambito della verifica di ipotesi statistiche. Cercherò di postare qualche calcolo e/o riflessione in modo da ricevere qualche feedback.
Ti faccio quindi una domanda. Ho scelto di utilizzare una distribuzione di Poisson invece di una binomiale, dato che il valore di n e p me lo permettono.
Se non ho capito male, il tuo consiglio è quello di calcolare la media e la varianza della v.a. che segue $P(\lambda)$ e cercare di capire se 2 omicidi rientrano in un intervallo ragionevole. Non riesco però a capire che valore attribuire a $\lambda$.
Non senso che io dovrei modellizzare il fenomeno a livello nazionale ( quindi in questo caso dovrei scegliere $\lambda = 5*10^(-6)$?), calcolare media e varianza su questo valore e vedere se $2/13000$ rientra in un determinato range?
oppure devo scegliere $\lambda = n*p$ ma in questo caso mi ritroverei nella situazione iniziale dato che non avrei un riferimento a livello nazionale.
So he il post è confuso, spero che hi legge riesca a capirci qualcosa

"Flamber":
come tu sicuramente saprai dato che in questo campo ci lavori (o almeno questa è la mia impressione)
faccio il contabile

Ecco comunque una sintesi della soluzione in spoiler ma stai certo che dopo aver letto la teoria sarà tutto chiaro....
Qui trovi un esercizio "basic"
Qui invece uno più carino
uno sulla funzione di potenza del test
e qui uno "hard"
e per finire la carrellata questa sorta di tutorial che è l'approccio che preferisco....la logica bayesiana.
Questi solo guardando gli esercizi risolti negli ultimi giorni...ma ce ne sono davvero tanti nel forum
Grazie davvero!
Essenzialmente sto svolgendo un test molto (molto!) lungo per una posizione che mi interessa. Ovviamente non si aspettano che io risponda correttamente a tutte le domande, però la parte puramente di statistica mi stà mettendo un po' in crisi, mentre penso di ottenere un buon punteggio nella parte relativa alla probabilità, logica e al machine learning (si lo so di aver detto di avere un background da ingegnere elettronico, ma a volte si fanno scelte sbagliate nella vita
)
A questo punto ti chiederei se hai un libro da consigliarmi, ad esempio, questo ti sembra valido?
http://faculty.marshall.usc.edu/gareth-james/ISL/
Riuscirei a recuperarlo gratuitamente (e legalmente) in PDF quindi sarebbe una soluzione gradita. Si può scaricare gratuitamente dal sito dell'autore (che deve essere un grande esperto di machine learning ma con un gusto pessimo per il graphic design dei siti web)
Sarò volutamente vago perchè non voglio che qualcuno mi risolva il test (anche perchè poi devo giustificare le risposte in un colloquio in sede, quindi sarebbe comunque inutile). Per aiutarti nel consiglio della scelta del libro, a parte domande del tipo dell'esempio precedente, io ho un dataset molto grande e ci sono domande come:
1)Calcolare media e mediana di un certo valore (ad esempio il salario di una popolazione eterogenea distribuita su una grande area), come definiresti una salario irragionevolmente alto o irragionevolmente basso?
2)Come giustifichi il fatto che i valori di media e mediana differiscano così tanto?
3)Esiste una correlazione significativa tra la feature x e la feature y? come quantificheresti la correlazione
Se hai qualche consiglio su libri (dai sacri testi di statistica fino a statistics for dummies), dispense, video, PDF o qualsiasi altro materiale penso potrebbe essermi molto utile.
Ti ringrazio ancora!
Essenzialmente sto svolgendo un test molto (molto!) lungo per una posizione che mi interessa. Ovviamente non si aspettano che io risponda correttamente a tutte le domande, però la parte puramente di statistica mi stà mettendo un po' in crisi, mentre penso di ottenere un buon punteggio nella parte relativa alla probabilità, logica e al machine learning (si lo so di aver detto di avere un background da ingegnere elettronico, ma a volte si fanno scelte sbagliate nella vita

A questo punto ti chiederei se hai un libro da consigliarmi, ad esempio, questo ti sembra valido?
http://faculty.marshall.usc.edu/gareth-james/ISL/
Riuscirei a recuperarlo gratuitamente (e legalmente) in PDF quindi sarebbe una soluzione gradita. Si può scaricare gratuitamente dal sito dell'autore (che deve essere un grande esperto di machine learning ma con un gusto pessimo per il graphic design dei siti web)
Sarò volutamente vago perchè non voglio che qualcuno mi risolva il test (anche perchè poi devo giustificare le risposte in un colloquio in sede, quindi sarebbe comunque inutile). Per aiutarti nel consiglio della scelta del libro, a parte domande del tipo dell'esempio precedente, io ho un dataset molto grande e ci sono domande come:
1)Calcolare media e mediana di un certo valore (ad esempio il salario di una popolazione eterogenea distribuita su una grande area), come definiresti una salario irragionevolmente alto o irragionevolmente basso?
2)Come giustifichi il fatto che i valori di media e mediana differiscano così tanto?
3)Esiste una correlazione significativa tra la feature x e la feature y? come quantificheresti la correlazione
Se hai qualche consiglio su libri (dai sacri testi di statistica fino a statistics for dummies), dispense, video, PDF o qualsiasi altro materiale penso potrebbe essermi molto utile.
Ti ringrazio ancora!