Valore atteso del n° di comuni in campionamento di famiglie
Ciao a tutti, da giorni mi sto scervellando su un problema relativo al campionamento che però può essere semplicemente convertito in un problema di probabilità. Ve lo espongo e spero che qualcuno possa darmi la soluzione, o quanto meno una dritta:
supponiamo di dover scegliere, per una certa indagine campionaria, 60000 famiglie (n) dal totale delle 25000000 (N) famiglie italiane. Il totale delle famiglie italiane sono dislocate sui 8094 comuni italiani, in maniera più o meno consistente a seconda della popolazione del comune. Qual'è il valore atteso del numero di comuni, relativi alle famiglie che entrano nel campione?
Per cercare di essere più chiaro riformulo il problema nella classica forma dei problemi di probabilità
: un'urna contiene 25000000 palline colorate, per l'esattezza di 8094 colori diversi; selezionandone 60000, qual'è il valore atteso del numero dei colori delle palline estratte?
Alcune considerazioni: le palline (o le famiglie), essendo tutte uguali, hanno tutte la stessa probabilità di essere pescate, ma ovviamente le palline di un colore molto presente (grandi città) hanno una probabilità maggiore di entrare nel campione. Per calcolare il valore atteso del numero di città che entrano nel campione sono partito dal caso limite, cioè i colori (città) che hanno un numero di palline > di 60000: sono 29, quindi la probabilità di pescare tutte le 60000 palline di un unico colore è data da 29 sulle combinazioni di 60000 su 25000000.
Questo dovrebbe essere il primo addendo (di 8094) di una sommatoria in cui figura il numero di colori per le relative probabilità. Ma come procedere?
Scusate fin d'ora se utilizzo numeri così grandi, che appesantiscono i calcoli, ma sono quelli che sto utilizzando. Sono disposto a risistemare l'esercizio con numerosità più esigue qualora ce ne fosse il bisogno.
Grazie mille anticipatamente
M
supponiamo di dover scegliere, per una certa indagine campionaria, 60000 famiglie (n) dal totale delle 25000000 (N) famiglie italiane. Il totale delle famiglie italiane sono dislocate sui 8094 comuni italiani, in maniera più o meno consistente a seconda della popolazione del comune. Qual'è il valore atteso del numero di comuni, relativi alle famiglie che entrano nel campione?
Per cercare di essere più chiaro riformulo il problema nella classica forma dei problemi di probabilità

Alcune considerazioni: le palline (o le famiglie), essendo tutte uguali, hanno tutte la stessa probabilità di essere pescate, ma ovviamente le palline di un colore molto presente (grandi città) hanno una probabilità maggiore di entrare nel campione. Per calcolare il valore atteso del numero di città che entrano nel campione sono partito dal caso limite, cioè i colori (città) che hanno un numero di palline > di 60000: sono 29, quindi la probabilità di pescare tutte le 60000 palline di un unico colore è data da 29 sulle combinazioni di 60000 su 25000000.
Questo dovrebbe essere il primo addendo (di 8094) di una sommatoria in cui figura il numero di colori per le relative probabilità. Ma come procedere?

Scusate fin d'ora se utilizzo numeri così grandi, che appesantiscono i calcoli, ma sono quelli che sto utilizzando. Sono disposto a risistemare l'esercizio con numerosità più esigue qualora ce ne fosse il bisogno.
Grazie mille anticipatamente
M
Risposte
"dilemma":
quindi la probabilità di pescare tutte le 60000 palline di un unico colore è data da 29 sulle combinazioni di 60000 su 25000000.
Penso che non sia corretto. La formula corretta è
\(\displaystyle \frac{\binom{\text{abitanti città 1}}{6000}+\binom{\text{abitanti città 2}}{6000}+...}{\binom{25000000}{6000}} \)
Il problemà è associato al "Coupon collector’s problem".
http://www.fukuoka-edu.ac.jp/~nakata/papers/coumaj.pdf
Ma non so la risposta
http://www.fukuoka-edu.ac.jp/~nakata/papers/coumaj.pdf
Ma non so la risposta

grazie 1000. Leggerò attentamente!
Ho comunque preferito aggirare il problema facendo una simulazione di campionamento con R. Appena avrò i risultati li scriverò dettagliatamente.
Ho comunque preferito aggirare il problema facendo una simulazione di campionamento con R. Appena avrò i risultati li scriverò dettagliatamente.
Ciao a tutti.
Innanzitutto ringrazio wnvl per la cortesia.
Io ho preferito concentrarmi su una simulazione del campionamento, poiché le numerosità che avevo nel mio caso particolare, rendevano il calcolo attraverso formule difficoltoso.
Vi illustro dunque la simulazione che ho fatto:
utilizzando il pacchetto PPS in R ho fatto la simulazione di un “probability proportional sampling with replacement”; così facendo non ho campionato direttamente le 60000 famiglie dall'universo delle 25000000 di famiglie italiane, ma ho fatto un campionamento di 60000 comuni italiani, dagli 8094 comuni italiani, CON REIMMISSIONE, così che ogni comune possa essere estratto anche più volte, simulando l'estrazione di una singola famiglia appartenente a quello stesso comune. Questo disegno di campionamento, oltre ad avere la caratteristica della reimmissione, è proporzionale, cioè i comuni non hanno tutti la stessa probabilità d'essere estratti, ma essa varia a seconda del numero di famiglie presenti nel comune (così da permettere che Roma abbia una probabilità d'esser estratta maggiore di Pedesina ).
La simulazione prevedeva quindi l'estrazione di un numero elevato di campioni (tutti con n=60000) ed il calcolo della media del numero di comuni coinvolti nelle varie estrazioni.
I risultati riportati di seguito sono riferiti a campioni selezionati con e senza stratificazione dei comuni, ottenuta sulla base dell'incrocio delle 20 regioni italiane per 6 classi di popolazione residente.
Effettuando il campionamento senza alcuna stratificazione, si ottiene che dopo 140 simulazioni il numero medio di comuni coinvolti è pari a 6340 (numero poco variabile, compreso tra 6290 e 6500 circa).
Tenendo conto degli strati, la numerosità media su 500 estrazioni è di 4108 (Min. 3093 - Max. 5522).
Il numero è circa la metà dell'N, cioè del numero totale dei comuni italiani, ed è davvero molto più alto di quello che intuitivamente avrei ipotizzato.
Spero di essere riuscito ad esprimermi chiaramente, data la complessità del caso.
A presto
Innanzitutto ringrazio wnvl per la cortesia.
Io ho preferito concentrarmi su una simulazione del campionamento, poiché le numerosità che avevo nel mio caso particolare, rendevano il calcolo attraverso formule difficoltoso.
Vi illustro dunque la simulazione che ho fatto:
utilizzando il pacchetto PPS in R ho fatto la simulazione di un “probability proportional sampling with replacement”; così facendo non ho campionato direttamente le 60000 famiglie dall'universo delle 25000000 di famiglie italiane, ma ho fatto un campionamento di 60000 comuni italiani, dagli 8094 comuni italiani, CON REIMMISSIONE, così che ogni comune possa essere estratto anche più volte, simulando l'estrazione di una singola famiglia appartenente a quello stesso comune. Questo disegno di campionamento, oltre ad avere la caratteristica della reimmissione, è proporzionale, cioè i comuni non hanno tutti la stessa probabilità d'essere estratti, ma essa varia a seconda del numero di famiglie presenti nel comune (così da permettere che Roma abbia una probabilità d'esser estratta maggiore di Pedesina ).
La simulazione prevedeva quindi l'estrazione di un numero elevato di campioni (tutti con n=60000) ed il calcolo della media del numero di comuni coinvolti nelle varie estrazioni.
I risultati riportati di seguito sono riferiti a campioni selezionati con e senza stratificazione dei comuni, ottenuta sulla base dell'incrocio delle 20 regioni italiane per 6 classi di popolazione residente.
Effettuando il campionamento senza alcuna stratificazione, si ottiene che dopo 140 simulazioni il numero medio di comuni coinvolti è pari a 6340 (numero poco variabile, compreso tra 6290 e 6500 circa).
Tenendo conto degli strati, la numerosità media su 500 estrazioni è di 4108 (Min. 3093 - Max. 5522).
Il numero è circa la metà dell'N, cioè del numero totale dei comuni italiani, ed è davvero molto più alto di quello che intuitivamente avrei ipotizzato.
Spero di essere riuscito ad esprimermi chiaramente, data la complessità del caso.
A presto