Statistica applicata alle scienze sociali

Fai una domanda Tutte le categorie

thebest_i_one

10 dic 2013, 10:40

Salve ragazzi,
io studio fisica per cui non mi occupo all'università di scienze sociali, però insieme ad altri ragazzi ho deciso di effettuare un sondaggio con campione scientificamente scelto. Non sto qui a scrivervi delle difficoltà che nascono quando si cerca di scegliere il campione in modo casuale.
Supponendo di essere riuscito a scegliere adeguatamente il campione, sono capace di attribuire degli errori alle percentuali ottenute ad ogni domanda. Purtroppo per diversi problemi, siamo riusciti a fare il test a 150 persone su una popolazione totale a cui il test è rivolto di circa 10000 persone. Ora mi pongo il seguente quesito.
Consideriamo ad esempio domande a risposta multipla, in cui l'intervistato ha due possibili scelte.
Io per attribuire l'errore di misura ho usato la seguente formula
\(\displaystyle \sigma(\varphi)= \sqrt( \tfrac{pq}{n}) \)

dove \(\displaystyle \varphi=k/n \) con k numero di successi su n prove.
Ora usando la disuguaglianza di Bienaymè-Cebicev, si perviene ad un buon risultato:
\(\displaystyle P(\arrowvert \varphi-p \arrowvert >\epsilon) \leq \frac{pq}{n \epsilon^2} \)

Non sono sicuro che questo risultato sia sufficiente a giustificare il fatto di aver svolto il test "soltanto" a 150 persone. Usando queste considerazioni non si fa riferimento da nessuna parte alla popolazione a cui è rivolto il test. Ho letto in rete che di solito questi sondaggi su base nazionale vengono effettuati a 1000-2000 persone. Però la popolazione totale è di circa 60 milioni di abitanti. Allora intuitivamente ho pensato che 150 persone fosse un numero sufficiente ad ottenere un buon risultato, almeno per i nostri scopi. Voi che ne pensate?

Risposte

thebest_i_one

10 dic 2013, 09:54

Non l'ho scritto, ma ovviamente se utilizziamo la disuguaglianza praticamente, escono numeri abbastanza confortanti. Per esempio per p = 0.5 ed epsilon = 0.1, troviamo che P = 0.16 circa. Insomma mi sembra un risultato accettabile.

thebest_i_one

12 dic 2013, 09:34

up.
Dai, datemi un'opinione. Anche se avete voglia di offendermi, non vi preoccupate ahahah.
Non importa se non siete sicuri di quello che scrivete.

thebest_i_one

16 dic 2013, 08:51

Ho provato a fare anche delle simulazioni Montecarlo, ottenendo degli ottimi risultati, che sono in linea con le formule precedenti. Insomma ritenete soddisfacenti queste giustificazioni al numero di campionamenti, o c'è qualcosa che non ho considerato?

dasalv12

16 dic 2013, 15:08

Ciao, come hai sperimentato campionare da una popolazione finita, ma numericamente importante, è assai complicato e credo che questa sia la fase davvero più importante del processo.
Secondo me 150 su 10.000 potrebbe essere un buon numero, ma dipende. Non so quale fenomeno stai studiando, però trattandosi di scienze sociali forse il campionamento casuale semplice non è adeguato. Ti dico che devi fare delle riflessioni un po' da umanista e uscire dalla tua formazione di fisico: ricordati che è più importante scegliere un campione rappresentativo che un campione molto numeroso ma poco rappresentativo, quindi un campione di n=50, ma rappresentativo, può essere migliore di uno di n=150 scelto casualmente.
In genere il tipo di campionamento dipende dal fenomeno studiato, prova ad approfondire i campionamenti stratificato, a grappoli e sistematico. Per applicare questi metodi dovresti avere già delle informazioni sulla popolazione.

thebest_i_one

16 dic 2013, 16:11

"Injuria":
Ciao, come hai sperimentato campionare da una popolazione finita, ma numericamente importante, è assai complicato e credo che questa sia la fase davvero più importante del processo.
Secondo me 150 su 10.000 potrebbe essere un buon numero, ma dipende. Non so quale fenomeno stai studiando, però trattandosi di scienze sociali forse il campionamento casuale semplice non è adeguato. Ti dico che devi fare delle riflessioni un po' da umanista e uscire dalla tua formazione di fisico: ricordati che è più importante scegliere un campione rappresentativo che un campione molto numeroso ma poco rappresentativo, quindi un campione di n=50, ma rappresentativo, può essere migliore di uno di n=150 scelto casualmente.
In genere il tipo di campionamento dipende dal fenomeno studiato, prova ad approfondire i campionamenti stratificato, a grappoli e sistematico. Per applicare questi metodi dovresti avere già delle informazioni sulla popolazione.

Grazie della risposta, sono molto contento di confrontarmi con qualcun altro prima di pubblicare i risultati, perchè non voglio scrivere sciocchezze.
La scelta del campionamento casuale è stata ponderata, avevo pensato a fare altri tipi di campionamenti, però devi sapere che avevamo scarsi mezzi umani e non molto tempo da dedicare alla cosa. Noi siamo dei ragazzi giovani, non tutti con la stessa formazione, ed è stato difficile spiegare come effettuare il campionamento casuale semplice a tutti.

La popolazione è composta dalle persone giovani dai 16 ai 30 anni della mia città. Per rendere più rappresentativo il campione, ho pensato di renderlo più o meno omogeneo rispetto alla provenienza geografica (vari quartieri della città). Nel questionario abbiamo inserito domande relative alla professione svolta. Sappiamo che il risultato di questo sondaggio non può essere perfettamente rappresentativo dell'opinione di tutta la popolazione. Però entro certi limiti, può darci un'idea dell'opinione della popolazione su domande in cui hanno risposto in modo compatto.
Diciamo anche che la casualità attribuita al campionamento è piuttosto generosa. Una parte del campione è sicuramente casuale, perchè è avvenuto tramite interviste per strada, in varie zone della città e ad orari via via diversi. Un grande contrubuto al campionamento però l'ha dato facebook. Secondo me le persone che hanno svolto il test online non possono essere considerate casuali, ma in maggioranza sono persone che sono sensibili a certe tematiche proposte nel test. Avevo sorvolato su queste perplessità, perchè non ci possiamo fare niente. Non abbiamo i mezzi per fare un campionamento migliore. Speravo di cavarmela a buon mercato

. Tra l'altro noi non abbiamo a disposizione nessun dato statistico sulla popolazione.
Però c'è una domanda in cui le risposte vanno da 1-10, in cui sono ragionevolmente sicuro di quale sarebbe stata la risposta media e che non solo conferma le mie aspettative, ma mi fa sospettare nasconda con buon approssimazione una distribuzione gaussiana. Dovrei fare un test del "chi quadro" per verificarlo. Secondo te, questo putrebbe essere un indizio a favore della bontà del campione?
Grazie dell'attenzione.

dasalv12

16 dic 2013, 16:46

Stai ragionando ancora da fisico

. Non è un male, possiedi molti strumenti analitici, ma stai studiando un fenomeno sociale. Quindi, in un sondaggio, con risposte da 1 a 10 non stiamo parlando di grandezze scalari!!!
Quando pretendi una risposta da 1 a 10 il soggetto non ti darà mai una misura, ti offre un punto di vista, una valutazione quindi è vero che ti risponde con un numero, ma quel numero corrisponde ad una qualità non ad una quantità: la distanza da 5 a 6, come sappiamo dai ricordi liceali è enorme. Quella da 7 a 8 un po' meno. Poi è naturale che i soggetti tendano a dare risposte "medie", una risposta media potrebbe anche voler significare la totale mancanza di un'opinione. Anche qui ricorda che le risposte dipendono anche dall'ordine delle domande e dal fatto che in qualche modo tu costringi a delle risposte che vuoi tu, tu hai costretto le persone a dare un numero, ma avrebbe potuto essere un colore, una valutazione (buono, ottimo, scarso) etc. Dunque la bontà del campionamento, purtroppo, non la puoi valutare da questo.
Da quanto ho capito stai svolgendo un'indagine su giovani e lavoro di un piccolo comune o quartiere. Siamo in un paese sviluppato e su questi temi è impossibile che non esistano statistiche istituzionali al riguardo. Tanto per darti un'ispirazione c'è questo lavoro che trovo davvero innovativo che riguarda il comune di Milano: http://www.sociologiadip.unimib.it/dipa ... dPaper=864

Poi ci sarebbe tanto da dire sul metodo di incontro: facebook e la strada. Quindi non è detto che tu stia considerando una popolazione rappresentativa, consideri chi esce di casa abitualmente e gli utenti assidui di Facebook. In buona sostanza tagli fuori i casalinghi, i molto impegnati, quelli che non aprono mai Facebook o non ce l'hanno, quelli che usano solo l'auto per uscire etc. Capisci che in un'analisi sull'occupazione questo inquina molto i tuoi risultati.

thebest_i_one

16 dic 2013, 17:22

"Injuria":
Stai ragionando ancora da fisico . Non è un male, possiedi molti strumenti analitici, ma stai studiando un fenomeno sociale. Quindi, in un sondaggio, con risposte da 1 a 10 non stiamo parlando di grandezze scalari!!!
Quando pretendi una risposta da 1 a 10 il soggetto non ti darà mai una misura, ti offre un punto di vista, una valutazione quindi è vero che ti risponde con un numero, ma quel numero corrisponde ad una qualità non ad una quantità: la distanza da 5 a 6, come sappiamo dai ricordi liceali è enorme. Quella da 7 a 8 un po' meno. Poi è naturale che i soggetti tendano a dare risposte "medie", una risposta media potrebbe anche voler significare la totale mancanza di un'opinione. Anche qui ricorda che le risposte dipendono anche dall'ordine delle domande e dal fatto che in qualche modo tu costringi a delle risposte che vuoi tu, tu hai costretto le persone a dare un numero, ma avrebbe potuto essere un colore, una valutazione (buono, ottimo, scarso) etc. Dunque la bontà del campionamento, purtroppo, non la puoi valutare da questo.
Da quanto ho capito stai svolgendo un'indagine su giovani e lavoro di un piccolo comune o quartiere. Siamo in un paese sviluppato e su questi temi è impossibile che non esistano statistiche istituzionali al riguardo. Tanto per darti un'ispirazione c'è questo lavoro che trovo davvero innovativo che riguarda il comune di Milano: http://www.sociologiadip.unimib.it/dipa ... dPaper=864

Poi ci sarebbe tanto da dire sul metodo di incontro: facebook e la strada. Quindi non è detto che tu stia considerando una popolazione rappresentativa, consideri chi esce di casa abitualmente e gli utenti assidui di Facebook. In buona sostanza tagli fuori i casalinghi, i molto impegnati, quelli che non aprono mai Facebook o non ce l'hanno, quelli che usano solo l'auto per uscire etc. Capisci che in un'analisi sull'occupazione questo inquina molto i tuoi risultati.

fortunatamente non sto effettuando un'analisi sull'occupazione

. Proverò a spiegarti meglio cosa sto facendo. Siamo un'associazione giovanile che opera sul territorio, principalmente di sinistra e abbiamo fatto domande di politica locale, di tematiche giovanili, recupero del territorio, sicurezza, ambiente. Le domande sono tutte relative a fenomeni locali. Non abbiamo fatto alcuna domanda sull'orientamento politico dell'intervistato. Pensavo che una buona distribuzione geografica delle abitazioni degli intervistati e una buona distribuzione lavorativa fossero sufficienti a garantire una certa rappresentatività. Comunque su queste cose forse riesco a procurarmi qualche dato ufficiale.

dasalv12

16 dic 2013, 18:30

Allora cambiano le cose, nel senso che il tuo non è più un campionamento casuale semplice, ma un campionamento stratificato in base al reddito ed alla zona (che spesso sono correlati). I comuni hanno dati dettagliati sul reddito ai fini dell'addizionale comunale irpef. La verifica della bontà dei tuoi dati potresti farla confrontando i tuoi stimatori con i dati complessivi.

thebest_i_one

16 dic 2013, 18:38

"Injuria":
Allora cambiano le cose, nel senso che il tuo non è più un campionamento casuale semplice, ma un campionamento stratificato in base al reddito ed alla zona (che spesso sono correlati). I comuni hanno dati dettagliati sul reddito ai fini dell'addizionale comunale irpef. La verifica della bontà dei tuoi dati potresti farla confrontando i tuoi stimatori con i dati complessivi.

Ah ok. Adesso ho capito cosa ho fatto

. Secondo te questi dati posso trovarli online, o devo farmi necessariamente un giro al comune?
Spero ci siano dati relativi al numero di abitanti per zona.
Comunque ti ringrazio, sei stato molto gentile.

vict85

16 dic 2013, 19:14

Sinceramente mi sarei limitato a considerare da 0 a 5. Nel senso che le categorie di apprezzamento o meno sono molto più nette. Dare 7, 8 o 9 dipende anche da questioni come la timidezza del soggetto. Insomma uno potrebbe sentirsi intimorito a dare voti troppo netti mentre altri potrebbero esserne più propensi. In parte potrebbe esserci il problema con 0-5 ma è comunque minore. Vi è inoltre la questione che con il tempo le persone si annoiano a rispondere e potrebbero rispondere in modo meno ragionato. Inoltre alcuni potrebbero rispondere quello che credono sia socialmente meglio rispondere, o che convenga rispondere.

Esistono test per misurare quanto una determinato caratteristica possa influenzare i risultati.

Detto questo 150 persone è un numero accettabile. Hai intenzione di pubblicare su giornali scientifici o sul web?

thebest_i_one

16 dic 2013, 20:36

Giornali scientifici? no, il livello è molto più basso. Con il termine pubblicare intendevo rendere noto alla cittadinanza, agli intervistati e sul web. Siamo solo una realtà locale.
Per quanto riguarda la domanda che va da 1 a 10, butto lì una proposta: potremmo riscalare le risposte da 1 a 5. Per cercare di ovviare al problema.
In realtà questa domanda è stato un utile test di come stava andando il campionamento. Ora vi dico chiaramente qual è, così ci capiamo meglio. "quanto conta la politica clientelare nelle elezioni comunali del tuo paese?"
Riscalando e guardando l'istogramma si nota immediatamente a occhio una bella gaussiana con picco in 5 e \(\displaystyle \sigma=1,5 \). L'unica pecca è un picco anomalo in 1. GLi intervistatori mi hanno raccontato che alcuni intervistati non riuscivano a capire la domanda e non conoscevano il significato della parola clientelare. Questa cosa da un punto di vista statistico, oltre che culturale, è un bel problema. Insomma io sto cercando di salvare dalla spazzatura il lavoro svolto. In fondo è la nostra prima esperienza in questo tipo di attività. Qualcosa di cui parlare avremo sicuramente, anche se la qualità del lavoro svolto non è sicuramente delle migliori.

dasalv12

16 dic 2013, 20:37

"Mimmo":
Ah ok. Adesso ho capito cosa ho fatto . Secondo te questi dati posso trovarli online, o devo farmi necessariamente un giro al comune?
Spero ci siano dati relativi al numero di abitanti per zona.

Ci sono le tavole dell'Istat, ma sono centinaia per ogni argomento. Ti conviene rivolgerti al comune, se sei fortunato esiste anche un ufficio statistica e poi è appena stato fatto un censimento, quindi hai dati relativamente recenti.
Una volta ottenuti i dati complessivi puoi effettuare la stratificazione vera e propria, che altro non è che dividere in gruppi più omogenei il tuo campione ed assegnarli dei pesi per farli assomigliare alla popolazione totale.
Questa procedura almeno correggerebbe un po' la selezione del tuo campione.
Per la verifica delle stime a quel punto basta giocare un po' coi dati: hai i parametri totali (media e varianza), hai quelli campionari li confronti e vedi se si assomigliano.
Poi un metodo un po' rustico per la verifica della correttezza dello stimatore è prendere dei sotto campioni sempre più numerosi e vedere s aumentando la numerosità il parametro stimato si avvicina al parametro censito dal comune.

"vict":
Sinceramente mi sarei limitato a considerare da 0 a 5. Nel senso che le categorie di apprezzamento o meno sono molto più nette. Dare 7, 8 o 9 dipende anche da questioni come la timidezza del soggetto. Insomma uno potrebbe sentirsi intimorito a dare voti troppo netti mentre altri potrebbero esserne più propensi. In parte potrebbe esserci il problema con 0-5 ma è comunque minore. Vi è inoltre la questione che con il tempo le persone si annoiano a rispondere e potrebbero rispondere in modo meno ragionato. Inoltre alcuni potrebbero rispondere quello che credono sia socialmente meglio rispondere, o che convenga rispondere.

Per questo ci voglio sociologi e psicologi per formulare un questionario serio, si calcola anche il tempo con cui viene compilato o se è orale le pause e le esitazioni (i famosi puntini di sospensione nei taccuini degli psicologi).

Comunque fare un lavoro così è lodevole e 150 questionari da analizzare non sono affatto pochi è un bel lavoro, non buttatelo via. Inoltre cercate di presentarlo bene, diciamo che è anche un lavoro artistico.

dasalv12

16 dic 2013, 20:53

Riscalando e guardando l'istogramma si nota immediatamente a occhio una bella gaussiana con picco in 5 e σ=1,5. L'unica pecca è un picco anomalo in 0.

Vedi che ragioni da fisico?

Perché sarebbe anomalo il picco in 0? Forse gli intervistati, costretti a scegliere da una scala da 1 a 10, hanno scelto di "correggere" il tuo questionario trasformando lo 0=NO e il 5=SI. Oppure semplicemente chi ha messo 0 pensa proprio che il clientelismo non conti nulla, ci sono distribuzioni con una o più mode, ma non vuol dire che siano sbagliate.
Comunque ripeto: questo dato non lo interpreterei mai come una distribuzione normale.

I dati censuari sono qui, puoi selezionare il tuo comune:
http://dati.istat.it/Index.aspx?DataSet ... S1&Lang=it

thebest_i_one

16 dic 2013, 21:15

questa è l'immagine riscalata.

Però credo sia come dici tu, ora ti mostro l'immagine originale
[img]https://chart.googleapis.com/chart?cht=bvs&chs=345x360&chbh=24%2C6&chxt=x%2Cy&chxl=0%3A%7C0%7C1%7C2%7C3%7C4%7C5%7C6%7C7%7C8%7C9%7C10%7C1%3A%7C0%7C12%7C24%7C36%7C48%7C60&chds=0%2C60&chco=c879d3%7Ca21fb6%7Cce88d8%7Caf3dc0%7Cbb5bc9%7Cc16ace%7C9601ac%7Cb54cc5%7Ca92ebb%7C9c10b1%7Cd497dd&chxs=0%2C000000%2C12%2C0%2Clt%7C1%2C000000%2C12%2C1%2Clt&chd=t%3A12%2C1%2C7%2C6%2C6%2C12%2C7%2C12%2C15%2C10%2C59[/img]

non è vero che è una gaussiana. Quando l'ho detto all'inizio pensavo già a riscalarla

.
Comunque gli intervistatori mi hanno detto che le persone che rispondevano 0,1, 2 e 3 non avevano capito bene la domanda, o almeno così gli sembrava. Non è l'unica domanda su cui hanno avuto delle incertezze.

Grazie per il link

vict85

16 dic 2013, 21:40

Sinceramente non penso che sia serio portare avanti il principio secondo cui chi ha risposto meno di 5 non avesse compreso la domanda. Insomma la predominanza di sì è netta indipendentemente dalla loro presunta incapacità ad interpretare la domanda.

Non ritengo inoltre sensato riscalare i valori: la mia opinione sulla scala dipendeva da opinioni di natura socio-psicologica e non di natura statistico-numerica. In poche parole io ritenevo che la scala
-2 non sono d’accordo
-1 sono lievemente in disaccordo
0 non ho una opinione/non so/non capisco la domanda
1 sono lievemente in disaccordo
2 sono d’accordo
fosse di più facile compressione ed immediatezza.
Nello scalare tu invece perdi dati. Non è per esempio immediato mettere il 9 con il 10 oppure il 5 con il 6. Il tuo modo, per esempio, non è a priori meglio che raggruppare 6-7-8-9 in un'unica classe.

Neanche secondo me è una distribuzione normale.

thebest_i_one

16 dic 2013, 21:55

"vict85":
Sinceramente non penso che sia serio portare avanti il principio secondo cui chi ha risposto meno di 5 non avesse compreso la domanda. Insomma la predominanza di sì è netta indipendentemente dalla loro presunta incapacità ad interpretare la domanda.

Non ritengo inoltre sensato riscalare i valori: la mia opinione sulla scala dipendeva da opinioni di natura socio-psicologica e non di natura statistico-numerica. In poche parole io ritenevo che la scala
-2 non sono d’accordo
-1 sono lievemente in disaccordo
0 non ho una opinione/non so/non capisco la domanda
1 sono lievemente in disaccordo
2 sono d’accordo
fosse di più facile compressione ed immediatezza.
Nello scalare tu invece perdi dati. Non è per esempio immediato mettere il 9 con il 10 oppure il 5 con il 6. Il tuo modo, per esempio, non è a priori meglio che raggruppare 6-7-8-9 in un'unica classe.

Neanche secondo me è una distribuzione normale.

Capisco. Il mio era un tentativo di riparare all'errore commesso. In effetti qualcun'altro mi aveva fatto notare questo errore, però ormai il test era già iniziato e non potevo più correggerlo.
Però può essere che i dati così come sono, sono comunque interpretabili ed utilizzabili. Magari non si riesce a ricavarne un numero, però qualitativamente si può sostenere che c'è una netta predominanza di si.

Rispondi

Per rispondere a questa discussione devi prima effettuare il login.

Statistica applicata alle scienze sociali

Segnala Post di

Aggiungi immagine

Aggiungi allegato

Aggiungi Link

Aggiungi formula matematica