Cluster analysis in pratica
Salve ragazzi, spero davvero che mi salviate voi, perchè sto naufragando. Sto facendo la tesi di laurea specialistica in Ingegneria Informatica, questo per dirvi che di statistica ne so ben poco, se non le nozioni basilari. Per il mio lavoro di tesi però devo fare un'analisi dei dati che sono stati raccolti durante una fase di testing e valutazione di un software. Ora, prima di incominciare l'analisi dei dati, la professoressa vuole che io faccia una Cluster Analysis delle tipologie di utente che rappresentano il campione di utenti testati. Il problema è che io davvero non so come impostare la cosa.
Vi spiego un po' meglio. Gli utenti di questo software sono bambini, udenti e non udenti, maschi e femmine, tra i 7 e gli 11 anni (divisi in 2 fasce d'interesse: 7/8 anni e 9/11anni), alcuni del centro Italia, altri del nord Italia, alcuni di città, altri definiti "rural" (se non proprio di campagna, si intende comunque che vivono in un contesto lontano dalla vita di città). é stato raccolto del materiale su questi ragazzi riguardo le loro attività preferite (hobby e impegni vari: cosa fanno, quando lo fanno, con chi lo fanno, perchè lo fanno), il loro utilizzo della tecnologia (se hanno o meno un pc, un iphone piuttosto che uno smartphone, un tablet eccetera), cosa guardano in tv, qual è il principale utilizzo del cellulare che fanno, se fanno i compiti da soli, o con adulti, o con amici o fratelli... insomma, tutte queste informazioni sulla loro vita quotidiana.
Ora, io dovrei fare una cluster analysis di questi utenti. Immagino che un risultato ipotetico possa essere di questo tipo: i ragazzi che vivono in città, al nord, fanno un grosso utilizzo delle tecnologie, i maschi in particolare utilizzano molto le console di gioco. I ragazzi di campagna svolgono attività pressocchè all'aperto o in movimento, giocano molto con i fratelli e con i coetanei, utilizzano la tecnologia in percentuale minore... eccetera (ovviamente questa era solo un'ipotesi).
La mia domanda è (so che vi chiedo molto): io so che devo arrivare ad una tabella che contiene i singoli utenti in una dimensione, e le variabili in un'altra, che devo andare a fare una clusterizzazione agglomerativa, la scelta auspicabile sarebbe fare prima Ward (gerarchica) per individuare il corretto numero di Cluster, e poi il metodo delle K-Medie per assegnare bene ogni elemento ai vari gruppi.
Ma praticamente, come imposto la tabella? Qual sono le variabili?
io fino ad ora ho fatto in questo modo (andando per tentativi e soprattutto ad immaginazione): prendevo un aspetto, ad esempio: cosa guardano in tv i bambini?
le varie risposte erano ad esempio: cartoni, film, programmi informativi, programmi sportivi, e queste per me erano le variabili della cluster
-dividevo gli utenti in 16 sottogruppi,che consideravo i gli elementi iniziali dei cluster:
1)Femmina-NonUdente-EtàMinore-Città
2)Femmina-NonUdente-EtàMinore-Rural
3)Femmina-NonUdente-EtàMaggiore-Città
.
.
.
16)Maschio-Udnete-EtàMaggiore-Rural
In realtà avrei dovuto farne 32, mettendo anche la suddivisione tra centro e nord, ma l'ho omessa per non impazzire.
riempivo la tabella inserendo le ricorrenze (quanti bambini della categoria 1 vede i cartoni? quanti i film... eccetera... ) e, tramite una macro su excel facevo la cluster col metodo di ward, e cercavo di trarre un senso guardando il dendogramma che ne usciva.
Ma, seppure avevo la fortuna che un dendogramma sembrasse sensato, se poi andavo a valutare un altro aspetto (ad esempio, con chi fanno i compiti i bambini? quali attività svolgono nel tempo libero...) il dendogramma che ne risultava era completamente diverso, nel senso che non raggruppava le categorie allo stesso modo.
Immagino che sicuramente la mia soluzione è completamente sbagliata, ma anche guardando su internet non ho trovato nessun esempio/manuale/guida che mi spiegasse , proprio in pratica, e con casi complessi come il mio, come si impostava la tabella per la cluster analysis, se devo impostarne una unica o più di una...
Inoltre, poichè i bambini che hanno fatto il test erano classi scolastiche, ovviamente le categorie non avevano la stessa numerosità, anzi, alcune di queste erano vuote (ad esempio, non esistono sordi rural tra i bambini testati), quindi, quando vado a mettere le ricorrenze, devo mettere le percentuali invece che la cifra esatta?
Insomma, come vedete, sono davvero disperata e totalmente ignorante. Potete aiutarmi??
Vi spiego un po' meglio. Gli utenti di questo software sono bambini, udenti e non udenti, maschi e femmine, tra i 7 e gli 11 anni (divisi in 2 fasce d'interesse: 7/8 anni e 9/11anni), alcuni del centro Italia, altri del nord Italia, alcuni di città, altri definiti "rural" (se non proprio di campagna, si intende comunque che vivono in un contesto lontano dalla vita di città). é stato raccolto del materiale su questi ragazzi riguardo le loro attività preferite (hobby e impegni vari: cosa fanno, quando lo fanno, con chi lo fanno, perchè lo fanno), il loro utilizzo della tecnologia (se hanno o meno un pc, un iphone piuttosto che uno smartphone, un tablet eccetera), cosa guardano in tv, qual è il principale utilizzo del cellulare che fanno, se fanno i compiti da soli, o con adulti, o con amici o fratelli... insomma, tutte queste informazioni sulla loro vita quotidiana.
Ora, io dovrei fare una cluster analysis di questi utenti. Immagino che un risultato ipotetico possa essere di questo tipo: i ragazzi che vivono in città, al nord, fanno un grosso utilizzo delle tecnologie, i maschi in particolare utilizzano molto le console di gioco. I ragazzi di campagna svolgono attività pressocchè all'aperto o in movimento, giocano molto con i fratelli e con i coetanei, utilizzano la tecnologia in percentuale minore... eccetera (ovviamente questa era solo un'ipotesi).
La mia domanda è (so che vi chiedo molto): io so che devo arrivare ad una tabella che contiene i singoli utenti in una dimensione, e le variabili in un'altra, che devo andare a fare una clusterizzazione agglomerativa, la scelta auspicabile sarebbe fare prima Ward (gerarchica) per individuare il corretto numero di Cluster, e poi il metodo delle K-Medie per assegnare bene ogni elemento ai vari gruppi.
Ma praticamente, come imposto la tabella? Qual sono le variabili?
io fino ad ora ho fatto in questo modo (andando per tentativi e soprattutto ad immaginazione): prendevo un aspetto, ad esempio: cosa guardano in tv i bambini?
le varie risposte erano ad esempio: cartoni, film, programmi informativi, programmi sportivi, e queste per me erano le variabili della cluster
-dividevo gli utenti in 16 sottogruppi,che consideravo i gli elementi iniziali dei cluster:
1)Femmina-NonUdente-EtàMinore-Città
2)Femmina-NonUdente-EtàMinore-Rural
3)Femmina-NonUdente-EtàMaggiore-Città
.
.
.
16)Maschio-Udnete-EtàMaggiore-Rural
In realtà avrei dovuto farne 32, mettendo anche la suddivisione tra centro e nord, ma l'ho omessa per non impazzire.
riempivo la tabella inserendo le ricorrenze (quanti bambini della categoria 1 vede i cartoni? quanti i film... eccetera... ) e, tramite una macro su excel facevo la cluster col metodo di ward, e cercavo di trarre un senso guardando il dendogramma che ne usciva.
Ma, seppure avevo la fortuna che un dendogramma sembrasse sensato, se poi andavo a valutare un altro aspetto (ad esempio, con chi fanno i compiti i bambini? quali attività svolgono nel tempo libero...) il dendogramma che ne risultava era completamente diverso, nel senso che non raggruppava le categorie allo stesso modo.
Immagino che sicuramente la mia soluzione è completamente sbagliata, ma anche guardando su internet non ho trovato nessun esempio/manuale/guida che mi spiegasse , proprio in pratica, e con casi complessi come il mio, come si impostava la tabella per la cluster analysis, se devo impostarne una unica o più di una...
Inoltre, poichè i bambini che hanno fatto il test erano classi scolastiche, ovviamente le categorie non avevano la stessa numerosità, anzi, alcune di queste erano vuote (ad esempio, non esistono sordi rural tra i bambini testati), quindi, quando vado a mettere le ricorrenze, devo mettere le percentuali invece che la cifra esatta?
Insomma, come vedete, sono davvero disperata e totalmente ignorante. Potete aiutarmi??
Risposte
Ciao, non sono molto esperto ma provo comunque ad aiutarti.
Nella tua analisi temo ci sia un problema. Per il metodo di Ward tu dovresti usare la matrice dei dati ma nel tuo caso tutte le variabili sono variabili qualitative eventualmente ricodificate come 0 e 1 ma non significa che quei valori li puoi usare veramente come numeri.
Invece per quanto riguarda la tabella credo che semplicemente devi mettere una osservazione per ogni riga e poi mettere tutte le variabili che ti interessano nelle colonne
Nella tua analisi temo ci sia un problema. Per il metodo di Ward tu dovresti usare la matrice dei dati ma nel tuo caso tutte le variabili sono variabili qualitative eventualmente ricodificate come 0 e 1 ma non significa che quei valori li puoi usare veramente come numeri.
Invece per quanto riguarda la tabella credo che semplicemente devi mettere una osservazione per ogni riga e poi mettere tutte le variabili che ti interessano nelle colonne