Cluster
Ciao a tutti,
volevo fare una domanda teorica sulla cluster analysis: ha senso statisticamente fare un'analisi di tipo cluster su una sola variabile?
Mi spiego meglio, ho un data set relativo a 60 siti che investono in pubbiclità e 2 variabili.
Queste due variabili sono una il percorso(Home oppure sottopagina) dove avviene la pubblicità e l'altro la posizione(header, footer,ecc...)
Ho combinato tutte le possibilità: Home_footer, Home_popup, Sottopagina_header,ecc... ottenendo 12 variabili, quindi un nuovo data set con 60 righe e 12 colonne. Ho poi deciso di dare dei pesi nel senso che Home_footer sarà più importante di sottopagina_footer e ho aggiornato quindi le 12 colonne. Cioè se per esempio ho deciso che nella mia scala di valori Home_footer vale 2, ho moltiplicato tutte le righe della colonna Home_footer per 2.
A questo punto ho creato un'altra colonne in cui si ha la somma di tutte le 12 colonne precedentemente descritte, per ciascun riga. Su quest'ultima colonna creata vorrei fare una cluster analysis, statisticamente il discorso può avere senso?
volevo fare una domanda teorica sulla cluster analysis: ha senso statisticamente fare un'analisi di tipo cluster su una sola variabile?
Mi spiego meglio, ho un data set relativo a 60 siti che investono in pubbiclità e 2 variabili.
Queste due variabili sono una il percorso(Home oppure sottopagina) dove avviene la pubblicità e l'altro la posizione(header, footer,ecc...)
Ho combinato tutte le possibilità: Home_footer, Home_popup, Sottopagina_header,ecc... ottenendo 12 variabili, quindi un nuovo data set con 60 righe e 12 colonne. Ho poi deciso di dare dei pesi nel senso che Home_footer sarà più importante di sottopagina_footer e ho aggiornato quindi le 12 colonne. Cioè se per esempio ho deciso che nella mia scala di valori Home_footer vale 2, ho moltiplicato tutte le righe della colonna Home_footer per 2.
A questo punto ho creato un'altra colonne in cui si ha la somma di tutte le 12 colonne precedentemente descritte, per ciascun riga. Su quest'ultima colonna creata vorrei fare una cluster analysis, statisticamente il discorso può avere senso?
Risposte
Per quanto riguarda la posizione ( header, footer, ecc...) il peso è stato assegnato facendo il rapporto tra il numero di volte che la pubblicità è comparsa in quella posizione e il totale delle volte che è comparsa.
La pagina invece poteva assumere valori come Home e sottopagina. E' ovvio che il numero delle volte che la pubblicità compare nella Home sarà minore di quella delle sottopagini (dato che un sito ha 1 sola home e può avere più di una sottopagina). Quindi per determinare l'importanza della Home ho assegnato 1 come valore bench mark alla sottopagina e poi diviso la percentuale delle sottopagine per la percentuale della Home. A questo punto ottengo i "pesi" delle 2 modalità riferite alla variabile posizione, delle 6 modalità riferite alla variabile percorso e li moltiplico tra di loro.
Esempio:
Numero di pubblicità a lato:30
Numero totali pubblicità: 100
Ottengo che il "peso" a lato è 0,30
Numero di pubblicità in Home 40
Numero di pubblicità sottopagina 60
Il peso a Home sarà 1 * 60/40 cioè 1,5 mentre per la sottopagina sarà 1. (E' ovvio che una pubblicità in Home è più importante, per questo ho diviso 60 per 40).
Adesso posso calcolare i pesi di tutte le variabili combinate e quindi nel mio esempio Home_lateral sarà 1,5 * 0,30 = 0,45
Una volta che ho assegnato i pesi alle 12 variabili, ho moltiplicato la frequenza per i pesi. Successivamente in una nuova colonna che chiamerò punteggio ho la somma delle 12 colonne precedenti.
La logica mia che avevo pensato era quella che maggiore è il punteggio meglio sarà dal punto di vista del rendimento. Però non avevo mai sentito nessuno fare una cluster su una sola variabile. Quindi oggi avevo anche pensato di considerare nell'analisi oltre alla variabile punteggio che ho generato precedentemente, anche quante volte quella determinata pubblicità è presente in altri siti, in quanti siti univoci è presente ed in quanti giorni univoci è presente. Così facendo avrei 4 variabili, la cui logica sarebbe che più sono alte meglio è (è logico che un'azienda che si pubblicizza tante volte in tanti giorni diversi, è meglio dal punto di vista del rendimento pubblicitario di una che si pubblicizza poche volte). Facendo però la cluster con le 4 variabili ho trovato valori poco confortevoli in quanto su 55 osservazioni, creando 3 cluster (kmeans) ottengo 1 cluster con due elementi, un cluster con 3 elementi e il terzo cluster con 50 elementi. La cosa non sò se ha senso perchè ho sempre sentito dire che il numero degli elementi nei cluster deve essere più o meno "uguale".
L'obiettivo della mia analisi sarebbe quello di studiare il cluster migliore ( tendenzialmente quello con i valori delle variabili più elevati), per poi fare da consulente a eventuali aziende che vogliono pubblicare. Cioè se viene qualcuno a chiedermi come fare pubblicità, suggerirgli di seguire l'andamento "medio" delle 4 variabili presenti nel cluster migliore. Cosa ne pensi? Se pensi che è ho detto sciocchezza dimmelo, sono solo agli inizi con la programmazione e la statistica
La pagina invece poteva assumere valori come Home e sottopagina. E' ovvio che il numero delle volte che la pubblicità compare nella Home sarà minore di quella delle sottopagini (dato che un sito ha 1 sola home e può avere più di una sottopagina). Quindi per determinare l'importanza della Home ho assegnato 1 come valore bench mark alla sottopagina e poi diviso la percentuale delle sottopagine per la percentuale della Home. A questo punto ottengo i "pesi" delle 2 modalità riferite alla variabile posizione, delle 6 modalità riferite alla variabile percorso e li moltiplico tra di loro.
Esempio:
Numero di pubblicità a lato:30
Numero totali pubblicità: 100
Ottengo che il "peso" a lato è 0,30
Numero di pubblicità in Home 40
Numero di pubblicità sottopagina 60
Il peso a Home sarà 1 * 60/40 cioè 1,5 mentre per la sottopagina sarà 1. (E' ovvio che una pubblicità in Home è più importante, per questo ho diviso 60 per 40).
Adesso posso calcolare i pesi di tutte le variabili combinate e quindi nel mio esempio Home_lateral sarà 1,5 * 0,30 = 0,45
Una volta che ho assegnato i pesi alle 12 variabili, ho moltiplicato la frequenza per i pesi. Successivamente in una nuova colonna che chiamerò punteggio ho la somma delle 12 colonne precedenti.
La logica mia che avevo pensato era quella che maggiore è il punteggio meglio sarà dal punto di vista del rendimento. Però non avevo mai sentito nessuno fare una cluster su una sola variabile. Quindi oggi avevo anche pensato di considerare nell'analisi oltre alla variabile punteggio che ho generato precedentemente, anche quante volte quella determinata pubblicità è presente in altri siti, in quanti siti univoci è presente ed in quanti giorni univoci è presente. Così facendo avrei 4 variabili, la cui logica sarebbe che più sono alte meglio è (è logico che un'azienda che si pubblicizza tante volte in tanti giorni diversi, è meglio dal punto di vista del rendimento pubblicitario di una che si pubblicizza poche volte). Facendo però la cluster con le 4 variabili ho trovato valori poco confortevoli in quanto su 55 osservazioni, creando 3 cluster (kmeans) ottengo 1 cluster con due elementi, un cluster con 3 elementi e il terzo cluster con 50 elementi. La cosa non sò se ha senso perchè ho sempre sentito dire che il numero degli elementi nei cluster deve essere più o meno "uguale".
L'obiettivo della mia analisi sarebbe quello di studiare il cluster migliore ( tendenzialmente quello con i valori delle variabili più elevati), per poi fare da consulente a eventuali aziende che vogliono pubblicare. Cioè se viene qualcuno a chiedermi come fare pubblicità, suggerirgli di seguire l'andamento "medio" delle 4 variabili presenti nel cluster migliore. Cosa ne pensi? Se pensi che è ho detto sciocchezza dimmelo, sono solo agli inizi con la programmazione e la statistica
