Analisi sondaggio: problemi con regressione
Salve, sto analizzando i risultati di un questionario di marketing ed ho alcune difficoltà. Ai rispondenti è stato chiesto di indicare la probabilità di acquistare un certo prodotto, utilizzando una scala likert a sette punti (assolutamente improbabile-assolutamente probabile). Questa è la variabile di interesse dello studio. Dopo di che sono state proposte numerose altre domande, sempre in formato scala likert a 5 o 7 punti che aiutassero a spiegare la probabilità di acquisto. Ad esempio, giusto per dare un'idea:
- Comprare questo prodotto mi farebbe apparire molto male agli occhi delle altre persone ( 7 punti, estremamente in disaccordo-estremamente d'accordo)
- Di solito compro prodotti che mi permettono di esprimere la mia unicità
- Ed altre domande su fedeltà di marca ecc..
Tutte queste domande sono state associate a specifiche variabili che costituiranno poi le variabili indipendenti di un modello di regressione dove la variabile dipendente è "probabilità di acquisto".
Il problema è che trattandosi di variabili dipendenti e indipendenti discrete (scale di likert) non so se utilizzare la regressione lineare sia appropriato, in ogni caso ho provato. Sto utilizzando il software STATA. Quello che succede è che inserendo nel modello per esempio 4 variabili indipendenti ottengo determinati p-value, mentre se aggiungo una variabile in più o la tolgo i risultati cambiano completamente. Una variabile che è significativa in un modello costituito da 5 variabili indipendenti non lo è più ad esempio se ne metto 7. Ho provato quindi a capire se ci fosse multicollinearità tra le variabili, invece tutto risulta regolarissimo. Non riesco a capire dove potrebbe essere il problema..
Oltre a questo problema, come dicevo, il dubbio è che sia giusto usare un modello di regressione lineare. Consultando alcuni libri ho letto che per analizzare questo tipo di variabili sarebbe più appropriato usare un modello chiamato ordered logistic regression, ma con cui non ho alcuna familiarità. In ogni caso essendo il comando per costruirlo molto semplice ho provato a vedere i risultati e sono effettivamente molto diversi dal modello di regressione lineare. Anche qui si ripresenta comunque lo stesso problema, aggiungendo o togliendo variabili le significatività cambia completamente, non so come venirne a capo!
Spero qualcuno possa essermi d'aiuto, grazie mille.
- Comprare questo prodotto mi farebbe apparire molto male agli occhi delle altre persone ( 7 punti, estremamente in disaccordo-estremamente d'accordo)
- Di solito compro prodotti che mi permettono di esprimere la mia unicità
- Ed altre domande su fedeltà di marca ecc..
Tutte queste domande sono state associate a specifiche variabili che costituiranno poi le variabili indipendenti di un modello di regressione dove la variabile dipendente è "probabilità di acquisto".
Il problema è che trattandosi di variabili dipendenti e indipendenti discrete (scale di likert) non so se utilizzare la regressione lineare sia appropriato, in ogni caso ho provato. Sto utilizzando il software STATA. Quello che succede è che inserendo nel modello per esempio 4 variabili indipendenti ottengo determinati p-value, mentre se aggiungo una variabile in più o la tolgo i risultati cambiano completamente. Una variabile che è significativa in un modello costituito da 5 variabili indipendenti non lo è più ad esempio se ne metto 7. Ho provato quindi a capire se ci fosse multicollinearità tra le variabili, invece tutto risulta regolarissimo. Non riesco a capire dove potrebbe essere il problema..
Oltre a questo problema, come dicevo, il dubbio è che sia giusto usare un modello di regressione lineare. Consultando alcuni libri ho letto che per analizzare questo tipo di variabili sarebbe più appropriato usare un modello chiamato ordered logistic regression, ma con cui non ho alcuna familiarità. In ogni caso essendo il comando per costruirlo molto semplice ho provato a vedere i risultati e sono effettivamente molto diversi dal modello di regressione lineare. Anche qui si ripresenta comunque lo stesso problema, aggiungendo o togliendo variabili le significatività cambia completamente, non so come venirne a capo!
Spero qualcuno possa essermi d'aiuto, grazie mille.
Risposte
Ciao, so che sono passati due anni praticamente, però visto che ho il tuo stesso problema, ti ricordi come lo avevi risolto?
Grazie!
Grazie!