Regressione di Poisson
Ciao a tutti!
Il problema che ci siamo posti è quello di verificare se c’è una relazione tra performance delle imprese (ROE) e numero di uno specifica tipologia di indicatori utilizzati nell’annual report. Il nostro campione è costituito da 118 imprese (ridotte a 104 dopo aver eliminato gli outlier)
Essendo la variabile dipendente (frequenza) discreta abbiamo pensato di utilizzare una regressione di poisson.
Al fine di valutare l’esistenza di una relazione lineare tra la y distribuita come una poisson e la covariata ROE abbiamo costruito dei cluster per il ROE (in tutto 8 classi) e abbiamo calcolato per ogni classe la media del ROE e la frequenza media nonché il totale degli indicatori utilizzati in ogni cluster.
Costruendo uno scatterplot tra il logaritmo della frequenza media e il ROE medio abbiamo notato che non vi era una relazione lineare ma quadratica.

Allora abbiamo deciso di utilizzare nella regressione di poisson una funzione quadratica della covariata ROE.
A questo punto, siamo tornati ai dati iniziali (non clusterizzati) e abbiamo applicato una regressione di poisson con gretl utilizzando come variabile dipendente frequenza e come variabili indipendenti ROE e ROE^2. Il modello, oltre a mostrare uno pseudo R^2 davvero ridotto (circa 0,02), accettava l’HP della sovra dispersione per cui (come abbiamo letto in alcuni paper) la distribuzione appare legata all’effetto cluster.

Abbiamo quindi deciso di applicare tale modello di poisson ai dati clusterizzati utilizzando quindi come variabile dipendente il numero degli indicatori utilizzati in totale dalla classe (perchè la frequenza non è una variabile discreta) e come variabile indipendente il ROE medio della classe e il ROE medio al quadrato; come variabile offset abbiamo utilizzato il numero di casi presenti in ogni classe.
A questo punto l’output del modello è stato il seguente

E' giusto fare una regressione di poisson con le covariate che hanno una relazione quadratica con la dipendente?
Ci sono vie più semplici?
Sono troppo pochi 8 cluster? Il fatto che i risultati peggiorino con 14 cluster significa che il modello non è adatto?
Grazie in anticipo!!

Il problema che ci siamo posti è quello di verificare se c’è una relazione tra performance delle imprese (ROE) e numero di uno specifica tipologia di indicatori utilizzati nell’annual report. Il nostro campione è costituito da 118 imprese (ridotte a 104 dopo aver eliminato gli outlier)
Essendo la variabile dipendente (frequenza) discreta abbiamo pensato di utilizzare una regressione di poisson.
Al fine di valutare l’esistenza di una relazione lineare tra la y distribuita come una poisson e la covariata ROE abbiamo costruito dei cluster per il ROE (in tutto 8 classi) e abbiamo calcolato per ogni classe la media del ROE e la frequenza media nonché il totale degli indicatori utilizzati in ogni cluster.
Costruendo uno scatterplot tra il logaritmo della frequenza media e il ROE medio abbiamo notato che non vi era una relazione lineare ma quadratica.

Allora abbiamo deciso di utilizzare nella regressione di poisson una funzione quadratica della covariata ROE.
A questo punto, siamo tornati ai dati iniziali (non clusterizzati) e abbiamo applicato una regressione di poisson con gretl utilizzando come variabile dipendente frequenza e come variabili indipendenti ROE e ROE^2. Il modello, oltre a mostrare uno pseudo R^2 davvero ridotto (circa 0,02), accettava l’HP della sovra dispersione per cui (come abbiamo letto in alcuni paper) la distribuzione appare legata all’effetto cluster.

Abbiamo quindi deciso di applicare tale modello di poisson ai dati clusterizzati utilizzando quindi come variabile dipendente il numero degli indicatori utilizzati in totale dalla classe (perchè la frequenza non è una variabile discreta) e come variabile indipendente il ROE medio della classe e il ROE medio al quadrato; come variabile offset abbiamo utilizzato il numero di casi presenti in ogni classe.
A questo punto l’output del modello è stato il seguente

E' giusto fare una regressione di poisson con le covariate che hanno una relazione quadratica con la dipendente?
Ci sono vie più semplici?
Sono troppo pochi 8 cluster? Il fatto che i risultati peggiorino con 14 cluster significa che il modello non è adatto?
Grazie in anticipo!!

Risposte
Intanto grazie per aver dedicato tempo alla mia domanda!
Ho omesso alcune informazioni pensando non fossero rilevanti ma ovviamente un conto è essere dentro un argomento e un conto è leggerlo dalle poche righe che ho scritto .. immagino che non ci si capisca niente! cerco di rispondere alle tue domande
Il campione è costituito da 118 società quotate appartenenti ad uno specifico settore; queste imprese utilizzano degli indicatori di bilancio particolari che sono chiamati NGFM. Le rilevazioni sono fatte a dicembre 2011 e sono stati raccolti i dati del ROE per ogni impresa a dicembre 2011 e il numero degli indicatori NGFM utilizzati nell'annual report a dicembre 2011. Ora quello che voglio capire è se c'è una relazione tra il numero degli indicatori utilizzati e la performance delle imprese in termini di ROE.
Frequenza è semplicemente il nome che ho dato alla variabile dipendente.
Le imprese escluse sono degli outlier in termini di ROE.
Il primo step è capire se c'è una relazione lineare tra la covariata e la y distribuita come una poisson per poter applicare la regressione di poisson. Dato che a più valori della covariata è associato lo stesso valore della dipendente, per stimare se la loro relazione è lineare occorre raggruppare le osservazioni in classi sulla base del valore assunto dal ROE.
Ho quindi creato 8 differenti classi sulla base della distribuzione del ROE e calcolato per ogni classe il ROE medio, il numero medio degli indicatori utilizzato, il numero di imprese presente in ogni classe (cases) e il numero totale degli indicatori trovati dalla classe.

Ora per studiare se la relazione è lineare o no ho fatto uno scatterplot tra il ROE medio e il log_numero medio degli indicatori utilizzato (scatterlop che ho mostrato nel primo post)
Se facciamo una regressione di poisson sulla base degli 8 cluster non si può utilizzare il numero medio degli indicatori utilizzati da ogni classe come dipendente perchè è continua. Ma se utilizziamo il numero totale degli indicatori utilizzati dalle imprese in ogni classe e inseriamo la variabile cases (numerosità della classe) come offset, la regressione stima logy/log cases che è uguale alla frequenza media di ogni classe.
Ora, non so se mi sono spiegata, non so nemmeno se sto dicendo una marea di cose senza senso o se invece lo hanno, sto proprio cercando di capire questo perchè nella mia testa ha senso ma vorrei un aiuto da chi ne sa di più di me
! Grazie in ogni caso!!
Ho omesso alcune informazioni pensando non fossero rilevanti ma ovviamente un conto è essere dentro un argomento e un conto è leggerlo dalle poche righe che ho scritto .. immagino che non ci si capisca niente! cerco di rispondere alle tue domande

Frequenza di che?
118 imprese selezionate in base a quale criterio? Appartenenti tutte a uno stesso settore?
Quelle escluse erano outlier rispetto a quali criteri?
Qual è la specifica tipologia di indicatori?
Il campione è costituito da 118 società quotate appartenenti ad uno specifico settore; queste imprese utilizzano degli indicatori di bilancio particolari che sono chiamati NGFM. Le rilevazioni sono fatte a dicembre 2011 e sono stati raccolti i dati del ROE per ogni impresa a dicembre 2011 e il numero degli indicatori NGFM utilizzati nell'annual report a dicembre 2011. Ora quello che voglio capire è se c'è una relazione tra il numero degli indicatori utilizzati e la performance delle imprese in termini di ROE.
Frequenza è semplicemente il nome che ho dato alla variabile dipendente.
Le imprese escluse sono degli outlier in termini di ROE.
Cluster di che?
Una cluster analysis? Un raggruppamento delle imprese secondo il settore economico, il numero dei dipendenti o il fatturato? Altro?
Il primo step è capire se c'è una relazione lineare tra la covariata e la y distribuita come una poisson per poter applicare la regressione di poisson. Dato che a più valori della covariata è associato lo stesso valore della dipendente, per stimare se la loro relazione è lineare occorre raggruppare le osservazioni in classi sulla base del valore assunto dal ROE.
Ho quindi creato 8 differenti classi sulla base della distribuzione del ROE e calcolato per ogni classe il ROE medio, il numero medio degli indicatori utilizzato, il numero di imprese presente in ogni classe (cases) e il numero totale degli indicatori trovati dalla classe.

Ora per studiare se la relazione è lineare o no ho fatto uno scatterplot tra il ROE medio e il log_numero medio degli indicatori utilizzato (scatterlop che ho mostrato nel primo post)
A parte il fatto che "numero degli indicatori utilizzati in totale dalla classe" mi pare vaga come descrizione e poco credibile come predittore, prima dicevi di voler usare Poisson perché la variabile dipendente frequenza è discreta, ora dici che la frequenza non è discreta.
Se facciamo una regressione di poisson sulla base degli 8 cluster non si può utilizzare il numero medio degli indicatori utilizzati da ogni classe come dipendente perchè è continua. Ma se utilizziamo il numero totale degli indicatori utilizzati dalle imprese in ogni classe e inseriamo la variabile cases (numerosità della classe) come offset, la regressione stima logy/log cases che è uguale alla frequenza media di ogni classe.
Ora, non so se mi sono spiegata, non so nemmeno se sto dicendo una marea di cose senza senso o se invece lo hanno, sto proprio cercando di capire questo perchè nella mia testa ha senso ma vorrei un aiuto da chi ne sa di più di me


Sergio ti ringrazio davvero per la risposta!Concordo pienamente con quanto hai suggerito!provo ad inserire altre covariate. Il (possibile) rumore presente nel termine d'errore generato delle covariate omesse può essere spiegato tutto o in parte dall'eteroschedasticità dei residui?
Il test nella prima schermata che ho postato accetta l ipotesi di sovra dispersione, ma anche con una binomiale negativa il fit é pessimo! Ora ho ristretto il campione, eliminando quelle imprese che non hanno mai usato dal 2008 a oggi gli ngfm. Il nuovo campione ha 71 imprese. I risultati sono praticamente gli stessi a livello di fit tuttavia in questo nuovo caso non c'è sovra dispersione! Pero guardando grafico dei valori stimati vs gli effettivi effettivamente non prevede nemmeno uno zero! Mentre ce ne sono diversi!