Modello di Regressione con Variabili di controllo

Uffa4
Ciao a tutti!!
Sono nuovo del forum (primo post).

Sto cercando si capire come funziona il modello di regressione con variabili di controllo.
Per quanto riguarda la regressione sia semplice che multipla non ho particolari problemi, l'ho già studiata in vari esami di statistica.
Quello che mi lascia un pò perplesso sono le variabili di controllo, al riguardo ho trovato pochissimo materiale sia in internet che sui libri di statistica che ho in casa.

Ecco quello che ho intuito da quel poco che ho trovato sull'argomento:

Se per esempio ho un modello di questo tipo: Y = B0 + B1*X dove misuro l'effetto della variabile X su Y.
In realtà l'effetto di X su Y può essere distorto da altre variabili, che vanno inserite nel modello per eliminare questo effetto distorcente, queste variabili sono le variabili di controllo.

E' corretta come intuizione?
Qualcuno sa spiegarmi meglio l'argomento?

Grazie in anticipo

Risposte
Uffa4
Perfetto,
grazie mille

markowitz
Scusate se riapro una discussione vecchia di 5 anni ma in questo periodo sto cercando di approfondire le problematiche relative alla causalità nei modelli econometrici.
Sto studiando ma da ciò che mi risulta la problematica è stata trattata in modo non poco confuso in letteratura. Tuttavia "due chiacchiere" qui le ho trovate spesso utili, a volte molto utili, per questo scrivo.

Semplificando al massimo (mi sembra sempre utile partire senza troppi caveat tecnici) sono portato a pensare che esogeneità implica causalità.

Quello che (Sergio) scrivi qua:

"Sergio":

Negli studi osservazionali (es. econometria), le variabili possono essere solo osservate e non è mai garantito che si riesca a osservare tutte le variabili che hanno effetto sulla variabile risposta. $ u $ quindi è un termine di errore che comprende non solo la parte accidentale, ma anche le variabili non osservate (unobserved).

Se in $ u $ ci sono sono anche variabili correlate con $ x_1 $, allora non si riesce a determinare l'effetto causale di $ x_1 $ su $ y $.

Ad esempio, se il modello "vero" fosse $ y=beta_0+beta_1 x_1+beta_2 x_2 +u $ e tu usassi invece il modello $ y=beta_0+beta_1 x_1+v $, con $ v=beta_2 x_2 +u $, e se $ x_1 $ e $ x_2 $ fossero correlate come in $ x_2=cx_1 $, il valore atteso di $ y $ condizionato a $ x_1 $ sarebbe:

$ E[y|x_1]=beta_0+beta_1x_1+beta_2cx_1 $

e l'effetto parziale di $ x_1 $ su $ y $ sarebbe:

$ \partial / (\partial x_1)E[y|x_1]=beta_1+beta_2 c $

Quindi $ beta_1 $ non potrebbe essere considerato l'effetto parziale di $ x_1 $. Per poter individuare gli effetti parziali, il termine di errore non deve essere correlato con la variabile risposta.


sembra confermare questa idea.

Ma allora, ammettendo (come tipicamente si fa) che l'esogeneità è una condizione necessaria, varrebbe che, in generale, ad ogni equazione di regressione bene specificata è implicità una relazione causa ($X$) effetto ($y$). Questo era il risultato più logico a cui, chi come me ha iniziato la sua avventura con Introduzione all'econometria - J.H. Stock e M.W. Watson, si riconduceva in modo abbastanza naturale.

Ma questo risultato è proprio quello che alcuni studiosi contestano ed altri, in sostanza, evitano. A quanto ho capito sono proprio i pensatori di estrazione "più statistica" a rifuggire questa interpretazione, preferendo invece parlare di distribuzione congiuta e valore atteso condizionale.
Peraltro da questa discussione

viewtopic.php?f=34&t=54012&p=387904&hilit=correlazione+parziale#p387904

mi sembrava che anche Tu ne volessi prendere (dalla causalità) in qualche misura le distanze, anche se da quello che leggo più sopra mi sembra meno.

Io, ripeto salvo tecnicismi più o meno di dettaglio, sto riconvergendo verso la senzazione iniziale che lo Stock e Watson mi lasciava.
Tu, Voi che dici/dite ?

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.