Domanda secca per voi
Dato un generico modello di regressione lineare multipla
con
è corretto affermare che il regressore $X3$ è una variabile di controllo? Se si, perché?
Io so che una variabile di controllo è quella variabile che viene inserita nel modello per sterilizzare la distorsione da variabile omessa che subisce l'eventuale variabile di interesse. Ciononostante non riesco a capire come distinguerle da un punto di vista pratico.
E' sufficiente andare ad intuito ed ipotizzare l'esistenza di correlazioni tra la potenziale variabile di controllo e le altre due variabili? Perché se così fosse si potrebbe ad es. affermare che negli Stati Uniti il tasso di disoccupazione colpisce per lo più la comunità nera, il che potrebbe lasciar supporre che un modello con $X3$ omesso implicherebbe $ E({::}text(u)_(\ \ i) |{::}text(X)_(\ \ 2)) !=0$ da cui la necessità di inserire il regressore come variabile di controllo per $X2$.
Ci sono invece dei calcoli/ragionamenti diversi da fare?
Spero in un vostro aiuto
$ Y=beta 0+beta1X1+beta 2X2+beta3X3+epsi $
con
$X1$ bernoulliana di valore $1$ se donna, $0$ se uomo
$X2$ bernoulliana di valore $1$ se nero, $0$ se bianco
$X3$ discreta che misura il tasso di disoccupazione nel paese
$X2$ bernoulliana di valore $1$ se nero, $0$ se bianco
$X3$ discreta che misura il tasso di disoccupazione nel paese
è corretto affermare che il regressore $X3$ è una variabile di controllo? Se si, perché?
Io so che una variabile di controllo è quella variabile che viene inserita nel modello per sterilizzare la distorsione da variabile omessa che subisce l'eventuale variabile di interesse. Ciononostante non riesco a capire come distinguerle da un punto di vista pratico.
E' sufficiente andare ad intuito ed ipotizzare l'esistenza di correlazioni tra la potenziale variabile di controllo e le altre due variabili? Perché se così fosse si potrebbe ad es. affermare che negli Stati Uniti il tasso di disoccupazione colpisce per lo più la comunità nera, il che potrebbe lasciar supporre che un modello con $X3$ omesso implicherebbe $ E({::}text(u)_(\ \ i) |{::}text(X)_(\ \ 2)) !=0$ da cui la necessità di inserire il regressore come variabile di controllo per $X2$.
Ci sono invece dei calcoli/ragionamenti diversi da fare?
Spero in un vostro aiuto

Risposte
Pongo la questione in termini più formali, sperando che questo possa invogliare qualcuno a rispondere e ad aiutarmi dove purtroppo non arrivo.
Cito dal testo: "La distinzione tra variabili di interesse e variabili di controllo può essere resa precisa in termini matematici sostituendo la prima assunzione dei minimi quadrati (...che prevede che la distribuzione del termine di errore osservato $ {::}text(u)_(\ \ i) $ condizionata ad $ {::}text(X)_(\ \ i) $ abbia media nulla. Formalmente: $E({::}text(u)_(\ \ i) | {::}text(X=x)_(\ \ i) )=0$) con un'assunzione detta di indipendenza della media condizionale. Si consideri una regressione con due variabili, in cui $ {::}text(X)_(\ \ 1i) $ è la variabile di interesse e $ {::}text(X)_(\ \ 2i) $ è la variabile di controllo. L'indipendenza in media condizionata richiede che il valore atteso di $ {::}text(u)_(\ \ i) $ condizionato a $ {::}text(X)_(\ \ 1i) $ e $ {::}text(X)_(\ \ 2i) $ non dipenda da $ {::}text(X)_(\ \ 1i) $, benché possa dipendere da $ {::}text(X)_(\ \ 2i) $. Ovvero:
Ne deduco allora che la condizione affinché una variabile possa essere definita di controllo è che la media condizionata degli $ {::}text(u)_(\ \ i) $ non dipenda da $ {::}text(X)_(\ \ 1i) $ ma solo da $ {::}text(X)_(\ \ 2i) $.
Ora quello che mi chiedo è: come sfrutto queste conoscenze teoriche per rispondere alla domanda del post precedente?
Qualcuno mi aiuti, ve ne prego
Cito dal testo: "La distinzione tra variabili di interesse e variabili di controllo può essere resa precisa in termini matematici sostituendo la prima assunzione dei minimi quadrati (...che prevede che la distribuzione del termine di errore osservato $ {::}text(u)_(\ \ i) $ condizionata ad $ {::}text(X)_(\ \ i) $ abbia media nulla. Formalmente: $E({::}text(u)_(\ \ i) | {::}text(X=x)_(\ \ i) )=0$) con un'assunzione detta di indipendenza della media condizionale. Si consideri una regressione con due variabili, in cui $ {::}text(X)_(\ \ 1i) $ è la variabile di interesse e $ {::}text(X)_(\ \ 2i) $ è la variabile di controllo. L'indipendenza in media condizionata richiede che il valore atteso di $ {::}text(u)_(\ \ i) $ condizionato a $ {::}text(X)_(\ \ 1i) $ e $ {::}text(X)_(\ \ 2i) $ non dipenda da $ {::}text(X)_(\ \ 1i) $, benché possa dipendere da $ {::}text(X)_(\ \ 2i) $. Ovvero:
$E( {::}text(u)_(\ \ i)| {::}text(X)_(\ \ 1i), {::}text(X)_(\ \ 2i))=E( {::}text(u)_(\ \ i)| {::}text(X)_(\ \ 2i)) $
Ne deduco allora che la condizione affinché una variabile possa essere definita di controllo è che la media condizionata degli $ {::}text(u)_(\ \ i) $ non dipenda da $ {::}text(X)_(\ \ 1i) $ ma solo da $ {::}text(X)_(\ \ 2i) $.
Ora quello che mi chiedo è: come sfrutto queste conoscenze teoriche per rispondere alla domanda del post precedente?
Qualcuno mi aiuti, ve ne prego

Non hai detto cos'è Y nel modello. Comunque la risposta potrebbe essere tautologica, ovvero coincidente alla definizione.
"mobley":
Io so che una variabile di controllo è quella variabile che viene inserita nel modello per sterilizzare la distorsione da variabile omessa che subisce l'eventuale variabile di interesse. Ciononostante non riesco a capire come distinguerle da un punto di vista pratico.
...
Spero in un vostro aiuto
Come prima cosa, ha ragione Injuria, conviene che ci dici cos'è $Y$. In ogni caso il tema di cui parli è spinoso.
Dalla definizione che dai sopra io capisco che "variabile di controllo=variabile omessa (potenziale)". Che testo usi? Giusto per essere tranquilli delle definizioni li offerte di "variabile di controllo".
$Y$ rappresenta il punteggio medio nei test ottenuto dagli studenti (donna, uomo, bianco o nero che siano), e il testo è quello usato per qualsiasi corso di econometria corso avanzato: Stock e Watson quarta edizione.
Y rappresenta il punteggio medio nei test ottenuto dagli studenti
Saputo questo e non essendoci dati allegati al problema il ragionamento iniziale è corretto, non hai altri modi di dimostrare che X3 è variabile di controllo in assenza di dati.
"mobley":
il testo è quello usato per qualsiasi corso di econometria corso avanzato: Stock e Watson quarta edizione.
Ti sbagli. E' un testo ottimo ma è troppo poco tecnico per un corso avanzato. Lo stesso titolo "introduzione all'econometria" suggerisce un utilizzo diverso ... gli stessi autori ribadiscono il concetto in più di un'occasione. Ciò non toglie che, a mia opinione, anche gli "esperti" farebbero bene a ritornare spesso su questo testo.
Comunque il significato di variabile di controllo, che avevi già espresso bene nel tuo secondo post, è ora del tutto chiaro.
"mobley":
Dato un generico modello di regressione lineare multipla
$ Y=beta 0+beta1X1+beta 2X2+beta3X3+epsi $
con
$ X1 $ bernoulliana di valore $ 1 $ se donna, $ 0 $ se uomo
$ X2 $ bernoulliana di valore $ 1 $ se nero, $ 0 $ se bianco
$ X3 $ discreta che misura il tasso di disoccupazione nel paese
è corretto affermare che il regressore $ X3 $ è una variabile di controllo? Se si, perché?
...
E' sufficiente andare ad intuito ed ipotizzare l'esistenza di correlazioni tra la potenziale variabile di controllo e le altre due variabili? Perché se così fosse si potrebbe ad es. affermare che negli Stati Uniti il tasso di disoccupazione colpisce per lo più la comunità nera, il che potrebbe lasciar supporre che un modello con $ X3 $ omesso implicherebbe $ E({::}text(u)_(\ \ i) |{::}text(X)_(\ \ 2)) !=0 $ da cui la necessità di inserire il regressore come variabile di controllo per $ X2 $.
Ci sono invece dei calcoli/ragionamenti diversi da fare?
"Injuria":
Saputo questo [cosa è la $Y$] e non essendoci dati allegati al problema il ragionamento iniziale è corretto, non hai altri modi di dimostrare che X3 è variabile di controllo in assenza di dati.
Non sono d'accordo.
Se rileggete la frase sottolineata capite bene che manca innanzitutto la seconda condizione fondamentale per parlare di variabile omessa (e quindi ... di controllo), ovvero la $X3$ (tasso di disoccupazione) dovrebbe anche essere una determinante di $Y$ (test score). Tra l'altro abbiamo un problema ancora più grave, in che modo entra il tasso di disoccupazione negli Stati Uniti in una regressione cross section scritta sui test score di classi statunitensi?
Inoltre anche quando $X3$ fosse definita meglio e fosse anche determinante di $Y$ ... avrei ancora diversi dubbi.
La tua variabile di interesse è la razza ($X2$) ? Sembra di si ma non è chiaro se anche $X1$ (sesso) sia oggetto di inferenza causale. Se no, perché è presente? Se si, $X3$ è intesa di controllo anche per il sesso?
Inoltre le due binarie che hai scelto si prestano per definizione all'inserimento di un effetto interazione tutto da valutare.
In definitiva penso che la specificazione sia da rivedere.
@Injuria
cosa intendi dire con "... in assenza di dati" ? Di che dati intendi aver bisogno per dimostrare in modo più matematico-statistico e non di "pura esperienza/conoscenza del fenomeno" che $X3$ sia di controllo?
Se rileggete la frase sottolineata capite bene che manca innanzitutto la seconda condizione fondamentale per parlare di variabile omessa (e quindi ... di controllo), ovvero la X3 (tasso di disoccupazione) dovrebbe anche essere una determinante di Y (test score).
Il punto è che X3 non ha alcun effetto diretto sulla Y, i risultati di un test di un individuo segmentato per sesso ed etnia non dipendono direttamente dalla disoccupazione generale del paese. Però la disoccupazione generale del paese potrebbe influire su dei fattori correlati coi punteggi del test come ad esempio la spesa delle famiglie per consumi culturali ed istruzione, quest'ultima variabile non è misurata o misurabile e quindi è omessa. Questa omissione si riflette sul termine d'errore.
Di fatto si ipotizza ex ante che la disoccupazione influisca su questi fattori. Altra informazione ex ante è che nei momenti di crisi, in generale, alcuni settori della popolazione ne soffrono maggiormente, sono infatti donne e neri ad avere difficoltà occupazionali maggiori negli USA.
Tra l'altro abbiamo un problema ancora più grave, in che modo entra il tasso di disoccupazione negli Stati Uniti in una regressione cross section scritta sui test score di classi statunitensi?
Ottima osservazione, molto probabilmente però non sono in cross section, ma in serie storica oppure può esserci una suddivisione per stati federati, ma questo non lo sappiamo dal testo postato.
a tua variabile di interesse è la razza (X2) ? Sembra di si ma non è chiaro se anche X1 (sesso) sia oggetto di inferenza causale. Se no, perché è presente? Se si, X3 è intesa di controllo anche per il sesso?
Sono ambedue variabili di interesse prese congiuntamente, lo scopo del modello dovrebbe essere quello di verificare gli effetti dell'appartenere a determinate categorie. Con questa specificazione infatti possiamo vedere, ad esempio, gli effetti marginali sul punteggio del test di essere donna e afroamericana congiuntamente (in questo modo si può vedere se pesa di più essere donna o afroamericana). X3 è di controllo per ogni variabile esplicativa che ha effetti causali diretti su Y, in ultima istanza la variabile di controllo ha lo scopo di "aggiustare" il modello riducendone l'errore di osservazione, ha uno scopo puramente pratico.
@Injuria
cosa intendi dire con "... in assenza di dati" ? Di che dati intendi aver bisogno per dimostrare in modo più matematico-statistico e non di "pura esperienza/conoscenza del fenomeno" che X3 sia di controllo?
Senza dati empirici non potremmo dimostrare nulla da un punto di vista statistico. Questo modello si basa su ipotesi ex ante, la risposta è quindi intuitiva. Questo vuol dire che precedentemente abbiamo già appurato che esiste una correlazione alta fra disoccupazione e punteggio del test (in un certo tempo o in un certo spazio).
"Injuria":
Ottima osservazione, molto probabilmente però non sono in cross section, ma in serie storica oppure può esserci una suddivisione per stati federati, ma questo non lo sappiamo dal testo postato.
Infatti questo punto è cruciale. Il testo sopra è ambiguo ma la tipologia stessa di problema ed il modo in cui è spiegato in Stock e Watson lascia chiaramente intendere che si tratti di cross section. Abbiamo $n$ test score per $n$ individui ad una caerta data. Non seguiamo un individuo nel tempo. Peraltro forse la cosa migliore sarebbe passare ai dati longitudinali ma ... stiamo andando troppo avanti.
L'effetto disoccupazione di cui parlate, economicamente ragionevole o meno, non può essere trattato nel modello sopra scritto. Non si tratta di piccola dimensione del campione o assenza di qualche variabile, è proprio il modello che è scritto male.
Interessante quando parli di stati federali, se abbiamo a disposizione 52 tassi di disoccupazione, uno per ogni stato ad un dato tempo, possiamo cominciare a ragionare.
"Injuria":
Il punto è che X3 non ha alcun effetto diretto sulla Y, i risultati di un test di un individuo segmentato per sesso ed etnia non dipendono direttamente dalla disoccupazione generale del paese. Però la disoccupazione generale del paese potrebbe influire su dei fattori correlati coi punteggi del test come ad esempio la spesa delle famiglie per consumi culturali ed istruzione, quest'ultima variabile non è misurata o misurabile e quindi è omessa. Questa omissione si riflette sul termine d'errore.
Di fatto si ipotizza ex ante che la disoccupazione influisca su questi fattori. Altra informazione ex ante è che nei momenti di crisi, in generale, alcuni settori della popolazione ne soffrono maggiormente, sono infatti donne e neri ad avere difficoltà occupazionali maggiori negli USA.
Capisco cosa dici ma non è sufficiente. Per parlare di variabile omessa si deve avere la doppia condizione di correlazione non nulla rispetto a qualche esplicativa (sembra vi concentriate principalmente su $X2$, "quantità di neri") ed altrettanto rispetto alla dipendente (ovvero la parte che finisce nel termine d'errore). La seconda condizione non potete trascurarla. Spesso ho visto erroneamente trascurare la prima, voi trascurate la seconda. Che poi corr$(X3,Y)$ sia frutto di una causalità diretta o indotta è un'altra comoplicazione che è meglio lasciar fuori.
"Injuria":
Sono ambedue variabili di interesse prese congiuntamente, lo scopo del modello dovrebbe essere quello di verificare gli effetti dell'appartenere a determinate categorie. Con questa specificazione infatti possiamo vedere, ad esempio, gli effetti marginali sul punteggio del test di essere donna e afroamericana congiuntamente (in questo modo si può vedere se pesa di più essere donna o afroamericana). X3 è di controllo per ogni variabile esplicativa che ha effetti causali diretti su Y, in ultima istanza la variabile di controllo ha lo scopo di "aggiustare" il modello riducendone l'errore di osservazione, ha uno scopo puramente pratico.
Se sono ambedue di interesse bisogna considerare anche la relazione tra $X3$ e genere. In altri termini bisogna scrivere bene la condizione di indipendenza in media condizionata per il modello a due variabili di interesse ed una di controllo.
Per gli effetti di cui parli non sono sicuro che i due parametri in causa possano dirci tutto, forse sono necessari gli effetti di intereazione di cui parlavo ... ma ci devo pensare.
"Injuria":
Senza dati empirici non potremmo dimostrare nulla da un punto di vista statistico. Questo modello si basa su ipotesi ex ante, la risposta è quindi intuitiva. Questo vuol dire che precedentemente abbiamo già appurato che esiste una correlazione alta fra disoccupazione e punteggio del test (in un certo tempo o in un certo spazio).
Sulla frase sottolineata non si può che convenire ... ma sei rimasto un po troppo sul generale.
Per il resto la relazione tra disoccupazione, che peraltro era da ridefinire, e punteggio del test era ipotizzata non appurata ... e poi anche lo fosse stata ... ripeto si trattava di condizione necessaria ma non sufficiente.
In definitiva, più che di dati mancanti parlerei di modello da rivedere.