[RISOLTO] Problema di Econometria
Ciao a tutti!
Mi sono appena iscritta alla Community e spero di postare nella sezione giusta.
Come da titolo, c'è un esercizio di econometria che mi sta creando non pochi problemi. Chiede questo (il testo originale è in inglese; per praticità lo traduco, ma non garantisco sulla qualità della traduzione):
"Supponi di avere due distinti dataset (chiamati rispettivamente A e B), in cui osservi le stesse variabili. Dunque hai un vettore $y_a$ con $n_a$ elementi e una corrispondente matrice $X_a$ con $n_a$ righe e $k_a$ colonne, insieme a un vettore $y_b$ con $n_b$ elementi e una corrispondente matrice $X_b$ con $n_b$ righe e $k_b$ colonne.
Dopo aver eseguito l'OLS per ciascuno dei due dataset, ottieni $\hat β_a$, $SSR_a = e'e_a$ per il dataset A e $\hat β_b$, $SSR_b = e'e_b$ per il dataset B.
Poi unisci i due sottocampioni ed esegui l'OLS usando il vettore $y = [y'_a,y'_b]'$ e la matrice $X = [X'_a,X'_b]'$. Chiama la corrispondente statistica OLS $\hat β$ e la Somma dei quadrati residui $SSR = e'e$.
DIMOSTRA ANALITICAMENTE CHE $SSR >= SSR_a + SSR_b$ (Suggerimento: inizia dimostrando che $SSR = SSR_a + SSR_b$ se $\hat β_a = \hat β_b$)."
Premettendo che econometria la sto studiando e che i concetti non li ho ancora bene assimilati (e quindi è possibile che più di uno sfondone lo dica... vi prego quindi, siate clementi
), mi era venuto in mente di ispirarmi alla logica di fondo del Chow test per risolvere l'esercizio - inserendo una "interaction variable dummy". Ad un certo punto però non riesco più ad andare avanti...
Qualcuno mi può aiutare??? Inizio a essere disperata
Grazie davvero in anticipo a chi mi vorrà aiutare.

Mi sono appena iscritta alla Community e spero di postare nella sezione giusta.
Come da titolo, c'è un esercizio di econometria che mi sta creando non pochi problemi. Chiede questo (il testo originale è in inglese; per praticità lo traduco, ma non garantisco sulla qualità della traduzione):
"Supponi di avere due distinti dataset (chiamati rispettivamente A e B), in cui osservi le stesse variabili. Dunque hai un vettore $y_a$ con $n_a$ elementi e una corrispondente matrice $X_a$ con $n_a$ righe e $k_a$ colonne, insieme a un vettore $y_b$ con $n_b$ elementi e una corrispondente matrice $X_b$ con $n_b$ righe e $k_b$ colonne.
Dopo aver eseguito l'OLS per ciascuno dei due dataset, ottieni $\hat β_a$, $SSR_a = e'e_a$ per il dataset A e $\hat β_b$, $SSR_b = e'e_b$ per il dataset B.
Poi unisci i due sottocampioni ed esegui l'OLS usando il vettore $y = [y'_a,y'_b]'$ e la matrice $X = [X'_a,X'_b]'$. Chiama la corrispondente statistica OLS $\hat β$ e la Somma dei quadrati residui $SSR = e'e$.
DIMOSTRA ANALITICAMENTE CHE $SSR >= SSR_a + SSR_b$ (Suggerimento: inizia dimostrando che $SSR = SSR_a + SSR_b$ se $\hat β_a = \hat β_b$)."
Premettendo che econometria la sto studiando e che i concetti non li ho ancora bene assimilati (e quindi è possibile che più di uno sfondone lo dica... vi prego quindi, siate clementi

Qualcuno mi può aiutare??? Inizio a essere disperata

Grazie davvero in anticipo a chi mi vorrà aiutare.
Risposte
Provo a rispondermi da sola...
Dopo aver mandato al diavolo per qualche giorno vita sociale e salute fisica e mentale, credo di essere arrivata a una possibile soluzione. Vi prego di scusarmi per ogni eventuale abuso e uso improprio di anglicismi (il corso l'ho dovuto seguire in inglese e certi termini non so esattamente se hanno un corrispettivo italiano...).
----------------------------------------------------------------------------------------------------------------------------------------------------
(possibile) SOLUZIONE:
ho continuato a seguire l'intuizione del Chow Test e, contrariamente a quanto dice l'esercizio, sono partita ponendo di avere inizialmente UN UNICO DATASET composto ipoteticamente, a sua volta, da due sub-dataset: $ A & B $, ottenendo così:
1) un vettore $ y = [y'_a,y'_b]' $
2) una matrice $ X = [X'_a,X'_b]' $ avente $ n = n_a + n_b $ righe ($ n =$ numero di osservazioni) e $ k $ colonne ($ k =$ numero di variabili osservate) - se vogliamo essere rigorosi: $ X'_a $ ha $ n_a $ righe ($ n_a =$ numero di osservazioni nel sub-dataset $ A $) e $ k $ colonne ($ k =$ numero di variabili osservate nel sub-dataset $ A $); $ X'_b $ ha $ n_b $ righe ($ n_b =$ numero di osservazioni nel sub-dataset $ B $) e $ k $ colonne ($ k =$ numero di variabili osservate nel sub-dataset $ B $).
Eseguendo l'OLS, otteniamo $ \hat β = (X'X)^-1 X'y = [[X_a X'_a,X_a X'_b],[X_b X'_a,X_b X'_b]]^-1 [X'_a,X'_b] y $ .
In questo caso assumiamo che il vettore "$ β $ vero" sia lo stesso per tutto il dataset globale $ A & B $, cioè assumiamo implicitamente stabilità strutturale dei parametri all'interno del nostro dataset globale.
Supponiamo che vogliamo testare questa assunzione implicita/ipotesi e per fare questo test usiamo un "parameter stability test": l'idea di fondo dovrebbe essere quella di "spezzare" il nostro dataset complessivo in due sub-dataset, immaginando che a un certo imprecisato punto, si verifichi un "break strutturale". Otteniamo così tre modelli:
• Modello per il sub-dataset $ A $: un vettore $ y_a $ con $ n_a $ elementi, una matrice $ X_a $ con $ n_a $ righe e $ k $ colonne e $ \hat β_a $ con $ k $ righe;
• Modello per il sub-dataset $ B $: un vettore $ y_b $ con $ n_b $ elementi, una matrice $ X_b $ con $ n_b $ righe e $ k $ colonne e $ \hat β_b $ con $ k $ righe;
• Modello relativo al dataset globale: un vettore $ y $ con $ n = n_a + n_b $ elementi, una matrice $ X $ con $ n = n_a + n_b $ righe e $ k $ colonne e $ \hat β $ con $ k $ righe.
Dopodiché otteniamo e "compariamo" gli SSR (somma dei quadrati residui) dei modelli appena ottenuti.
(NB: in questo caso la "resticted regression" è la regressione per il dataset complessivo, mentre la "unrestricted regression" si "divide" in due parti: una parte per ciascuno dei due sub-dataset).
A questo punto calcoliamo una test-statistic $ F_[k ; (n_1 + n_2) - 2k] $ (che si distribuisce come una $ χ^2 $ con $ [k ; (n_1 + n_2) - 2k] $ gradi di libertà):
$ F_[k ; (n_1 + n_2) - 2k] = {SSR - (SSR_a + SSR_b )} /{ SSR_a + SSR_b} * {(n_1 + n_2) - 2k} / p $ , dove:
$ SSR = $ SSR del dataset globale
$ SSR_a = $ SSR del sub-dataset A
$ SSR_b = $ SSR del sub-dataset B
$ (n_1 + n_2) = $ numero delle osservazioni del dataset globale
$ 2k = $ numero di regressori nella "unrestricted regression" (poiché questa si divide in due parti)
$ k = $ numero di regressori nella "restricted regression" (numero di regressori in ciascuna delle due parti della "unrestricted regression").
Sappiamo che il Supporto di $ F_[k ; (n_1 + n_2) - 2k] ∈ [0, +∞) $.
• Se $ F = 0 $, allora possiamo dire con certezza che NON c'è structural break e quindi possiamo dire che $ F = 0 iff H_0: \hat β_a = \hat β_b $ NON può essere rigettata $ iff SSR = SSR_a + SSR_b $, poiché
$ F = {SSR - (SSR_a + SSR_b )} /{ SSR_a + SSR_b} * {(n_a + n_b) - 2k} / p = 0 $ e, semplificando, otteniamo
$ SSR - (SSR_a + SSR_b ) = 0 $ e quindi dimostriamo che
se $ \hat β_a = \hat β_b $ allora $ SSR = SSR_a + SSR_b $ (c'è stabilità strutturale nel nostro dataset).
• Se $ F > 0 $ possiamo distinguere due situazioni: se $ 0 < F < critical value $, NON rigettiamo $H_0: \hat β_a = \hat β_b $ (lo "structural break" non è significativo) ; se $ F > critical value $, rigettiamo(!!!) $H_0: \hat β_a = \hat β_b $ .
Ma ora, in ogni caso, $ F > 0 iff H_0: \hat β_a ≠ \hat β_b $ NON va rigettata $ iff SSR > SSR_a + SSR_b $, poiché
$ F = {SSR - (SSR_a + SSR_b )} /{ SSR_a + SSR_b} * {(n_a + n_b) - 2k} / p > 0 $ e, semplificando, otteniamo
$ SSR - (SSR_a + SSR_b ) > 0 $ e quindi dimostriamo che
se $ \hat β_a ≠ \hat β_b $ allora $ SSR > SSR_a + SSR_b $ (abbiamo uno "structural break" nel nostro dataset, rilevante o irrilevante che esso sia).
-----------------------------------------------------------------------------------------------------------------------------------------------------
PRIMA DI CONSIDERARE RISOLTO L'ESERCIZIO, QUALCUNO POTREBBE AVERE LA BONTÀ DI CONTROLLARE IL MIO RAGIONAMENTO E CONFERMARMI SE L'HO RISOLTO BENE OPPURE NO?
Grazie in anticipo!
Dopo aver mandato al diavolo per qualche giorno vita sociale e salute fisica e mentale, credo di essere arrivata a una possibile soluzione. Vi prego di scusarmi per ogni eventuale abuso e uso improprio di anglicismi (il corso l'ho dovuto seguire in inglese e certi termini non so esattamente se hanno un corrispettivo italiano...).
----------------------------------------------------------------------------------------------------------------------------------------------------
(possibile) SOLUZIONE:
ho continuato a seguire l'intuizione del Chow Test e, contrariamente a quanto dice l'esercizio, sono partita ponendo di avere inizialmente UN UNICO DATASET composto ipoteticamente, a sua volta, da due sub-dataset: $ A & B $, ottenendo così:
1) un vettore $ y = [y'_a,y'_b]' $
2) una matrice $ X = [X'_a,X'_b]' $ avente $ n = n_a + n_b $ righe ($ n =$ numero di osservazioni) e $ k $ colonne ($ k =$ numero di variabili osservate) - se vogliamo essere rigorosi: $ X'_a $ ha $ n_a $ righe ($ n_a =$ numero di osservazioni nel sub-dataset $ A $) e $ k $ colonne ($ k =$ numero di variabili osservate nel sub-dataset $ A $); $ X'_b $ ha $ n_b $ righe ($ n_b =$ numero di osservazioni nel sub-dataset $ B $) e $ k $ colonne ($ k =$ numero di variabili osservate nel sub-dataset $ B $).
Eseguendo l'OLS, otteniamo $ \hat β = (X'X)^-1 X'y = [[X_a X'_a,X_a X'_b],[X_b X'_a,X_b X'_b]]^-1 [X'_a,X'_b] y $ .
In questo caso assumiamo che il vettore "$ β $ vero" sia lo stesso per tutto il dataset globale $ A & B $, cioè assumiamo implicitamente stabilità strutturale dei parametri all'interno del nostro dataset globale.
Supponiamo che vogliamo testare questa assunzione implicita/ipotesi e per fare questo test usiamo un "parameter stability test": l'idea di fondo dovrebbe essere quella di "spezzare" il nostro dataset complessivo in due sub-dataset, immaginando che a un certo imprecisato punto, si verifichi un "break strutturale". Otteniamo così tre modelli:
• Modello per il sub-dataset $ A $: un vettore $ y_a $ con $ n_a $ elementi, una matrice $ X_a $ con $ n_a $ righe e $ k $ colonne e $ \hat β_a $ con $ k $ righe;
• Modello per il sub-dataset $ B $: un vettore $ y_b $ con $ n_b $ elementi, una matrice $ X_b $ con $ n_b $ righe e $ k $ colonne e $ \hat β_b $ con $ k $ righe;
• Modello relativo al dataset globale: un vettore $ y $ con $ n = n_a + n_b $ elementi, una matrice $ X $ con $ n = n_a + n_b $ righe e $ k $ colonne e $ \hat β $ con $ k $ righe.
Dopodiché otteniamo e "compariamo" gli SSR (somma dei quadrati residui) dei modelli appena ottenuti.
(NB: in questo caso la "resticted regression" è la regressione per il dataset complessivo, mentre la "unrestricted regression" si "divide" in due parti: una parte per ciascuno dei due sub-dataset).
A questo punto calcoliamo una test-statistic $ F_[k ; (n_1 + n_2) - 2k] $ (che si distribuisce come una $ χ^2 $ con $ [k ; (n_1 + n_2) - 2k] $ gradi di libertà):
$ F_[k ; (n_1 + n_2) - 2k] = {SSR - (SSR_a + SSR_b )} /{ SSR_a + SSR_b} * {(n_1 + n_2) - 2k} / p $ , dove:
$ SSR = $ SSR del dataset globale
$ SSR_a = $ SSR del sub-dataset A
$ SSR_b = $ SSR del sub-dataset B
$ (n_1 + n_2) = $ numero delle osservazioni del dataset globale
$ 2k = $ numero di regressori nella "unrestricted regression" (poiché questa si divide in due parti)
$ k = $ numero di regressori nella "restricted regression" (numero di regressori in ciascuna delle due parti della "unrestricted regression").
Sappiamo che il Supporto di $ F_[k ; (n_1 + n_2) - 2k] ∈ [0, +∞) $.
• Se $ F = 0 $, allora possiamo dire con certezza che NON c'è structural break e quindi possiamo dire che $ F = 0 iff H_0: \hat β_a = \hat β_b $ NON può essere rigettata $ iff SSR = SSR_a + SSR_b $, poiché
$ F = {SSR - (SSR_a + SSR_b )} /{ SSR_a + SSR_b} * {(n_a + n_b) - 2k} / p = 0 $ e, semplificando, otteniamo
$ SSR - (SSR_a + SSR_b ) = 0 $ e quindi dimostriamo che
se $ \hat β_a = \hat β_b $ allora $ SSR = SSR_a + SSR_b $ (c'è stabilità strutturale nel nostro dataset).
• Se $ F > 0 $ possiamo distinguere due situazioni: se $ 0 < F < critical value $, NON rigettiamo $H_0: \hat β_a = \hat β_b $ (lo "structural break" non è significativo) ; se $ F > critical value $, rigettiamo(!!!) $H_0: \hat β_a = \hat β_b $ .
Ma ora, in ogni caso, $ F > 0 iff H_0: \hat β_a ≠ \hat β_b $ NON va rigettata $ iff SSR > SSR_a + SSR_b $, poiché
$ F = {SSR - (SSR_a + SSR_b )} /{ SSR_a + SSR_b} * {(n_a + n_b) - 2k} / p > 0 $ e, semplificando, otteniamo
$ SSR - (SSR_a + SSR_b ) > 0 $ e quindi dimostriamo che
se $ \hat β_a ≠ \hat β_b $ allora $ SSR > SSR_a + SSR_b $ (abbiamo uno "structural break" nel nostro dataset, rilevante o irrilevante che esso sia).
-----------------------------------------------------------------------------------------------------------------------------------------------------
PRIMA DI CONSIDERARE RISOLTO L'ESERCIZIO, QUALCUNO POTREBBE AVERE LA BONTÀ DI CONTROLLARE IL MIO RAGIONAMENTO E CONFERMARMI SE L'HO RISOLTO BENE OPPURE NO?
Grazie in anticipo!

Brava anche qua! Esercizio svolto in modo molto dettagliato (collegabile all'altro).
Solo due osservazioni:
qui dovresti spiegare meglio come è fatto il modello non ristretto, proprio in termini di equazione, nella tua strategia dimostrativa diventa un punto cruciale.
La distinzione che fai può essere utile "matematicamente" ma non "statisticamente", nel senso che il primo caso di cui parli collassa nel secondo e nel sottoinsieme del non rigetto.
In particolare non è vero che se $ F = 0 $ "allora possiamo dire con certezza che NON c'è structural break", possiamo dire di aver raggiunto la massima verosimiglianza possibile tra ipotesi di assenza del break e dati osservati ... ma non siamo ancora arrivati alla certezza ... che non può essere raggiunta
Solo due osservazioni:
"katnisseverdeen":
Dopodiché otteniamo e "compariamo" gli SSR (somma dei quadrati residui) dei modelli appena ottenuti.
(NB: in questo caso la "resticted regression" è la regressione per il dataset complessivo, mentre la "unrestricted regression" si "divide" in due parti: una parte per ciascuno dei due sub-dataset).
qui dovresti spiegare meglio come è fatto il modello non ristretto, proprio in termini di equazione, nella tua strategia dimostrativa diventa un punto cruciale.
"katnisseverdeen":
Sappiamo che il Supporto di $ F_[k ; (n_1 + n_2) - 2k] ∈ [0, +∞) $.
• Se $ F = 0 $, allora possiamo dire con certezza che NON c'è structural break ... (c'è stabilità strutturale nel nostro dataset).
• Se $ F > 0 $ possiamo distinguere due situazioni: se $ 0 < F < critical value $, NON rigettiamo $ H_0: \hat β_a = \hat β_b $ (lo "structural break" non è significativo) ; se $ F > critical value $, rigettiamo(!!!) $ H_0: \hat β_a = \hat β_b $ .
La distinzione che fai può essere utile "matematicamente" ma non "statisticamente", nel senso che il primo caso di cui parli collassa nel secondo e nel sottoinsieme del non rigetto.
In particolare non è vero che se $ F = 0 $ "allora possiamo dire con certezza che NON c'è structural break", possiamo dire di aver raggiunto la massima verosimiglianza possibile tra ipotesi di assenza del break e dati osservati ... ma non siamo ancora arrivati alla certezza ... che non può essere raggiunta

@markowitz
Grazie per queste due limature alla mia risposta!
Grazie per queste due limature alla mia risposta!
