Correlazione parziale
Salve forum.
non capisco ancora bene cosa sia la correlazione parziale.
Date tre variabili A, B, C.
Supponiamo che A sia correlata a C linearmente e che B sia correlata a C.
Se A e B dipendono da C, allora automaticamente A e B sono correlate tra loro transitivamente.
che problemi ci sono?
grazie!
non capisco ancora bene cosa sia la correlazione parziale.
Date tre variabili A, B, C.
Supponiamo che A sia correlata a C linearmente e che B sia correlata a C.
Se A e B dipendono da C, allora automaticamente A e B sono correlate tra loro transitivamente.
che problemi ci sono?
grazie!
Risposte
provo a rispondermi 
forse, due variabili possono essere correlate tra loro ma non significa che ci sia causa e effetto......non capisco pero' perche' se si tiene costante la terza variabile allora si dimostra che la correlazione che si e' calcolata e' spuria (c'e' cioe' correlazione ma senza causa ed effetto).
Correlazione non implica causa ed effetto. Causa ed effetto implica correlazione....

forse, due variabili possono essere correlate tra loro ma non significa che ci sia causa e effetto......non capisco pero' perche' se si tiene costante la terza variabile allora si dimostra che la correlazione che si e' calcolata e' spuria (c'e' cioe' correlazione ma senza causa ed effetto).
Correlazione non implica causa ed effetto. Causa ed effetto implica correlazione....
Se parlando di correlazione si intende correlazione lineare, allora:
se A è correlato a B e B è correlato a C, allora ne consegue che anche A è correlato a C. E non solo, una volta nota la correlazione tra A e B e quella tra B e C allora quella tra A e C è numericamente conosciuta per conseguenza.
A parte questo, quando parli di correlazione parziale intendi quelle correlazioni individuate dalla "funzione di autocorrelazione parziale" (PACF)?
se A è correlato a B e B è correlato a C, allora ne consegue che anche A è correlato a C. E non solo, una volta nota la correlazione tra A e B e quella tra B e C allora quella tra A e C è numericamente conosciuta per conseguenza.
A parte questo, quando parli di correlazione parziale intendi quelle correlazioni individuate dalla "funzione di autocorrelazione parziale" (PACF)?
grazie ad entrambi!
Sembra un po' strano il discorso "Hai tre caratteri A, B e C e osservi una correlazione tra A e B. Questa però potrebbe dipendere dal fatto che sia A che B sono correlati a C più che da un'effettiva correlazione tra i due. "
Sergio, seguo le formule (almeno penso:)). Sto meditando sulle parole "effettiva correlazione".....tu intendi che se la correlazione e' effettiva allora si fonda su un rapporto causa-effetto..... Rapporto causa-effetto implica correlazione ma non viceversa. Il discorso della correlazione parziale mira a verificare se la correlazione tra due variabili ha natura di causa-effetto...
per esempio, in una serie storica X, quando si calcola la correlazione tra un valore della serie all'istante t ed un valore all'istante t+2 , non si sta calcolando la correlazione parziale ma globale con la funzione di autocorrelazione....
X(t) puo 'essere correlato a X(t+1) e X(t+1) a X(t+2). Quindi X(t) e' correlato a X(t+2)..
Oppure X(t) potrebbe essere correlato a X(t+2) senza essere correlato a X(t+1).. Questo sembra un po' artificiale.......
sembrerebbe che in una serie storica ci interessi solo scoavare se esiste correlazione e basta... cosa conta che X(t) sia correlato a X(t+2) direttamente o attraverso x(t+1)?
Sembra un po' strano il discorso "Hai tre caratteri A, B e C e osservi una correlazione tra A e B. Questa però potrebbe dipendere dal fatto che sia A che B sono correlati a C più che da un'effettiva correlazione tra i due. "
Sergio, seguo le formule (almeno penso:)). Sto meditando sulle parole "effettiva correlazione".....tu intendi che se la correlazione e' effettiva allora si fonda su un rapporto causa-effetto..... Rapporto causa-effetto implica correlazione ma non viceversa. Il discorso della correlazione parziale mira a verificare se la correlazione tra due variabili ha natura di causa-effetto...
per esempio, in una serie storica X, quando si calcola la correlazione tra un valore della serie all'istante t ed un valore all'istante t+2 , non si sta calcolando la correlazione parziale ma globale con la funzione di autocorrelazione....
X(t) puo 'essere correlato a X(t+1) e X(t+1) a X(t+2). Quindi X(t) e' correlato a X(t+2)..
Oppure X(t) potrebbe essere correlato a X(t+2) senza essere correlato a X(t+1).. Questo sembra un po' artificiale.......
sembrerebbe che in una serie storica ci interessi solo scoavare se esiste correlazione e basta... cosa conta che X(t) sia correlato a X(t+2) direttamente o attraverso x(t+1)?
Sapere se $X(t)$ è correlato con $X(t-2)$ direttamente oppure in modo "indotto" attraverso $X(t-1)$ è tuttaltro che irrilevante. Per prima cosa ne discende la forma delle ACF e PACF da cui si dovrebbe dedurre la struttura ARMA del modello (è già questo è un'ottimo motivo); dunque da modelli specificati diversamente ne conseguono proprietà diverse in termini di momenti condizionati e non, da cui cambieranno le stime previsionali (che, con riguardo alle serie storiche, sono tipicamente ciò che ci interessa).
Come si capisce bene dalla formula indicata da Sergio i coefficenti di correlazione parziale mirano a "cogliere" solo la relazione diretta (in un certo senso pulita) tra $X(t)$ ed $X(t-k)$ mentre la correlazione classica "coglie" la relazione da qualsiasi parte provenga, quindi ingloba tutti i "disturbi" esterni.
Detto ciò, ma non vorrei sbagliarmi, è proprio il coefficente di correlazione parziale che, almeno, tenta di individuare il rapporto di causa effetto di $X(t-k)$ verso $X(t)$ (ovvero il passato causa il futuro, su cui vediamo gli effetti).
L'unica cosa su cui mi sento di dissentire parzialmente con ciò che dice Sergio è che lui, sicuramente con fondati motivi, dice che in contesti osservazionali (quindi in econometria) i rapporti di causa effetto non sono rilevabili perchè, in sostanza, non c'è un gruppo di trattamento ed uno di controllo su cui il ricercatore è "padrone". In primo luogo ho avuto modo di incontrare modelli che nella stessa denominazione si presentavano come modelli atti a studiare gli effetti causali statici e dinamici, ed in altri casi, anche se non detto espressamente, tale tentativo era comunque palese. Forse Sergio si riferisce al fatto che, siccome il ricercatore non è "padrone" dell'esperimento, allora ci potrebbero essere infiniti elementi di disturbo (variabili omesse) che ci impediscono di trovare l'"effetto" che si vuole individuare. D'altra parte però una volta individuate tutte le variabili indicate dalla teoria economica (o dall'esperienza) come "eplicative" del fenomeno, a meno di rilevare evidenza a favore dell'omissione di variabili rilavanti (che dovrebbero portare correlazione tra regressori e residuo, e quindi distorsione nel vettore dei coefficanti), si può ritenere che l'effetto cercato è stato individuato.
D'altra parte se in contesti osservazionali i rapporti di causa effetto non fossero, in alcun modo, rilevabili, allora tutta la ricerca econometrica ne risulterebbe fortemente ridimensionata.
Come si capisce bene dalla formula indicata da Sergio i coefficenti di correlazione parziale mirano a "cogliere" solo la relazione diretta (in un certo senso pulita) tra $X(t)$ ed $X(t-k)$ mentre la correlazione classica "coglie" la relazione da qualsiasi parte provenga, quindi ingloba tutti i "disturbi" esterni.
Detto ciò, ma non vorrei sbagliarmi, è proprio il coefficente di correlazione parziale che, almeno, tenta di individuare il rapporto di causa effetto di $X(t-k)$ verso $X(t)$ (ovvero il passato causa il futuro, su cui vediamo gli effetti).
L'unica cosa su cui mi sento di dissentire parzialmente con ciò che dice Sergio è che lui, sicuramente con fondati motivi, dice che in contesti osservazionali (quindi in econometria) i rapporti di causa effetto non sono rilevabili perchè, in sostanza, non c'è un gruppo di trattamento ed uno di controllo su cui il ricercatore è "padrone". In primo luogo ho avuto modo di incontrare modelli che nella stessa denominazione si presentavano come modelli atti a studiare gli effetti causali statici e dinamici, ed in altri casi, anche se non detto espressamente, tale tentativo era comunque palese. Forse Sergio si riferisce al fatto che, siccome il ricercatore non è "padrone" dell'esperimento, allora ci potrebbero essere infiniti elementi di disturbo (variabili omesse) che ci impediscono di trovare l'"effetto" che si vuole individuare. D'altra parte però una volta individuate tutte le variabili indicate dalla teoria economica (o dall'esperienza) come "eplicative" del fenomeno, a meno di rilevare evidenza a favore dell'omissione di variabili rilavanti (che dovrebbero portare correlazione tra regressori e residuo, e quindi distorsione nel vettore dei coefficanti), si può ritenere che l'effetto cercato è stato individuato.
D'altra parte se in contesti osservazionali i rapporti di causa effetto non fossero, in alcun modo, rilevabili, allora tutta la ricerca econometrica ne risulterebbe fortemente ridimensionata.
Riapro questa discussione perché mi è sorto da un po un grande dubbio che centra con quanto detto:
Il fatto è questo, io ho sempre ragionato in tale contesto:
i dati che osservo sono una realizzazione parziale di un processo stocastico generale e stimo i parametri
sulla base del campione. Il fatto che si passasse ad un approccio asintotico (l'altro mi veniva definito "esatto")
pensavo si riferisse solo al fatto che, per rendere valide certe generalizzazioni (quindi rilassare le assunzioni),
saltavano fuori statistiche test di cui si conosceva solo la distribuzione asintotica. Insomma pensavo che il
problema fosse solo di matematica, ovvero nel derivare distribuzioni in campo finito non note.
Ma in un altra chiave di lettura se ho ben capito il fatto di parlare di "consistenza" dello stimatore è usato
anche per aggirare il fatto che lo schema del campionamento ripetuto non è plausibile quindi quella che si
intende come "correttezza" (in media) non vale più.
In sostanza, se ho capito (figurativamente), e come se il campione/osservazione tende ad $oo$ quindi tende ad essere
uguale/coincidente a tutta la popolazione ed allora si che i parametri stimati convergeranno.
Mentre $k$ campioni (anche grandi) non sono altrettanto informativi.
Ma questo mi lascia perplesso.
Concentrandoci sulle serie storiche (con i dati sezionali non cambia poi molto) chiedere stazionarietà (stabilità) ed
ergodicità (non "troppa" memoria) non servirebbe proprio a garantire che i campioni grandi siano "abbastanza informativi"?
Quindi in sostanza plausibile l'idea che intervalli temporali diversi siano interpretabili come "rewind dello stesso film"
ovvero nuovo vestito per il campionamento ripetuto?
Non è proprio questo che garantisce la fondatezza dell'applicazione della verifica d'ipotesi (almeno quella classica)?
Se il futuro può cambiare strutturalmente dal passato che inferenza stiamo facendo? Dove va a finire la validità esterna/futura?
Che poi nella realtà sia un pericolo da tener presente ok, ma chiedere una "convergenza" teorica (in futuro succeda quel che succeda)
non è una scappatoia per dire che che il campionamento ripetuto non è una necessità, ma poi nei fatti (nei conti)
facciamo riferimento a quello, altrimenti addio test ed addio verificabilità delle ipotesi? ovvero scientificità del modello?
Se sto delirando fermatemi!
"Sergio":
La soluzione che si adotta è "semplice": si assume un modello della popolazione e che si possa estrarre da essa un campione casuale; le variabili esplicative vengono quindi considerate variabili aleatorie e si ragiona su aspettative condizionate e sulle proprietà asintotiche degli stimatori (v. Jeffrey M. Wooldridge, Econometric Analysis of Cross Section and Panel Data).
E qui si aprono due bei temi.
In primo luogo, [size=117]si ragiona in termini di campioni casuali, ma rischia di venire meno il principio del campionamento ripetuto [/size] sui cui si basa l'inferenza classica. Si tratta di un bel problema di natura metodologica, sul quale però non mi sento di esprimermi (sto ancora studiando).
Il fatto è questo, io ho sempre ragionato in tale contesto:
i dati che osservo sono una realizzazione parziale di un processo stocastico generale e stimo i parametri
sulla base del campione. Il fatto che si passasse ad un approccio asintotico (l'altro mi veniva definito "esatto")
pensavo si riferisse solo al fatto che, per rendere valide certe generalizzazioni (quindi rilassare le assunzioni),
saltavano fuori statistiche test di cui si conosceva solo la distribuzione asintotica. Insomma pensavo che il
problema fosse solo di matematica, ovvero nel derivare distribuzioni in campo finito non note.
Ma in un altra chiave di lettura se ho ben capito il fatto di parlare di "consistenza" dello stimatore è usato
anche per aggirare il fatto che lo schema del campionamento ripetuto non è plausibile quindi quella che si
intende come "correttezza" (in media) non vale più.
In sostanza, se ho capito (figurativamente), e come se il campione/osservazione tende ad $oo$ quindi tende ad essere
uguale/coincidente a tutta la popolazione ed allora si che i parametri stimati convergeranno.
Mentre $k$ campioni (anche grandi) non sono altrettanto informativi.
Ma questo mi lascia perplesso.
Concentrandoci sulle serie storiche (con i dati sezionali non cambia poi molto) chiedere stazionarietà (stabilità) ed
ergodicità (non "troppa" memoria) non servirebbe proprio a garantire che i campioni grandi siano "abbastanza informativi"?
Quindi in sostanza plausibile l'idea che intervalli temporali diversi siano interpretabili come "rewind dello stesso film"
ovvero nuovo vestito per il campionamento ripetuto?
Non è proprio questo che garantisce la fondatezza dell'applicazione della verifica d'ipotesi (almeno quella classica)?
Se il futuro può cambiare strutturalmente dal passato che inferenza stiamo facendo? Dove va a finire la validità esterna/futura?
Che poi nella realtà sia un pericolo da tener presente ok, ma chiedere una "convergenza" teorica (in futuro succeda quel che succeda)
non è una scappatoia per dire che che il campionamento ripetuto non è una necessità, ma poi nei fatti (nei conti)
facciamo riferimento a quello, altrimenti addio test ed addio verificabilità delle ipotesi? ovvero scientificità del modello?
Se sto delirando fermatemi!
Salve Markowitz,
n
mi sto concentrando sulla tua risposta per capirne il significato. Sono un principiante e quindi arrivo un po' dopo....
Vorrei porti un' altro quesito nel frattempo: cosa succede se la dipendenza tra due serie storiche non e' lineare?
La funzione di autocorrelazione e quella di autocorrelazione parziale possono solamente misurare il grado di dipendenza lineare tra serie storiche...come si fa se esiste una dipendenza quadratica per esempio? Che funzione si usa per carpirla e quantificarla?
grazie
antennaboy
n
mi sto concentrando sulla tua risposta per capirne il significato. Sono un principiante e quindi arrivo un po' dopo....
Vorrei porti un' altro quesito nel frattempo: cosa succede se la dipendenza tra due serie storiche non e' lineare?
La funzione di autocorrelazione e quella di autocorrelazione parziale possono solamente misurare il grado di dipendenza lineare tra serie storiche...come si fa se esiste una dipendenza quadratica per esempio? Che funzione si usa per carpirla e quantificarla?
grazie
antennaboy