Coefficiente di correlazione tra variabili dummy

jack221
Buongiorno,
mi ritrovo a ripostare la mia domanda dato che quella precedente è stata chiusa :(

Ipotizziamo che io ogni sera esca con gli amici e registri queste variabili:
M è 1 se nella comitiva c'è Mario
P è 1 se nella comitiva c'è Sara
Dopo un mese calcolo il coefficiente di correlazione tra le due variabili e viene -0.35, ed è significativo all'1%
Posso dire che la presenza di Sara riduce del 35% le probabilità che ci sia Mario?

Risposte
markowitz
Sembri alquanto nervoso jack22, rilassati ...
comunque la risposta è sempre ... NO :lol:

jack221
si hai ragione è stato tempo sprecato ;)

facciamo un'altra domanda: come si interpreta il coefficiente di correlazione di Pearson tra due variabili booleane non mutuamente esclusive?

Lo so interpretare in un modello OLS uninomiale, perchè il \( \beta \) è funzione del coefficiente di correlazione.

Ma se le variabili sono booleane non si usa l'OLS ma si usa il probit o il logit.

I miei ricordi di eocnometria inizia a svanire lentamente :(

jack221
Comunque ho visto qui e un po' ho capito

Inoltre ci sono metriche specifiche per le variabili binarie (@markowitz: vedi che avresti potuto insegnarmi qualcosa?)

Sono giunto alla conclusione che se il coefficiente è negativo, è meno probabile che le due variabili assumano contemporaneamente gli stessi valori (quindi che Marco e Sara siano entrambi presenti od entrambi assenti, ed è più probabile che ci sia uno o l'altro)

markowitz
"jack22":
si hai ragione è stato tempo sprecato ;)

andiamo meglio.

"jack22":

facciamo un'altra domanda: come si interpreta il coefficiente di correlazione di Pearson tra due variabili booleane non mutuamente esclusive?

adesso le variabili sono definite bene.
La risposta che ti ho dato prima è di carattere generale e riguarda proprio il fatto che a partire dall'indice di corr lineare, in generale, non puoi inferire in modo preciso, senza altre informazioni, alcuna probabilità condizionale. Puoi solo farti un'idea tendenziale. Se $rho(X,Y)=-0,35$ (ipotizziamo caratteristiche note con esattezza) puoi dire che le variabili non sono indipendenti e che, almeno in generale, $P(X|Y) E' qui che cade la tua intuizione del $-35%$, la diminuzione esiste ma, in generale, non la leggi così semplicemente dall'indice di correlazione. Se non hai altre informazioni ti devi fermare ai segni.

Nel caso in esame l'interpretazione è sempre la stessa, l'indice in causa ti da una misura dell'associazione lineare tra le due variabili ... anche se sono binarie.

"jack22":

Lo so interpretare in un modello OLS uninomiale, perchè il \( \beta \) è funzione del coefficiente di correlazione.

ed allora dovresti anche capire che il \( \beta \) è funzione anche delle deviazioni standard del regressore e della regredita e che è anche la quantità chiave per trovare la speranza condizionale che quindi non dipende sono dalla correlazione ... stessa storia per le probabilità condizionali.

"jack22":

Ma se le variabili sono booleane non si usa l'OLS ma si usa il probit o il logit.

I miei ricordi di eocnometria inizia a svanire lentamente :(

infatti hai un'altra intuizione che ha il suo senso ma è parecchio imprecisa. I modelli probit e logit lavorano con variabili binarie ma non è vero che l'OLS non possa farlo. Dipende dal modello che hai in mente.

markowitz
Vedo solo ora questo messaggio.
"jack22":

Sono giunto alla conclusione che se il coefficiente è negativo, è meno probabile che le due variabili assumano contemporaneamente gli stessi valori (quindi che Marco e Sara siano entrambi presenti od entrambi assenti, ed è più probabile che ci sia uno o l'altro)

Bravo hai capito.

"jack22":

Inoltre ci sono metriche specifiche per le variabili binarie (@markowitz: vedi che avresti potuto insegnarmi qualcosa?)


Non l'ho mai escluso. :D

jack221
Ottimo grazie mille
le variabili non sono indipendenti e che, almeno in generale, P(X∣Y)
dove trovo una dimostrazione di questo?

markowitz
Una dimostrazione cotta e mangiata non la ho, e purtroppo non ho più tempo, ma posso indicarti una strada comoda.
Infatti forse sei fortunato perché quello che dicevo per i valori attesi condizionali, nel contesto della regressione, si traspone immediatamente alle probabilità condizionali lavorando con due variabili binarie.
In pratica devi propio usare la tecnica OLS che pensavi illecita, regredendo $M$ su $P$ o viceversa. Ragioni sul segno di $beta$ ed il gioco è fatto. :-D

jack221
"markowitz":
Una dimostrazione cotta e mangiata non la ho, e purtroppo non ho più tempo, ma posso indicarti una strada comoda.
Infatti forse sei fortunato perché quello che dicevo per i valori attesi condizionali, nel contesto della regressione, si traspone immediatamente alle probabilità condizionali lavorando con due variabili binarie.
In pratica devi propio usare la tecnica OLS che pensavi illecita, regredendo $M$ su $P$ o viceversa. Ragioni sul segno di $beta$ ed il gioco è fatto. :-D


ma la OLS calcola il valore attesso condizionato, non la probabilità condizionata. No?

markowitz
"jack22":
ma la OLS calcola il valore attesso condizionato, non la probabilità condizionata. No?

Si, certo. Tuttavia come ti dicevo in questo caso particolare (v.a. bernulliane) abbiamo che valore atteso e probabilità di successo coincidono. E' questo che mi rendeva ottimista sulla regressione OLS. Sono però stato troppo ottimista perchè pensandoci meglio mi sembra che la stessa uguaglianza non sia verificata tra valori attesi e probabilità condizionali ... le cose si complicano.

Lascia anche perdere la disuguaglianza di cui si parlava prima che forse in questo caso porta fuori strada.

Tieni a mente solo questo:
considerando $P$ ed $M$ come due v.a. bernulliane,
se $rho(P,M)<0$
allora $Prob(P=M) ma il rapporto esatto tra le due dipende anche dalle probabilità marginali, il valore $-0,35$ della corr non ti basta.

E per completezza:

se $rho(P,M)>0$
allora $Prob(P=M)>P(P!=M)$

se $rho(P,M)=0$
allora $Prob(P=M)=P(P!=M)$

jack221
"markowitz":
ono però stato troppo ottimista perchè pensandoci meglio mi sembra che la stessa uguaglianza non sia verificata tra valori attesi e probabilità condizionali ... le cose si complicano.


Hai visto che abbiamo tutti qualcosa da imparare in questo mondo :D

Ovviamente grazie ancora per l'aiuto


Lascia anche perdere la disuguaglianza di cui si parlava prima che forse in questo caso porta fuori strada.

Tieni a mente solo questo:
considerando $P$ ed $M$ come due v.a. bernulliane,
se $rho(P,M)<0$
allora $Prob(P=M) ma il rapporto esatto tra le due dipende anche dalle probabilità marginali, il valore $-0,35$ della corr non ti basta.

E per completezza:

se $rho(P,M)>0$
allora $Prob(P=M)>P(P!=M)$

se $rho(P,M)=0$
allora $Prob(P=M)=P(P!=M)$


E una dimostrazione di tutto ciò? Perchè il passaggio coefficiente di correlazione -> probabilità mi sfugge (se non a livello intuitivo dove avevo già sbagliato una volta)

markowitz
"jack22":

Hai visto che abbiamo tutti qualcosa da imparare in questo mondo :D

Sicuro. Non ho mai lasciato intendere il contrario. :-)
Io poi ho un sacco di cose da imparare, proprio per questo spesse volte ci vado cauto con le affermazioni. Infatti dicevo "forse sei fortunato ..." si trattava solo di un'idea sul potenziale utilizzo, in questo caso, della regressione OLS che però mi sembra non funzionare (non ho fatto accertamenti rigorosi per questo dico "mi sembra"). Stesse riserve sulla disuguglianza.
Peraltro da diversi utenti di questo forum ho imparato diverse cose ma in questo caso, se davvero ho imparato qualcosa, ho imparato da me; tu non mi hai spiegato nulla. ;-)

"jack22":

Ovviamente grazie ancora per l'aiuto

Prego.

"jack22":

E una dimostrazione di tutto ciò? Perchè il passaggio coefficiente di correlazione -> probabilità mi sfugge (se non a livello intuitivo dove avevo già sbagliato una volta)

Fermo restando che anche le ultime cose che ho scritto sono farina del mio sacco, non le ho prese da nessun testo sacro ne le ho fatte scrutinare da chissà chi, e non sono quindi da prendere come oro colato ... sono abbastanza confidente della correttezza ma ... non ho fatto accertamenti rigorosi e ... comunque ma posso sempre sbagliarmi.
Prova a fare qualche esempio con dati numerici e vedi se ti torna tutto. Il fatto di non riuscire a trovare un controesempio ti portebebbe già sulla via della dimostrazione.

Un'ultima cosa, l'intuizione che avevi avuto tra correlazione e probabilità era sbagliata e l'ho segnalata come tale ma non l'ho mai condannata inquanto "intuizione". Io penso che sia proprio a partire dalle idee che si debba ragionare.
Il problema non è sbagliare; sbagliare e normale. Il problema è non provare a ragionare.

Spero di essere stato utile.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.