Indice di correlazione di Pearson

iose1
Non trovando nulla sul forum provo ad aprire questo 3d... Magari qualche genio che passerà di qui me lo spiegherà in maniera, non dico semplice, ma semplicissima!!!
Ho cercato in giro su internet scaricando innumerevoli file pdf e chi più ne ha ne metta. Nessun esempio blando, solo formule che non riesco a tradurre con risultato finale :( . Ciò non mi permette di capire i passaggi che devo fare per ottenere il coefficiente...Qualcuno di voi sa mettermi giù un calcolo molto semplice tanto per farmi un esempio in modo che capisca come si calcola l'indice di correlazione Pearson? Poco importa se nell'esempio si parla di patate con carote, mele con pere, peso con altezza, anziani con giovani, tasso di incremento demografico, l'importante è che io capisca il procedimento di calcolo...

Dai che lo sapete!
Sono in preda al panico!
Grazie

Risposte
hamming_burst
Ciao,
"di Pearson" dovrebbe riferirsi al coefficiente (indice) di correlazione classico perciò:

\[\rho_{X,Y} = \frac{Cov(X,Y)}{\sqrt{Var(X)*Var(Y)}}\] che puoi vedere qui

cosa è che non ti è chiaro?

iose1
Tutto praticamente. Non essendo avezzo nella lettura delle formule desideravo visualizzare tutti i passaggi di calcoli.
In poche parole questa formula non saprei tradurla... Potresti farmi qulache esempio di calcolo?
Grazie!

hamming_burst
Un esempio posso anche fartelo senza troppi problemi, ma sai almeno cosa sia la Covarianza ($Cov(X,Y)$), la varianza ($Var(X)$) e la dispersione (deviazione)?

per le definizioni le puoi trovare su un qualunque libro, se non comprendi anche cosa vogliano dire e cosa misurano è un altro discorso.

iose1
Bene facciamo un esempio... Io ho una serie di 5 prezzi per mele e pere in un arco temporale di 5 giorni.
Questi sono i prezzi:
Mele: Primo giorno 1.25 Secondo 1.24 Terzo 1.23 Quarto 1.25 Quinto 1.28
Pere: Primo giorno 1.30 Secondo 1.35Terzo 1.32Quarto 1.37 Quinto 1.40

Forse non è azzeccato come esempio, ma soprassediamo. Dunque come calcolate la correlazione con questi valori?
Potete mostrarmi tutti i passaggi?
Grazie

hamming_burst
Ok consideriamo i dati come misure sperimentali :)
Ma devi inserire la motivazione della correlazione, tipo vuoi sapere la media e la varianza totale (la somma) dei prezzi al seguito dei 5 giorni,

$X = {1.25,1.24,1.23,1.25,1.28}$
$Y = {1.30, 1.35, 1.32,1.37,1.40}$
vuoi conoscere l'andamento di $X+Y$.

Ti mostro qualche calcolo in più, visto che hai detto non sei avezzo di questi calcoli e/o misure.

    [*:2b6rshl6]la media dei dati discreti è la media aritmetica: \(\mu = E[X] = \frac{1}n \sum_{i=1}^{n} x_i\) (1):

    \(E[X] = \frac{(1.25 + 1.24 + 1.23 + 1.25 + 1.28)}5 = 1.25\)

    \(E[Y] = \frac{(1.30 + 1.35 + 1.32 + 1.37 + 1.40)}5 = 1.348\)

    \(E[X+Y] = E[X] + E[Y] = 1.25 + 1.348 = 2.598\) per linearità.

    [/*:m:2b6rshl6]
    [*:2b6rshl6]la varianza \(\sigma^2_X = Var(X) = E[(X-E[X])^2]\):

    \(Var(X) = \frac{((1.25-1.25)^2 + (1.24-1.25)^2 + (1.23-1.25)^2 + (1.25-1.25)^2 + (1.28-1.25)^2)}5 = 0.00028\)

    \(Var(Y) = \frac{((1.30-1.348)^2 + (1.35-1.348)^2 + (1.32-1.348)^2 + (1.37-1.348)^2 + (1.40-1.348)^2)}5 = 0.001256\)

    [/*:m:2b6rshl6]
    [*:2b6rshl6]la varianza della somma di v.a. non indipendenti ha un fattore di correlazione:

    $Var(X+Y) = Var(X) + Var(Y) + 2Cov(X,Y)$

    dove $Cov(X,Y) = E[XY] - E[X]E[Y]$

    se fossero indipendenti $Cov(X,Y) = 0$ e $Var(X+Y) = Var(X) + Var(Y)$ (ovvio) (2)

    proviamo a calcolarcelo allora e vedere se siamo di fronte a v.a. indipendenti (ricordandoci l'esempio):

    \(Cov(X,Y) = \frac{((1.25*1.30) + (1.24*1.35) + (1.23*1.32) + (1.25*1.37) + (1.28*1.40))}5 - (1.25*1.348) =\)
    \(= 1.68542 - 1.685 = 0.00042\)

    Perciò la varianza è così composta: \(Var(X+Y) = 0.00028 + 0.001256 + 2*(0.00042) = 0.002376\)

    [/*:m:2b6rshl6]
    [*:2b6rshl6]L'indice di correlazione misura il "grado" di ammassamento delle misure (punti):

    \[\rho_{X,Y} = \frac{Cov(X,Y)}{\sqrt{Var(X)*Var(Y)}} = \frac{0.00042}{\sqrt{0.00028*0.001256}} \approx 0.708\]

    come vedi dal risultato è molto vicino a $1$, ricordandoti dalla definizione $-1 <= \rho_{X,Y} <= 1$, perciò le misure sono molto correlate (molto dipendenti).[/*:m:2b6rshl6][/list:u:2b6rshl6]

    Nota l'indice è una misura approssimata che da solo un valore indicativo, penso esistano indicatori di correlazione molto più precisi ed affidabili, ma questo è utilizzato perchè è di facile calcolo.

    se hai domande chiedi pure.

    (1): la media in questo caso corrisponde alla media aritmetica perchè consideriamo tutte le misure di probabilità equilibrate. Nelle v.a. la media sarà calcolata con i consueti metodi.
    (2): Avere correlazione uguale a $0$ NON implica che due v.a. siano indipendenti, ma solo non-correlate. Esistono v.a. dipendenti con covarianza $0$. In questo caso, ovviamente, $\rho_{X,Y} = 0$

iose1
WoW sbalorditivo!!! Grazie, non dico di aver chiaro tutto ma già con il tuo intervento vedo uno spiraglio di luce!!!
Sei stato veramente gentile!!! Era quello che cercavo!!! In questi giorni proverò di approfondire il tuo intervento ragionandoci sù. Possibile, che io ti possa chiedere qualcosa... Per il momento grazie veramente per la disponibilità!

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.