Aiuto varianza e covarianza di variabili aleatorie
ciao a tutti, mi trovo alle prese con il calcolo della varianza e della covarianza di due variabili aleatorie. non riesco a trovare da nessuna parte una spiegazione esauriente di come si faccia a calcolarle...
per esempio devo risolvere questo esercizio:
Una moneta viene lanciata 5 volte e siano S3 il numero di teste uscite nei primi 3 lanci e S5 il numero di teste uscite nei 5 lanci.
1. Determinare la distribuzione di S3 e S5.
2. Calcolare il coefficiente di correlazione tra
S3 e S5.
Se non sbaglio le variabili aleatorie S3 e S5 possono assumere i seguenti valori:
S3=(0, 1, 2, 3) S5=(0, 1, 2, 3, 4, 5)
e la probabilità con cui assumono quei valori sono rispettivamente:
per S3: 1/8 3/8 3/8 1/8
per S5: 1/32 5/32 10/32 10/32 5/32 1/32
giusto fin qui?
quindi i valori medi delle due variabili dovrebbero venire:
E(S3) = 3/4
E(S5) = 5/4
a questo punto come devo fare per calcolare varianza e covarianza?
grazie mille per l'aiuto...
per esempio devo risolvere questo esercizio:
Una moneta viene lanciata 5 volte e siano S3 il numero di teste uscite nei primi 3 lanci e S5 il numero di teste uscite nei 5 lanci.
1. Determinare la distribuzione di S3 e S5.
2. Calcolare il coefficiente di correlazione tra
S3 e S5.
Se non sbaglio le variabili aleatorie S3 e S5 possono assumere i seguenti valori:
S3=(0, 1, 2, 3) S5=(0, 1, 2, 3, 4, 5)
e la probabilità con cui assumono quei valori sono rispettivamente:
per S3: 1/8 3/8 3/8 1/8
per S5: 1/32 5/32 10/32 10/32 5/32 1/32
giusto fin qui?
quindi i valori medi delle due variabili dovrebbero venire:
E(S3) = 3/4
E(S5) = 5/4
a questo punto come devo fare per calcolare varianza e covarianza?
grazie mille per l'aiuto...
Risposte
Usa la definizione:
$var[x] = sum_(k=1)^N(x_k-E[X])^2*p_k$
che nel tuo caso:
$Var[S_3]=(0-3/2)^2*1/8 + (1-3/2)^2*3/8+(2-3/2)^2*3/8+(3-3/2)^2*1/8 = 1/8*(9/4+3/4+3/4+9/4)=3/4$
analogamente:
$Var[S_5]=(0-5/2)^2*1/32 + (1-5/2)^2*5/32+(2-5/2)^2*10/32+(3-3/2)^2*10/32 + (4-5/2)^2*5/32+(5-3/2)^2*1/32 = 1/32*(25/4+45/4+10/4+10/4+45/4+25/4)=40/32 =5/4$
La covarianza è:
$Cov[X,Y]=E[{X-E[X]}{Y-E[Y]}]$
oppure:
$Cov[X,Y]=1/2*{Var[X+Y]-Var[X]-Var[Y]}$
ma qui ti lascio volentieri fare ci conti
$var[x] = sum_(k=1)^N(x_k-E[X])^2*p_k$
che nel tuo caso:
$Var[S_3]=(0-3/2)^2*1/8 + (1-3/2)^2*3/8+(2-3/2)^2*3/8+(3-3/2)^2*1/8 = 1/8*(9/4+3/4+3/4+9/4)=3/4$
analogamente:
$Var[S_5]=(0-5/2)^2*1/32 + (1-5/2)^2*5/32+(2-5/2)^2*10/32+(3-3/2)^2*10/32 + (4-5/2)^2*5/32+(5-3/2)^2*1/32 = 1/32*(25/4+45/4+10/4+10/4+45/4+25/4)=40/32 =5/4$
La covarianza è:
$Cov[X,Y]=E[{X-E[X]}{Y-E[Y]}]$
oppure:
$Cov[X,Y]=1/2*{Var[X+Y]-Var[X]-Var[Y]}$
ma qui ti lascio volentieri fare ci conti

ok grazie mille! il calcolo della varianza allora lo avevo capito 
quello che non riesco a fare, però è decifrare le definizioni di covarianza:
$Cov[X,Y]=E[{X-E[X]}{Y-E[Y]}]$
oppure:
$Cov[X,Y]=1/2*{Var[X+Y]-Var[X]-Var[Y]}$
non capisco come devo procedere con i calcoli
in particolare perchè i valori delle due variabili sono in numero diverso. i due valori "in più" di S5 in che modo li inserisco nella formula?

quello che non riesco a fare, però è decifrare le definizioni di covarianza:
$Cov[X,Y]=E[{X-E[X]}{Y-E[Y]}]$
oppure:
$Cov[X,Y]=1/2*{Var[X+Y]-Var[X]-Var[Y]}$
non capisco come devo procedere con i calcoli

vi prego aiutatemi, se non riesco ad interpretare quella formula per la covarianza non vado avanti 
a leggerla mi sembra di capire che devo fare il valore medio della differenza di ogni valore di X con E(X) moltiplicato alla differenza di ogni valore di Y con E(Y). ma non riesco ad impostare la cosa...

a leggerla mi sembra di capire che devo fare il valore medio della differenza di ogni valore di X con E(X) moltiplicato alla differenza di ogni valore di Y con E(Y). ma non riesco ad impostare la cosa...
Caro Donde,
intanto avevi sbagliato il calcolo di entrambe le medie, perchè in testa hai una grande confusione.
Altro che "avevo capito il calcolo della varianza". Non avevi capito nemmeno il calcolo della media!
Nota che il termine "media" ha 2 significati:
1) media come "valore aspettato" di una variabile aleatoria (in breve, v.a.), di cui conosci la distr. di probabilità (in breve, ddp);
2) media come "media aritmetica" su un campione di N osservazioni di una v.a. di cui in genere non conosci la ddp.
Qui siamo nel primo caso, mentre tu, testone che non sei altro, avevi fatto: (0+1+2+3)/4 = 3/4 PURE HORROR!
Invece il calcolo della media (valore aspettato) fa intervenire le 4 probabilità dei valori (0, 1, 2, 3) della data v.a.;
quindi il valor medio di S3 = E(S3) = (0)(1/8) + (1)(3/8) + (2)(3/8) + (3)(1/8) = 12/8 = 3/2.
Lo stesso dicasi per la seconda v.a. che ha valor medio 5/2, e non 5/4, da te ottenuto ripetendo lo stesso errore (o orrore?).
Non a caso Lord K usa nei suoi calcoli come "medie" di S3 e S5 i valori 3/2 e 5/2 e non i tuoi "raccapriccianti" 3/4 e 5/4, e nel calcolo della varianza pesa tutti gli scarti al quadrato con le rispettive probabilità.
Nota che anche il termine "varianza" ha 2 significati:
1) var. teorica, che è quella calcolata da Lord K per una v.a. di cui si conosce la ddp;
2) var. campionaria, che si calcola da un campione di N osservazioni e si ottiene come media aritmetica degli N scarti quadratici.
Chiarito questo, vediamo come si procede col calcolo della covarianza (che ha anch'essa i soliti 2 significati).
Qui ti si chiede di calcolare la covarianza teorica di due v.a. e non quella campionaria (questa sì che richiederebbe uno stesso numero di valori per S3 e S5, ma detti valori non sono i valori teoricamente possibili, bensì quelli osservati in N prove, ogni prova essendo il lancio di una moneta per 5 volte consecutive).
Di queste due v.a. occorre allora conoscere non solo le rispettive ddp, ma anche la cosiddetta ddp "congiunta".
Difatti le tue due v.a., S3 e S5, non sono indipendenti, essendo esiti dei lanci di una stessa moneta.
Quindi la loro ddp congiunta NON è il mero prodotto delle due singole ddp, e la ddp congiunta va calcolata a parte.
Insomma, prima di calcolare la covarianza richiesta, tu devi per forza compilare una tabella di 4 x 6 caselle così fatta.
Nella casella sulla riga i (i=0, 1,2,3) e sulla colonna j (j=0, 1,2,3,4,5) devi calcolare (e scrivere) la probabilità che si verifichi l'evento
simultaneo X(i,j) definito come [ ( S3 = i) AND (S5 = j)] . Dato che, purtroppo per te, S3 e S5 non sono indipendenti, tali probabilità NON sono il prodotto delle singole probabilità dei 2 eventi (S3=i) e (S5=j). Per esempio, nella casella (i=2, j=1) devi scrivere 0, perchè è impossibile che nei primi 3 lanci escano 2 teste e nel totale dei primi 5 ce ne siano solo una. Insomma il valore assunto da S5 deve essere per forza non inferiore al valore assunto da S3. Questo facilita il compito di redigere l'intera tabella.
Una volta che avrai compilato (riflettendo caso per caso) la suddetta tabella di 24 celle, allora potrai procedere come segue.
Ad ognuna delle 24 celle, diciamo la cella (i,j) che contiene la prob. p(i,j), va associato lo "scarto incrociato" prodotto di 2 scarti
s(i,j) = (i - M3) (j - M5) con M3=3/2 e M5=5/2, come si è detto poc'anzi.
Moltiplica questo prodotto di scarti s(i,j) per la rispettiva prob. p(i,j), che avrai scritto nella tabella.
Quest'operazione non fa altro che pesare lo scarto incrociato s(i,j) con la sua probabilità effettiva p(i,j).
Otterrai così solo uno dei 24 addendi che ti coccorrono, ognuno dei quali è del tipo: p(i,j)(i-M3)(j-M5) .
Dopo aver sommato tutti questi 24 addendi (la cosa sarà un po' lunga e noiosa, ma facile - si tratta di aritmetica da terza elementare!) otterrai finalmente la sospirata covarianza.
Quel che più conta, avrai imparato, una volta per tutte, come calcolare una covarianza teorica (sottolineo "teorica") a prescindere dai numeri di valori, anche diversi, che le due var.aleat. possono assumere ( nel tuo caso: 3 valori S3, 5 valori S5 ).
Per finire ti raccomando di tener bene a mente la distinzione fra un problema di statistica (dove ti viene dato un campione di osservazioni e di norma tu devi fare il tuo meglio, partendo da questi dati, per stimare certi parametri teorici come media e varianza teoriche, che sono ignote) e un problema di calcolo di probabilità, come questo che tu devi risolvere, dove tu conosci tutto di ogni singola tua v.a. e anche tutto, a prezzo di un minimo di riflessione, circa le loro interrelazioni (dipendenza o indiopendenza e le lro ddp congiunte).
Bene, spero di essere stato chiaro e di essermi guadagnato un grandissimo ringraziamento! Arrivederci.
PS: Se non riesci a compilare la tabella di 24 probabilità, allora sei negato per l'argomento e scegli un altro indirizzo, se puoi!
intanto avevi sbagliato il calcolo di entrambe le medie, perchè in testa hai una grande confusione.
Altro che "avevo capito il calcolo della varianza". Non avevi capito nemmeno il calcolo della media!
Nota che il termine "media" ha 2 significati:
1) media come "valore aspettato" di una variabile aleatoria (in breve, v.a.), di cui conosci la distr. di probabilità (in breve, ddp);
2) media come "media aritmetica" su un campione di N osservazioni di una v.a. di cui in genere non conosci la ddp.
Qui siamo nel primo caso, mentre tu, testone che non sei altro, avevi fatto: (0+1+2+3)/4 = 3/4 PURE HORROR!
Invece il calcolo della media (valore aspettato) fa intervenire le 4 probabilità dei valori (0, 1, 2, 3) della data v.a.;
quindi il valor medio di S3 = E(S3) = (0)(1/8) + (1)(3/8) + (2)(3/8) + (3)(1/8) = 12/8 = 3/2.
Lo stesso dicasi per la seconda v.a. che ha valor medio 5/2, e non 5/4, da te ottenuto ripetendo lo stesso errore (o orrore?).
Non a caso Lord K usa nei suoi calcoli come "medie" di S3 e S5 i valori 3/2 e 5/2 e non i tuoi "raccapriccianti" 3/4 e 5/4, e nel calcolo della varianza pesa tutti gli scarti al quadrato con le rispettive probabilità.
Nota che anche il termine "varianza" ha 2 significati:
1) var. teorica, che è quella calcolata da Lord K per una v.a. di cui si conosce la ddp;
2) var. campionaria, che si calcola da un campione di N osservazioni e si ottiene come media aritmetica degli N scarti quadratici.
Chiarito questo, vediamo come si procede col calcolo della covarianza (che ha anch'essa i soliti 2 significati).
Qui ti si chiede di calcolare la covarianza teorica di due v.a. e non quella campionaria (questa sì che richiederebbe uno stesso numero di valori per S3 e S5, ma detti valori non sono i valori teoricamente possibili, bensì quelli osservati in N prove, ogni prova essendo il lancio di una moneta per 5 volte consecutive).
Di queste due v.a. occorre allora conoscere non solo le rispettive ddp, ma anche la cosiddetta ddp "congiunta".
Difatti le tue due v.a., S3 e S5, non sono indipendenti, essendo esiti dei lanci di una stessa moneta.
Quindi la loro ddp congiunta NON è il mero prodotto delle due singole ddp, e la ddp congiunta va calcolata a parte.
Insomma, prima di calcolare la covarianza richiesta, tu devi per forza compilare una tabella di 4 x 6 caselle così fatta.
Nella casella sulla riga i (i=0, 1,2,3) e sulla colonna j (j=0, 1,2,3,4,5) devi calcolare (e scrivere) la probabilità che si verifichi l'evento
simultaneo X(i,j) definito come [ ( S3 = i) AND (S5 = j)] . Dato che, purtroppo per te, S3 e S5 non sono indipendenti, tali probabilità NON sono il prodotto delle singole probabilità dei 2 eventi (S3=i) e (S5=j). Per esempio, nella casella (i=2, j=1) devi scrivere 0, perchè è impossibile che nei primi 3 lanci escano 2 teste e nel totale dei primi 5 ce ne siano solo una. Insomma il valore assunto da S5 deve essere per forza non inferiore al valore assunto da S3. Questo facilita il compito di redigere l'intera tabella.
Una volta che avrai compilato (riflettendo caso per caso) la suddetta tabella di 24 celle, allora potrai procedere come segue.
Ad ognuna delle 24 celle, diciamo la cella (i,j) che contiene la prob. p(i,j), va associato lo "scarto incrociato" prodotto di 2 scarti
s(i,j) = (i - M3) (j - M5) con M3=3/2 e M5=5/2, come si è detto poc'anzi.
Moltiplica questo prodotto di scarti s(i,j) per la rispettiva prob. p(i,j), che avrai scritto nella tabella.
Quest'operazione non fa altro che pesare lo scarto incrociato s(i,j) con la sua probabilità effettiva p(i,j).
Otterrai così solo uno dei 24 addendi che ti coccorrono, ognuno dei quali è del tipo: p(i,j)(i-M3)(j-M5) .
Dopo aver sommato tutti questi 24 addendi (la cosa sarà un po' lunga e noiosa, ma facile - si tratta di aritmetica da terza elementare!) otterrai finalmente la sospirata covarianza.
Quel che più conta, avrai imparato, una volta per tutte, come calcolare una covarianza teorica (sottolineo "teorica") a prescindere dai numeri di valori, anche diversi, che le due var.aleat. possono assumere ( nel tuo caso: 3 valori S3, 5 valori S5 ).
Per finire ti raccomando di tener bene a mente la distinzione fra un problema di statistica (dove ti viene dato un campione di osservazioni e di norma tu devi fare il tuo meglio, partendo da questi dati, per stimare certi parametri teorici come media e varianza teoriche, che sono ignote) e un problema di calcolo di probabilità, come questo che tu devi risolvere, dove tu conosci tutto di ogni singola tua v.a. e anche tutto, a prezzo di un minimo di riflessione, circa le loro interrelazioni (dipendenza o indiopendenza e le lro ddp congiunte).
Bene, spero di essere stato chiaro e di essermi guadagnato un grandissimo ringraziamento! Arrivederci.
PS: Se non riesci a compilare la tabella di 24 probabilità, allora sei negato per l'argomento e scegli un altro indirizzo, se puoi!
grazie mille della spiegazione esaustiva enzo
il valore medio l'avevo calcolato bene, usando il procedimento che dici te. infatti inizialmente nel mio post avevo scritto 5/2 e 3/2. poi mi sono confuso leggendo male e troppo velocemente il post di lord k, che ha calcolato 5/4 e 3/4 per la varianza e io avevo scambiato quei valori per quelli del valor medio. quindi dopo ho editato il mio messaggio mettendo i valori di lord k credendo di avere sbagliato... invece non avevo sbaglitato.
avevo calcolato bene anche la varianza, infatti sul quaderno mi tornava proprio 3/4 e 5/4
mi mancava solo di capire la formula della covarianza. in particolare non sapevo di dover costruire la tabella per la distribuzione congiunta, quindi non capivo come ottenere i valori da usare per il calcolo.
a parte questo ora penso di avere tutto chiaro comunque, provo a risolvere l'esercizio e vedo quanto mi viene. mi hai veramente salvato la vita!!
scusa per te possono sembrare ovvie tutte queste cose, ma io ho bisogno di qualcuno che me le spieghi. se mi presentano le formule davanti e basta concludo poco. e il mio professore ce le ha spiegate veramente male queste cose, che in realtà non sono argomenti difficili.
apprezzo anche il tuo invito a cambiare indirizzo... ma io per fortuna sono un biologo, non un matematico
posso farcela anche se non sono un genio della matematica

avevo calcolato bene anche la varianza, infatti sul quaderno mi tornava proprio 3/4 e 5/4

a parte questo ora penso di avere tutto chiaro comunque, provo a risolvere l'esercizio e vedo quanto mi viene. mi hai veramente salvato la vita!!
scusa per te possono sembrare ovvie tutte queste cose, ma io ho bisogno di qualcuno che me le spieghi. se mi presentano le formule davanti e basta concludo poco. e il mio professore ce le ha spiegate veramente male queste cose, che in realtà non sono argomenti difficili.
apprezzo anche il tuo invito a cambiare indirizzo... ma io per fortuna sono un biologo, non un matematico


Bene, sono contento di esserti stato utile e mi scuso per il tono forse poco opportuno del mio "invito" finale, ma era solo per stimolarti a far bene e a mettercela tutta. Forse ci sono riuscito. A presto
Mi sono iscritto solo per dire GRAZIE ad Enzo
Anche io come Donde non riuscivo a trovare informazioni complete sull'argomento, nonostante libri, fotocopie, appunti... che nervoso, quanto tempo ho perso cercando di indovinare il modo corretto di calcolare la covarianza!
grazie ancora,
ciao

Anche io come Donde non riuscivo a trovare informazioni complete sull'argomento, nonostante libri, fotocopie, appunti... che nervoso, quanto tempo ho perso cercando di indovinare il modo corretto di calcolare la covarianza!

grazie ancora,
ciao