Calcolo varianza nella principal component analysis
Non riesco a capire a fondo il seguente passaggio, qualcuno me lo spiega? Mi riferisco all'uguaglianza alla seguente riga, che ritroverete sotto:
[tex]var(a_{1}^{'}v) = a_{1}^{'} \Sigma a_{1}[/tex]
Traduco dal libro ("Data Clustering, Theory, Algorithms and Applications" (Gan, Ma, Wu), 2007). Questo passaggio è rintracciabile anche da Google Books, per chi preferisse leggere l'originale dall'inglese (capitolo 4.2.1, Principal Component Analysis, pagina 46, https://books.google.it/books?id=ZXLSVPN1X1sC&printsec=frontcover&dq=Data+Clustering,+Theory,+Algorithms+and+Applications&hl=it&sa=X&ved=0ahUKEwjm5rygpoDdAhULpIsKHSL8BQEQ6AEIKjAA#v=onepage&q=Principal%20component%20analysis&f=false),
"Il principale scopo dell'analisi delle componenti principali (PCA) [...] è ridurre la dimensionalità di un dataset ad alta dimensionalità che consiste in un grande numero di variabili interrelate, e alo stesso tempo mantenere il più possibile la varianza prensente nel dataset. Le componenti principali (PCs) sono nuove variabili che sono non correlate e ordinate tali che le prime mantengono la maggior parte della varianza presente in tutte le variabili originali.
Sia [tex]v = (v_1, v_2, \cdots, v_d)'[/tex] un vettore di d variabili casuali, dove ' è l'operazione di trasposizione. Il primo passo è trovare una funzione lineare [tex]a_{1}^{'}v[/tex] degli elementi di v che massimizza la varianza, dove [tex]a_1[/tex] è un vettore d-dimensionale [tex](a_{11}, a_{12}, \cdots, a_{1d})'[/tex], allora
[tex]a_{1}^{'}v = \sum_{i=1}^{d} a_{1i}v_{i}[/tex]
Dopo aver trovato [tex]a_{1}^{'}v, a_{2}^{'}v, \cdots, a_{j-1}^{'}[/tex], noi cerchiamo una funzione lineare [tex]a_{j}^{'}v[/tex] che è non correlata con [tex]a_{1}^{'}v, a_{2}^{'}v, \cdots, a_{j-1}^{'}[/tex] e ha varianza massima. Poi noi cercheremo d funzioni lineari di questo tipo dopo d passi. La j-esima variabile derivata [tex]a_{j}^{'}v[/tex] è la j-esima PC. In generale, la maggior parte della variazione in v sarà spiegata dai primi PCs.
Per cercare la forma dei PCs, noi abbiamo bisogno di conoscere la matrice di covarianza [tex]\Sigma[/tex] di v. Nella maggior parte dei casi realistici, la matrice di covarianza [tex]\Sigma[/tex] è sconosciuta e sarà rimpiazzata da una matrice di covarianza campionaria. Per [tex]j = 1,2,\cdots,d[/tex], si può mostrare che la j-esima PC è data da [tex]z_{j} = a_{j}^{'}v[/tex], dove [tex]a_{j}[/tex] è un autovettore di [tex]\Sigma[/tex] corrisondente al j-esimo più grande autovalore [tex]\lambda_{j}[/tex].
Infatti, il primo passo, [tex]z_{1} = a_{1}^{'}v[/tex] può essere trovato risolvendo il seguente problema di ottimizzazione:
massimizzare [tex]var(a_{1}^{'}v)[/tex] soggetto a [tex]a_{1}^{'}a = 1[/tex]
dove [tex]var(a_{1}^{'}v)[/tex] è calcolato come segue:
[tex]var(a_{1}^{'}v) = a_{1}^{'} \Sigma a_{1}[/tex]
[tex]var(a_{1}^{'}v) = a_{1}^{'} \Sigma a_{1}[/tex]
Traduco dal libro ("Data Clustering, Theory, Algorithms and Applications" (Gan, Ma, Wu), 2007). Questo passaggio è rintracciabile anche da Google Books, per chi preferisse leggere l'originale dall'inglese (capitolo 4.2.1, Principal Component Analysis, pagina 46, https://books.google.it/books?id=ZXLSVPN1X1sC&printsec=frontcover&dq=Data+Clustering,+Theory,+Algorithms+and+Applications&hl=it&sa=X&ved=0ahUKEwjm5rygpoDdAhULpIsKHSL8BQEQ6AEIKjAA#v=onepage&q=Principal%20component%20analysis&f=false),
"Il principale scopo dell'analisi delle componenti principali (PCA) [...] è ridurre la dimensionalità di un dataset ad alta dimensionalità che consiste in un grande numero di variabili interrelate, e alo stesso tempo mantenere il più possibile la varianza prensente nel dataset. Le componenti principali (PCs) sono nuove variabili che sono non correlate e ordinate tali che le prime mantengono la maggior parte della varianza presente in tutte le variabili originali.
Sia [tex]v = (v_1, v_2, \cdots, v_d)'[/tex] un vettore di d variabili casuali, dove ' è l'operazione di trasposizione. Il primo passo è trovare una funzione lineare [tex]a_{1}^{'}v[/tex] degli elementi di v che massimizza la varianza, dove [tex]a_1[/tex] è un vettore d-dimensionale [tex](a_{11}, a_{12}, \cdots, a_{1d})'[/tex], allora
[tex]a_{1}^{'}v = \sum_{i=1}^{d} a_{1i}v_{i}[/tex]
Dopo aver trovato [tex]a_{1}^{'}v, a_{2}^{'}v, \cdots, a_{j-1}^{'}[/tex], noi cerchiamo una funzione lineare [tex]a_{j}^{'}v[/tex] che è non correlata con [tex]a_{1}^{'}v, a_{2}^{'}v, \cdots, a_{j-1}^{'}[/tex] e ha varianza massima. Poi noi cercheremo d funzioni lineari di questo tipo dopo d passi. La j-esima variabile derivata [tex]a_{j}^{'}v[/tex] è la j-esima PC. In generale, la maggior parte della variazione in v sarà spiegata dai primi PCs.
Per cercare la forma dei PCs, noi abbiamo bisogno di conoscere la matrice di covarianza [tex]\Sigma[/tex] di v. Nella maggior parte dei casi realistici, la matrice di covarianza [tex]\Sigma[/tex] è sconosciuta e sarà rimpiazzata da una matrice di covarianza campionaria. Per [tex]j = 1,2,\cdots,d[/tex], si può mostrare che la j-esima PC è data da [tex]z_{j} = a_{j}^{'}v[/tex], dove [tex]a_{j}[/tex] è un autovettore di [tex]\Sigma[/tex] corrisondente al j-esimo più grande autovalore [tex]\lambda_{j}[/tex].
Infatti, il primo passo, [tex]z_{1} = a_{1}^{'}v[/tex] può essere trovato risolvendo il seguente problema di ottimizzazione:
massimizzare [tex]var(a_{1}^{'}v)[/tex] soggetto a [tex]a_{1}^{'}a = 1[/tex]
dove [tex]var(a_{1}^{'}v)[/tex] è calcolato come segue:
[tex]var(a_{1}^{'}v) = a_{1}^{'} \Sigma a_{1}[/tex]
Risposte
"matxxx":
Non riesco a capire a fondo il seguente passaggio, qualcuno me lo spiega?
[tex]var(a_{1}^{'}v) = a_{1}^{'} \Sigma a_{1}[/tex]
$a'Sigmaa=sum_(h=1)^n sum_(k=1)^n sigma_(hk)a_ha_k$
dove ovviamente $sigma_(ii)=sigma_(i)^2$ mentre $sigma_(ij)$ con $i != j$ è la covarianza
Grazie mille.
Ho trovato su wikipediahttps://it.wikipedia.org/wiki/Varianza la seguente proprietà (assente sul mio libro di testo di statistica): se X e Y sono due variabili casuali non indipendenti, allora V[X + Y] = V[X] + V[Y] + 2COV[X,Y]. Il che, suppongo, sia estendibile a 3 variabili: V[X + Y + Z] = V[X] + V[Y] + V[Z] + 2COV[X,Y] + 2COV[X,Z] + 2COV[Y,Z], 4 variabili, ..., n variabili, giusto?
Supponendo sia giusto, se ho [tex]aX +b Y + cZ[/tex], ottengo [tex]V[aX + bY + cZ] = a^{2}V[X] + b^{2}V[Y] + c^{2}V[Z] + ab2COV[X,Y] + ac2COV[X,Z] + bc2COV[Y,Z][/tex]. Corretto?
Supponendo sia corretto, questo dovrebbe spiegare come mai [tex]V[a_{1}v_{1} + a_{2}v_{2} + \cdots + a_{n}v_{n}] = (a_{1}, \cdots, a_{n}) \Sigma (a_{1}, \cdots, a_{n})'[/tex], anche se purtroppo non sono riuscito a generalizzare bene il procedimento su n variabili.
Ha senso questa spiegazione, anche se non generalizzata?
Una informazione che potrebbe essermi utile per una futura generalizzazione: in generale, se ho un polinomio del tipo [tex](a + b + c + \cdots + n)^{2}[/tex], si può sempre fare [tex](a, b, c, \cdots, n) \cdot matricedi1 \cdot (a, b, c, \cdots, n)'[/tex] ? Con "matricedi1" si intende una matrice n * n piena di soli 1. In questo caso, si può vedere che, sostituendo al posto degli 1 le varianze e le covarianze, si può vedere che le varianze andranno a sostituire i coefficienti dei quadrati e le covarianze andranno a sostituire i coefficienti dei doppi prodotti, generalizzando così quanto scritto sopra.
Ho trovato su wikipediahttps://it.wikipedia.org/wiki/Varianza la seguente proprietà (assente sul mio libro di testo di statistica): se X e Y sono due variabili casuali non indipendenti, allora V[X + Y] = V[X] + V[Y] + 2COV[X,Y]. Il che, suppongo, sia estendibile a 3 variabili: V[X + Y + Z] = V[X] + V[Y] + V[Z] + 2COV[X,Y] + 2COV[X,Z] + 2COV[Y,Z], 4 variabili, ..., n variabili, giusto?
Supponendo sia giusto, se ho [tex]aX +b Y + cZ[/tex], ottengo [tex]V[aX + bY + cZ] = a^{2}V[X] + b^{2}V[Y] + c^{2}V[Z] + ab2COV[X,Y] + ac2COV[X,Z] + bc2COV[Y,Z][/tex]. Corretto?
Supponendo sia corretto, questo dovrebbe spiegare come mai [tex]V[a_{1}v_{1} + a_{2}v_{2} + \cdots + a_{n}v_{n}] = (a_{1}, \cdots, a_{n}) \Sigma (a_{1}, \cdots, a_{n})'[/tex], anche se purtroppo non sono riuscito a generalizzare bene il procedimento su n variabili.
Ha senso questa spiegazione, anche se non generalizzata?
Una informazione che potrebbe essermi utile per una futura generalizzazione: in generale, se ho un polinomio del tipo [tex](a + b + c + \cdots + n)^{2}[/tex], si può sempre fare [tex](a, b, c, \cdots, n) \cdot matricedi1 \cdot (a, b, c, \cdots, n)'[/tex] ? Con "matricedi1" si intende una matrice n * n piena di soli 1. In questo caso, si può vedere che, sostituendo al posto degli 1 le varianze e le covarianze, si può vedere che le varianze andranno a sostituire i coefficienti dei quadrati e le covarianze andranno a sostituire i coefficienti dei doppi prodotti, generalizzando così quanto scritto sopra.
"matxxx":
se X e Y sono due variabili casuali non indipendenti, allora V[X + Y] = V[X] + V[Y] + 2COV[X,Y].
Prima che qualcuno si indigni, sarebbe meglio dire "per variabili casuali non incorrelate" che è una ipotesi più blanda...infatti potresti avere variabili non indipendenti con covarianza nulla.
Comunque sì, è proprio quella a proprietà da usare[nota]Sul tuo libro giustamente tale proprietà non la trovi perché si dà per scontata...probabilmente non ti dice nemmeno che la somma delle probabilità di una variabile casuale deve essere 1......qui siamo davvero all'ABC della Statistica[/nota]: $V(aX+bY)=a^2V(X)+b^2V(Y)+2abCov(X,Y)$ estendibile immediatamente (e del resto facilmente dimostrabile utilizzando la definizione di varianza) a più variabili considerando tutti i doppi prodotti delle covarianze come hai giustamente intuito.
In termini più generali, la varianza di una combinazione lineare è data dalla doppia sommatoria che ti ho scritto sopra e che equivale, in forma sintetica, ad una forma quadratica. Il fatto che hai 2 volte la covarianza lo vedi perché la matrice var-covar è simmetrica.
Scrivere $V(a'x)=a'Sigmaa$ è come dire
$V(a'x)=[ a_1 \ \ a_2 \ \ ... \ \ a_n ] [ ( sigma_(11) , sigma_(12) , ... , sigma_(1n) ),( sigma_(12) , sigma_(22) , ... , sigma_(2n)),( ... , ...,... , ... ),( sigma_(1n) ,sigma_(2n) , ... , sigma_(n n) ) ][ ( a_1 ),( a_2 ),(...),( a_n ) ] $
nell proprietà che hai visto tu hai 2 volte la covarianza....ed anche nella forma quadratica, dato che la matrice $Sigma$ è simmetrica.....come vedi ho messo sempre $sigma_(ij)$ anche dove andrebbe messo $sigma_(ji)$
spero che ora sia chiaro ma mi permetto di consigliarti un bel ripasso di base prima di affrontare letture sulla PCA
ciao
"Il fatto che hai 2 volte la covarianza lo vedi perché la matrice var-covar è simmetrica". Certo, l'avevo intuito, altrimenti non avrei parlato di doppio prodotto.
"Sul tuo libro giustamente tale proprietà non la trovi perché si dà per scontata...probabilmente non ti dice nemmeno che la somma delle probabilità di una variabile casuale deve essere 1". Mi riferivo al libro di statistica, non a quello della PCA, ovviamente! Nel libro di statistica c'è la proprietà che dice: siano X, Y, indipendenti, allora V[X + Y] = V[X] + V[Y]. Ma non viene detto il caso di non indipendenza, che dovrebbe essere più generico e da cui dovrebbe essere semplice derivare il primo! Avrebbe più senso mettere nel libro solo il caso di non indipendenza, piuttosto.
"Sul tuo libro giustamente tale proprietà non la trovi perché si dà per scontata...probabilmente non ti dice nemmeno che la somma delle probabilità di una variabile casuale deve essere 1". Mi riferivo al libro di statistica, non a quello della PCA, ovviamente! Nel libro di statistica c'è la proprietà che dice: siano X, Y, indipendenti, allora V[X + Y] = V[X] + V[Y]. Ma non viene detto il caso di non indipendenza, che dovrebbe essere più generico e da cui dovrebbe essere semplice derivare il primo! Avrebbe più senso mettere nel libro solo il caso di non indipendenza, piuttosto.
ovviamente sono d'accordo.
ma prova a dimostrarlo....è davvero immediato
$V(aX+bY)=E[(aX+bY)^2]-E^2[aX+bY]$
sviluppi i calcoli e trovi il risultato.
ma prova a dimostrarlo....è davvero immediato
$V(aX+bY)=E[(aX+bY)^2]-E^2[aX+bY]$
sviluppi i calcoli e trovi il risultato.

Ok, ci provo. Grazie mille per l'esercizio che mi stai dando! E' utile per prendere confidenza con queste cose e ripassare.
[tex]V(aX + bY) = E[(aX + bY)^{2}] - E^{2}[aX + bY] =[/tex]
(sfruttando la proprietà: [tex]E[X + Y] = E[X] + E[Y][/tex] e sviluppando il quadrato al primo membro)
[tex]E[a^{2}X^{2} + b^{2}Y^{2} + 2abXY] -(E[aX] + E[bY])])^{2} =[/tex]
(sfruttando la proprietà: [tex]E[X + Y] = E[X] + E[Y][/tex] e sviluppando il quadrato al secondo membro)
[tex]E[a^{2}X^{2}] + E[b^{2}Y^{2}] + E[2abXY] -(E[aX]^{2} + E[bY]^{2} + 2E[aX]E[bY]) =[/tex]
(sfruttando la proprietà: [tex]E[aX] = aE[X][/tex])
[tex]E[a^{2}X^{2}] - E^{2}[aX] + E[b^{2}Y^{2}] - E^{2}[bY] + 2ab(E[XY] - E[X]E[Y]) =[/tex]
(sfruttando le proprietà: [tex]V[X] = E[X^{2}] - E^{2}[X][/tex], [tex]cov(X,Y) = E[XY] - E[X]E[Y][/tex])
[tex]V[aX] + V[bY] + 2abCov[X,Y][/tex]
Si può concludere che:
[tex]V(aX + bY) = V[aX] + V[bY] + 2abCov[X,Y] = a^{2}V[X] + b^{2}V[Y] + 2abCov[X,Y][/tex]
[tex]V(aX + bY) = E[(aX + bY)^{2}] - E^{2}[aX + bY] =[/tex]
(sfruttando la proprietà: [tex]E[X + Y] = E[X] + E[Y][/tex] e sviluppando il quadrato al primo membro)
[tex]E[a^{2}X^{2} + b^{2}Y^{2} + 2abXY] -(E[aX] + E[bY])])^{2} =[/tex]
(sfruttando la proprietà: [tex]E[X + Y] = E[X] + E[Y][/tex] e sviluppando il quadrato al secondo membro)
[tex]E[a^{2}X^{2}] + E[b^{2}Y^{2}] + E[2abXY] -(E[aX]^{2} + E[bY]^{2} + 2E[aX]E[bY]) =[/tex]
(sfruttando la proprietà: [tex]E[aX] = aE[X][/tex])
[tex]E[a^{2}X^{2}] - E^{2}[aX] + E[b^{2}Y^{2}] - E^{2}[bY] + 2ab(E[XY] - E[X]E[Y]) =[/tex]
(sfruttando le proprietà: [tex]V[X] = E[X^{2}] - E^{2}[X][/tex], [tex]cov(X,Y) = E[XY] - E[X]E[Y][/tex])
[tex]V[aX] + V[bY] + 2abCov[X,Y][/tex]
Si può concludere che:
[tex]V(aX + bY) = V[aX] + V[bY] + 2abCov[X,Y] = a^{2}V[X] + b^{2}V[Y] + 2abCov[X,Y][/tex]