Interpretazione risultato Analisi delle Componenti Principali
Ciao a tutti. Ho raccolto dei dati , riguardanti il tipo occupazione ottenuta, dopo la laurea, dagli studenti che si sono formati nelle università italiane
Fatto ciò, ho svolto una Analisi delle Componenti Principali, utilizzando i dati raccolti, con il software "R"
Infine ho disegnato un Diagramma
che dovrebbe aiutarmi a capire quale delle Componenti Principali è rilevante (immagine allegata).
Il PROBLEMA a questo punto è questo: che interpretazione si può dare al risultato ottenuto? Ora che ho fatto tutta l'analisi devo trarre delle conclusioni, ma non so effettivamente quali siano queste conclusioni. Ringrazio in anticipo chi cercherà di aiutarmi.
Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro 57 403 39 1991 440 95 25 547 0 829 69 14 4 41 19 294 29 2 44 459 18 1317 344 54 16 26 0 227 25 21 0 76 7 161 35 6 14 600 110 2095 442 90 52 1200 44 1983 74 66 16 113 5 1204 169 3 55 270 38 1647 372 51 13 53 25 366 95 23 0 68 9 295 66 3 12 37 10 289 119 1 14 137 18 373 88 9 0 264 35 805 138 55 3 158 16 579 102 7 26 93 11 468 212 24 50 88 6 661 234 51 10 431 32 178 17 20 43 754 114 2414 379 75 2 30 10 320 105 29 46 194 24 1499 161 13 58 380 45 952 251 93 24 113 12 543 99 25 134 915 14 3410 699 153 10 204 6 406 65 49 78 196 86 594 209 49 2 167 26 443 122 11 0 109 6 207 83 28 4 105 0 147 23 13 29 921 47 1203 231 106 37 282 52 1228 248 90 21 240 31 525 172 25 53 308 23 672 203 90 4 51 5 108 55 12 122 1609 47 3272 695 139 9 102 13 440 81 24 4 15 8 122 24 0 0 103 0 245 28 0 0 0 0 0 0 0 0 144 13 565 122 57 10 31 10 212 37 11 3 18 3 71 19 5 70 1099 26 1749 323 60 28 42 7 240 30 8 2 9 3 127 57 26 3 23 0 139 54 17 5 102 12 161 30 12 48 243 15 840 143 34 7 68 7 331 60 20 10 146 0 83 52 3 29 219 0 332 89 35 6 46 0 110 39 10 7 87 3 70 28 7 48 424 69 1136 133 37 0 182 0 330 5 7 0 54 2 334 70 12 0 32 5 42 6 0 14 83 26 402 104 36 1 41 6 29 20 9 8 125 12 23 13 0 8 400 42 915 269 20 15 293 8 376 124 46 11 257 59 787 67 67 10 129 9 185 61 12 25 353 38 688 114 20 2 5 0 10 1 0 [code][/code].
Fatto ciò, ho svolto una Analisi delle Componenti Principali, utilizzando i dati raccolti, con il software "R"
> X<-read.table(file="/media/DATIROBY/Documenti Roberto/Provvisori/Tesina 2014/uni.txt",
+ header=TRUE,
+ sep="\t")
> read.table(file="/media/DATIROBY/Documenti Roberto/Provvisori/Tesina 2014/uni.txt")
V1 V2 V3 V4 V5 V6
1 Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro
2 57 403 39 1991 440 95
3 25 547 0 829 69 14
4 4 41 19 294 29 2
5 44 459 18 1317 344 54
6 16 26 0 227 25 21
7 0 76 7 161 35 6
8 14 600 110 2095 442 90
9 52 1200 44 1983 74 66
10 16 113 5 1204 169 3
11 55 270 38 1647 372 51
12 13 53 25 366 95 23
13 0 68 9 295 66 3
14 12 37 10 289 119 1
15 14 137 18 373 88 9
16 0 264 35 805 138 55
17 3 158 16 579 102 7
18 26 93 11 468 212 24
19 50 88 6 661 234 51
20 10 431 32 178 17 20
21 43 754 114 2414 379 75
22 2 30 10 320 105 29
23 46 194 24 1499 161 13
24 58 380 45 952 251 93
25 24 113 12 543 99 25
26 134 915 14 3410 699 153
27 10 204 6 406 65 49
28 78 196 86 594 209 49
29 2 167 26 443 122 11
30 0 109 6 207 83 28
31 4 105 0 147 23 13
32 29 921 47 1203 231 106
33 37 282 52 1228 248 90
34 21 240 31 525 172 25
35 53 308 23 672 203 90
36 4 51 5 108 55 12
37 122 1609 47 3272 695 139
38 9 102 13 440 81 24
39 4 15 8 122 24 0
40 0 103 0 245 28 0
41 0 0 0 0 0 0
42 0 144 13 565 122 57
43 10 31 10 212 37 11
44 3 18 3 71 19 5
45 70 1099 26 1749 323 60
46 28 42 7 240 30 8
47 2 9 3 127 57 26
48 3 23 0 139 54 17
49 5 102 12 161 30 12
50 48 243 15 840 143 34
51 7 68 7 331 60 20
52 10 146 0 83 52 3
53 29 219 0 332 89 35
54 6 46 0 110 39 10
55 7 87 3 70 28 7
56 48 424 69 1136 133 37
57 0 182 0 330 5 7
58 0 54 2 334 70 12
59 0 32 5 42 6 0
60 14 83 26 402 104 36
61 1 41 6 29 20 9
62 8 125 12 23 13 0
63 8 400 42 915 269 20
64 15 293 8 376 124 46
65 11 257 59 787 67 67
66 10 129 9 185 61 12
67 25 353 38 688 114 20
68 2 5 0 10 1 0
> dim(X)
[1] 67 6
> names(X)
[1] "Imprenditore" "Libero_professionista" "Dirigente" "Impiegato_alta_media_qualificazione"
[5] "Impiegato_secutivo" "Altro"
> n=nrow(X)
> n
[1] 67
> p=ncol(X)
> p
[1] 6
> #determino media e varizione standard
> medie=colMeans(X)
> scarto=sd(X)
Warning message:
sd(<data.frame>) is deprecated.
Use sapply(*, sd) instead.
> scarto=sapply(X,sd)
> summary(X)
Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro
Min. : 0.00 Min. : 0.0 Min. : 0.00 Min. : 0.0 Min. : 0.0 Min. : 0.00
1st Qu.: 3.00 1st Qu.: 53.5 1st Qu.: 5.00 1st Qu.: 181.5 1st Qu.: 36.0 1st Qu.: 8.50
Median : 10.00 Median : 129.0 Median : 12.00 Median : 376.0 Median : 88.0 Median : 20.00
Mean : 21.81 Mean : 246.5 Mean : 20.69 Mean : 668.6 Mean :135.4 Mean : 32.69
3rd Qu.: 29.00 3rd Qu.: 287.5 3rd Qu.: 28.50 3rd Qu.: 834.5 3rd Qu.:170.5 3rd Qu.: 50.00
Max. :134.00 Max. :1609.0 Max. :114.00 Max. :3410.0 Max. :699.0 Max. :153.00
> #Calcolo la matrice di correlazione
> R=cor(X)
> R
Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro
Imprenditore 1.0000000 0.7232578 0.4069819 0.8194715 0.8221177 0.7689101
Libero_professionista 0.7232578 1.0000000 0.5163891 0.8400123 0.7144218 0.7450421
Dirigente 0.4069819 0.5163891 1.0000000 0.5953317 0.5348810 0.5614609
Impiegato_alta_media_qualificazione 0.8194715 0.8400123 0.5953317 1.0000000 0.9097901 0.8168179
Impiegato_secutivo 0.8221177 0.7144218 0.5348810 0.9097901 1.0000000 0.8358698
Altro 0.7689101 0.7450421 0.5614609 0.8168179 0.8358698 1.0000000
> #Calcolo autovalori e autovettori della matrice di correlazione
> eigen(R)
$values
[1] 4.5852733 0.6517240 0.3147228 0.2113144 0.1805353 0.0564302
$vectors
[,1] [,2] [,3] [,4] [,5] [,6]
[1,] -0.4103634 0.37194259 -0.20439271 0.47443607 0.65296698 0.005363622
[2,] -0.4071859 0.06534388 0.85648882 -0.06239637 0.02280538 -0.303221543
[3,] -0.3108290 -0.91245896 -0.09096829 0.17284384 0.17083380 -0.058902847
[4,] -0.4477072 0.05416609 0.07083906 0.21641547 -0.45332218 0.734349680
[5,] -0.4341914 0.14104574 -0.40469789 0.07465502 -0.52933248 -0.584839564
[6,] -0.4245267 0.04449335 -0.21812093 -0.82989944 0.24132131 0.152484798
> autoval=eigen(R)$values
> autovect=eigen(R)$vectors
> #L'unica componente rilevante è la prima, infatti ha autovalore (quindi varianza) maggiore di 1.Gli altri sono minori di 1.
> pvarsp=autoval/p
> pvarsp
[1] 0.764212210 0.108620672 0.052453802 0.035219063 0.030089220 0.009405033
> pvarspcum=cumsum(pvarsp)
> pvarspcum
[1] 0.7642122 0.8728329 0.9252867 0.9605057 0.9905950 1.0000000
> #utilizzo il criterio grafico per decidere.
> plot(autoval, type="b", main="Scree Diagram", xlab="Numero componenti", ylab="Autovalori")
> abline(h=1,lwd=3,col="red")
> .Infine ho disegnato un Diagramma
che dovrebbe aiutarmi a capire quale delle Componenti Principali è rilevante (immagine allegata).Il PROBLEMA a questo punto è questo: che interpretazione si può dare al risultato ottenuto? Ora che ho fatto tutta l'analisi devo trarre delle conclusioni, ma non so effettivamente quali siano queste conclusioni. Ringrazio in anticipo chi cercherà di aiutarmi.
Risposte
Innanzitutto grazie per l'esauriente e precisa risposta. Avrei una domanda (spero non sia stupida): con i dati che ho a disposizione forse sarebbe più indicata una Cluster analysis?
Capisco. Allora devo cambiare i dati perché non riesco a individuare un obiettivo riguardo a quelli che ho. Grazie mille per la risposta.