Interpretazione risultato Analisi delle Componenti Principali
Ciao a tutti. Ho raccolto dei dati , riguardanti il tipo occupazione ottenuta, dopo la laurea, dagli studenti che si sono formati nelle università italiane
Fatto ciò, ho svolto una Analisi delle Componenti Principali, utilizzando i dati raccolti, con il software "R"
Infine ho disegnato un Diagramma
che dovrebbe aiutarmi a capire quale delle Componenti Principali è rilevante (immagine allegata).
Il PROBLEMA a questo punto è questo: che interpretazione si può dare al risultato ottenuto? Ora che ho fatto tutta l'analisi devo trarre delle conclusioni, ma non so effettivamente quali siano queste conclusioni. Ringrazio in anticipo chi cercherà di aiutarmi.
Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro 57 403 39 1991 440 95 25 547 0 829 69 14 4 41 19 294 29 2 44 459 18 1317 344 54 16 26 0 227 25 21 0 76 7 161 35 6 14 600 110 2095 442 90 52 1200 44 1983 74 66 16 113 5 1204 169 3 55 270 38 1647 372 51 13 53 25 366 95 23 0 68 9 295 66 3 12 37 10 289 119 1 14 137 18 373 88 9 0 264 35 805 138 55 3 158 16 579 102 7 26 93 11 468 212 24 50 88 6 661 234 51 10 431 32 178 17 20 43 754 114 2414 379 75 2 30 10 320 105 29 46 194 24 1499 161 13 58 380 45 952 251 93 24 113 12 543 99 25 134 915 14 3410 699 153 10 204 6 406 65 49 78 196 86 594 209 49 2 167 26 443 122 11 0 109 6 207 83 28 4 105 0 147 23 13 29 921 47 1203 231 106 37 282 52 1228 248 90 21 240 31 525 172 25 53 308 23 672 203 90 4 51 5 108 55 12 122 1609 47 3272 695 139 9 102 13 440 81 24 4 15 8 122 24 0 0 103 0 245 28 0 0 0 0 0 0 0 0 144 13 565 122 57 10 31 10 212 37 11 3 18 3 71 19 5 70 1099 26 1749 323 60 28 42 7 240 30 8 2 9 3 127 57 26 3 23 0 139 54 17 5 102 12 161 30 12 48 243 15 840 143 34 7 68 7 331 60 20 10 146 0 83 52 3 29 219 0 332 89 35 6 46 0 110 39 10 7 87 3 70 28 7 48 424 69 1136 133 37 0 182 0 330 5 7 0 54 2 334 70 12 0 32 5 42 6 0 14 83 26 402 104 36 1 41 6 29 20 9 8 125 12 23 13 0 8 400 42 915 269 20 15 293 8 376 124 46 11 257 59 787 67 67 10 129 9 185 61 12 25 353 38 688 114 20 2 5 0 10 1 0 [code][/code].
Fatto ciò, ho svolto una Analisi delle Componenti Principali, utilizzando i dati raccolti, con il software "R"
> X<-read.table(file="/media/DATIROBY/Documenti Roberto/Provvisori/Tesina 2014/uni.txt", + header=TRUE, + sep="\t") > read.table(file="/media/DATIROBY/Documenti Roberto/Provvisori/Tesina 2014/uni.txt") V1 V2 V3 V4 V5 V6 1 Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro 2 57 403 39 1991 440 95 3 25 547 0 829 69 14 4 4 41 19 294 29 2 5 44 459 18 1317 344 54 6 16 26 0 227 25 21 7 0 76 7 161 35 6 8 14 600 110 2095 442 90 9 52 1200 44 1983 74 66 10 16 113 5 1204 169 3 11 55 270 38 1647 372 51 12 13 53 25 366 95 23 13 0 68 9 295 66 3 14 12 37 10 289 119 1 15 14 137 18 373 88 9 16 0 264 35 805 138 55 17 3 158 16 579 102 7 18 26 93 11 468 212 24 19 50 88 6 661 234 51 20 10 431 32 178 17 20 21 43 754 114 2414 379 75 22 2 30 10 320 105 29 23 46 194 24 1499 161 13 24 58 380 45 952 251 93 25 24 113 12 543 99 25 26 134 915 14 3410 699 153 27 10 204 6 406 65 49 28 78 196 86 594 209 49 29 2 167 26 443 122 11 30 0 109 6 207 83 28 31 4 105 0 147 23 13 32 29 921 47 1203 231 106 33 37 282 52 1228 248 90 34 21 240 31 525 172 25 35 53 308 23 672 203 90 36 4 51 5 108 55 12 37 122 1609 47 3272 695 139 38 9 102 13 440 81 24 39 4 15 8 122 24 0 40 0 103 0 245 28 0 41 0 0 0 0 0 0 42 0 144 13 565 122 57 43 10 31 10 212 37 11 44 3 18 3 71 19 5 45 70 1099 26 1749 323 60 46 28 42 7 240 30 8 47 2 9 3 127 57 26 48 3 23 0 139 54 17 49 5 102 12 161 30 12 50 48 243 15 840 143 34 51 7 68 7 331 60 20 52 10 146 0 83 52 3 53 29 219 0 332 89 35 54 6 46 0 110 39 10 55 7 87 3 70 28 7 56 48 424 69 1136 133 37 57 0 182 0 330 5 7 58 0 54 2 334 70 12 59 0 32 5 42 6 0 60 14 83 26 402 104 36 61 1 41 6 29 20 9 62 8 125 12 23 13 0 63 8 400 42 915 269 20 64 15 293 8 376 124 46 65 11 257 59 787 67 67 66 10 129 9 185 61 12 67 25 353 38 688 114 20 68 2 5 0 10 1 0 > dim(X) [1] 67 6 > names(X) [1] "Imprenditore" "Libero_professionista" "Dirigente" "Impiegato_alta_media_qualificazione" [5] "Impiegato_secutivo" "Altro" > n=nrow(X) > n [1] 67 > p=ncol(X) > p [1] 6 > #determino media e varizione standard > medie=colMeans(X) > scarto=sd(X) Warning message: sd(<data.frame>) is deprecated. Use sapply(*, sd) instead. > scarto=sapply(X,sd) > summary(X) Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro Min. : 0.00 Min. : 0.0 Min. : 0.00 Min. : 0.0 Min. : 0.0 Min. : 0.00 1st Qu.: 3.00 1st Qu.: 53.5 1st Qu.: 5.00 1st Qu.: 181.5 1st Qu.: 36.0 1st Qu.: 8.50 Median : 10.00 Median : 129.0 Median : 12.00 Median : 376.0 Median : 88.0 Median : 20.00 Mean : 21.81 Mean : 246.5 Mean : 20.69 Mean : 668.6 Mean :135.4 Mean : 32.69 3rd Qu.: 29.00 3rd Qu.: 287.5 3rd Qu.: 28.50 3rd Qu.: 834.5 3rd Qu.:170.5 3rd Qu.: 50.00 Max. :134.00 Max. :1609.0 Max. :114.00 Max. :3410.0 Max. :699.0 Max. :153.00 > #Calcolo la matrice di correlazione > R=cor(X) > R Imprenditore Libero_professionista Dirigente Impiegato_alta_media_qualificazione Impiegato_secutivo Altro Imprenditore 1.0000000 0.7232578 0.4069819 0.8194715 0.8221177 0.7689101 Libero_professionista 0.7232578 1.0000000 0.5163891 0.8400123 0.7144218 0.7450421 Dirigente 0.4069819 0.5163891 1.0000000 0.5953317 0.5348810 0.5614609 Impiegato_alta_media_qualificazione 0.8194715 0.8400123 0.5953317 1.0000000 0.9097901 0.8168179 Impiegato_secutivo 0.8221177 0.7144218 0.5348810 0.9097901 1.0000000 0.8358698 Altro 0.7689101 0.7450421 0.5614609 0.8168179 0.8358698 1.0000000 > #Calcolo autovalori e autovettori della matrice di correlazione > eigen(R) $values [1] 4.5852733 0.6517240 0.3147228 0.2113144 0.1805353 0.0564302 $vectors [,1] [,2] [,3] [,4] [,5] [,6] [1,] -0.4103634 0.37194259 -0.20439271 0.47443607 0.65296698 0.005363622 [2,] -0.4071859 0.06534388 0.85648882 -0.06239637 0.02280538 -0.303221543 [3,] -0.3108290 -0.91245896 -0.09096829 0.17284384 0.17083380 -0.058902847 [4,] -0.4477072 0.05416609 0.07083906 0.21641547 -0.45332218 0.734349680 [5,] -0.4341914 0.14104574 -0.40469789 0.07465502 -0.52933248 -0.584839564 [6,] -0.4245267 0.04449335 -0.21812093 -0.82989944 0.24132131 0.152484798 > autoval=eigen(R)$values > autovect=eigen(R)$vectors > #L'unica componente rilevante è la prima, infatti ha autovalore (quindi varianza) maggiore di 1.Gli altri sono minori di 1. > pvarsp=autoval/p > pvarsp [1] 0.764212210 0.108620672 0.052453802 0.035219063 0.030089220 0.009405033 > pvarspcum=cumsum(pvarsp) > pvarspcum [1] 0.7642122 0.8728329 0.9252867 0.9605057 0.9905950 1.0000000 > #utilizzo il criterio grafico per decidere. > plot(autoval, type="b", main="Scree Diagram", xlab="Numero componenti", ylab="Autovalori") > abline(h=1,lwd=3,col="red") >.
Infine ho disegnato un Diagramma

Il PROBLEMA a questo punto è questo: che interpretazione si può dare al risultato ottenuto? Ora che ho fatto tutta l'analisi devo trarre delle conclusioni, ma non so effettivamente quali siano queste conclusioni. Ringrazio in anticipo chi cercherà di aiutarmi.
Risposte
Innanzitutto grazie per l'esauriente e precisa risposta. Avrei una domanda (spero non sia stupida): con i dati che ho a disposizione forse sarebbe più indicata una Cluster analysis?
Capisco. Allora devo cambiare i dati perché non riesco a individuare un obiettivo riguardo a quelli che ho. Grazie mille per la risposta.