Clustering con PCA e senza PCA
Si supponga di avere a disposizione un dataset di parametri di basso livello (utilizzo cpu, memoria occupata, ecc ecc) di un server, misurati durante un normale utilizzo del sistema. Si supponga inoltre che il dataset sia considerevole (molte righe, quindi misurazioni, e molte colonne, quindi parametri). Su di esso voglio applicare il clustering per ottenere un nuovo dataset che sia ridotto ma rappresentativo del dataset originale (in termini di varianza spiegata). Prima di svolgere il clustering, però, potrei applicare ai dati la Principal Component Analysis (PCA) per ottenere un nuovo dataset e su di esso fare clustering.
La mie domande sono:
1) A cosa serve applicare la PCA prima di effettuare clustering?
2) Quali sono i vantaggi/svantaggi dell'applicazione della PCA prima di effettuare clustering?
Grazie.
La mie domande sono:
1) A cosa serve applicare la PCA prima di effettuare clustering?
2) Quali sono i vantaggi/svantaggi dell'applicazione della PCA prima di effettuare clustering?
Grazie.
Risposte
In linea di massima, gli algoritmi di clustering lavorano meglio quando il numero di dimensioni è basso. La ragione è che, con l'aumentare delle dimensioni, i punti tendono ad essere più lontani tra di loro (la densità dei punti diminuisce) e il rumore tende ad avere un effetto maggiore. Inoltre il costo computazionale aumenta con la dimensione. Infine, è molto più facile visualizzare dataset con una dimensione inferiore (per esempio per debugging). Quindi applicare PCA ha grossi vantaggi.
"apatriarca":
il rumore tende ad avere un effetto maggiore
Cosa si intende per rumore in un dataset?
Con rumore si intende qualsiasi errore nei dati. Di solito è causato da limitazioni negli strumenti di misura, ma può avere diverse cause.
Grazie.
Ci sono casi in cui non conviene applicare la PCA? Se sì, quali?
Ci sono casi in cui non conviene applicare la PCA? Se sì, quali?