Clustering con PCA e senza PCA

Fai una domanda Tutte le categorie

CosenTheta

26 nov 2024, 12:06

Si supponga di avere a disposizione un dataset di parametri di basso livello (utilizzo cpu, memoria occupata, ecc ecc) di un server, misurati durante un normale utilizzo del sistema. Si supponga inoltre che il dataset sia considerevole (molte righe, quindi misurazioni, e molte colonne, quindi parametri). Su di esso voglio applicare il clustering per ottenere un nuovo dataset che sia ridotto ma rappresentativo del dataset originale (in termini di varianza spiegata). Prima di svolgere il clustering, però, potrei applicare ai dati la Principal Component Analysis (PCA) per ottenere un nuovo dataset e su di esso fare clustering.

La mie domande sono:
1) A cosa serve applicare la PCA prima di effettuare clustering?
2) Quali sono i vantaggi/svantaggi dell'applicazione della PCA prima di effettuare clustering?

Grazie.

Risposte

apatriarca

26 nov 2024, 15:49

In linea di massima, gli algoritmi di clustering lavorano meglio quando il numero di dimensioni è basso. La ragione è che, con l'aumentare delle dimensioni, i punti tendono ad essere più lontani tra di loro (la densità dei punti diminuisce) e il rumore tende ad avere un effetto maggiore. Inoltre il costo computazionale aumenta con la dimensione. Infine, è molto più facile visualizzare dataset con una dimensione inferiore (per esempio per debugging). Quindi applicare PCA ha grossi vantaggi.

CosenTheta

26 nov 2024, 17:02

"apatriarca":
il rumore tende ad avere un effetto maggiore

Cosa si intende per rumore in un dataset?

apatriarca

27 nov 2024, 21:44

Con rumore si intende qualsiasi errore nei dati. Di solito è causato da limitazioni negli strumenti di misura, ma può avere diverse cause.

CosenTheta

28 nov 2024, 19:04

Grazie.
Ci sono casi in cui non conviene applicare la PCA? Se sì, quali?

Rispondi

Per rispondere a questa discussione devi prima effettuare il login.

Clustering con PCA e senza PCA

Segnala Post di

Aggiungi immagine

Aggiungi allegato

Aggiungi Link

Aggiungi formula matematica