Metodi di partizionamento dei dati
Ciao Ragazzi, vi chiedo un consiglio. Io ho una collezione di dati circa la durata di un certo processo durante le diverse fasi del giorno.
Avrei bisogno di partizionare il tempo in [tex]$n$[/tex] cluster associando ad ognuno di essi il valore di durata più probabile. Esistono algoritmi utili alla causa?
Grazie, Ciao
Avrei bisogno di partizionare il tempo in [tex]$n$[/tex] cluster associando ad ognuno di essi il valore di durata più probabile. Esistono algoritmi utili alla causa?
Grazie, Ciao
Risposte
stavo pensando al k-means, ma non è esattamente quello che mi serve, io dovrei partizionare il dominio del tempo più che i valori delle osservazioni...
Credo tu debba specificare meglio il problema: vuoi dividere il tempo in n intervalli in modo da minimizzare che cosa?
Ciao, il mio scopo è partizionare il tempo in n parti al fine di minimizzare la varianza delle osservazioni di ogni cluster. Così facendo otterrei delle finestre temporali con valori attesi significativi, utilizzabili per fare dei ragionamenti sulla pianificare delle attività.
Lo scopo del lavoro dovrebbe essere pianificare il processo lungo la giornata, suddividendola in n fasce orarie laddove vi è una certa regolarità sui tempi di processo.
Lo scopo del lavoro dovrebbe essere pianificare il processo lungo la giornata, suddividendola in n fasce orarie laddove vi è una certa regolarità sui tempi di processo.
Forse ti può essere utile dare uno sguardo ai modelli/algoritmi accennati in questo documento.
Uno dei modelli citati è implementato nel pacchetto segclust per R.
Se hai già risolto, come non detto. Anzi, magari ci puoi dire come hai fatto
Uno dei modelli citati è implementato nel pacchetto segclust per R.
Se hai già risolto, come non detto. Anzi, magari ci puoi dire come hai fatto

Ciao, scusate il ritardo post ferie...
Alla fine ho utilizzato il k-means. La cosa che non mi aspettavo è che mi restituisce cluster che non si sovrappongono, che poi è quello che mi serve, ma non mi torna.
Mi spiego meglio: ho un insieme osservazioni durata-istante di fine processo [tex]$(d_i,t_i)$[/tex] e produco [tex]$k$[/tex] cluster. Posso defnire un intervallo [tex]$[min(t_i),max(t_i)]$[/tex] per ogni partizione. Ecco tutti gli intervalli dei cluster non si sovrappongono mai tra di loro.
Non capisco se è un caso o un bug nella mia implementazione
Alla fine ho utilizzato il k-means. La cosa che non mi aspettavo è che mi restituisce cluster che non si sovrappongono, che poi è quello che mi serve, ma non mi torna.
Mi spiego meglio: ho un insieme osservazioni durata-istante di fine processo [tex]$(d_i,t_i)$[/tex] e produco [tex]$k$[/tex] cluster. Posso defnire un intervallo [tex]$[min(t_i),max(t_i)]$[/tex] per ogni partizione. Ecco tutti gli intervalli dei cluster non si sovrappongono mai tra di loro.
Non capisco se è un caso o un bug nella mia implementazione