Big Data!? analisi
Un saluto al forum,
chiedo un supporto tecnico:
ho una matrice con righe > 10^6 e 3 colonne (la matrice è un insieme di coordinate x,y,z).
Vorrei avere un suggerimento riguardo al
1) come trovare righe ripetute
2) e al so da utilizzare.
Di mio ho provato con Excel 2011, ma al max ha 1024000 righe, che non sono sufficienti per rappresentare la matrice interamente; ho provato anche con Matlab, ma ho ottenuto lo stesso problema.
Grazie in anticipo
Metrixo
chiedo un supporto tecnico:
ho una matrice con righe > 10^6 e 3 colonne (la matrice è un insieme di coordinate x,y,z).
Vorrei avere un suggerimento riguardo al
1) come trovare righe ripetute
2) e al so da utilizzare.
Di mio ho provato con Excel 2011, ma al max ha 1024000 righe, che non sono sufficienti per rappresentare la matrice interamente; ho provato anche con Matlab, ma ho ottenuto lo stesso problema.
Grazie in anticipo
Metrixo
Risposte
"SO" è il sistema operativo?
Vedo che usi Linux: se non ti interessa l'ordine delle righe nel file, puoi ordinarlo con sort e usare poi uniq per stampare le righe ripetute, con
Vedo che usi Linux: se non ti interessa l'ordine delle righe nel file, puoi ordinarlo con sort e usare poi uniq per stampare le righe ripetute, con
sort <file> | uniq -d
Ti conviene usare R per dataset con una numerosità così alta. Inoltre trovi codici e guida in rete.
"Injuria":
Ti conviene usare R per dataset con una numerosità così alta. Inoltre trovi codici e guida in rete.
Concordo, in R, creazione del dataset a parte, si tratta dell'uso di un singolo comando (duplicated o unique a seconda degli scopi).
Ma ogni altro software statistico potrebbe andar bene.