Big Data!? analisi

metrixo
Un saluto al forum,

chiedo un supporto tecnico:
ho una matrice con righe > 10^6 e 3 colonne (la matrice è un insieme di coordinate x,y,z).
Vorrei avere un suggerimento riguardo al
1) come trovare righe ripetute
2) e al so da utilizzare.

Di mio ho provato con Excel 2011, ma al max ha 1024000 righe, che non sono sufficienti per rappresentare la matrice interamente; ho provato anche con Matlab, ma ho ottenuto lo stesso problema.

Grazie in anticipo
Metrixo

Risposte
phaerrax
"SO" è il sistema operativo?
Vedo che usi Linux: se non ti interessa l'ordine delle righe nel file, puoi ordinarlo con sort e usare poi uniq per stampare le righe ripetute, con
sort <file> | uniq -d

dasalv12
Ti conviene usare R per dataset con una numerosità così alta. Inoltre trovi codici e guida in rete.

vict85
"Injuria":
Ti conviene usare R per dataset con una numerosità così alta. Inoltre trovi codici e guida in rete.


Concordo, in R, creazione del dataset a parte, si tratta dell'uso di un singolo comando (duplicated o unique a seconda degli scopi).

Ma ogni altro software statistico potrebbe andar bene.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.