[R] lentezza del codice

lovanderia · 2014-01-02CET16:30:58+01:00

"Ciao a tutti,\nho un problema di lentezza di esecuzione del codice in R.\nHo due matrici:\n * la matrice chiamata \"dati\" con 130 mila riga e due colonne: link.finale e cluster (colonna di tutti zeri)\n * la matrice chiamata \"prima\" con 6488 righe e due colonne: link.finale e cluster (con valori di quest'ultima colonna che vanno da 1 a 5)\n\nLa colonna link.finale della matrice prima \u00e8 stata generata da una unique della colonna link.finale della matrice dati.\nQuello che voglio fare \u00e8 confrontare se il link.finale della matrice dati corrisponde al link.finale della matrice prima. Se si ha questa corrispondenza, vorrei associare alla colonna cluster della matrice dati il valore corrispondente della colonna cluster matrice prima.\n\nPremetto che le due matrici sono ordinate crescentemente per la variabile link.finale.\nHo pensato al seguente codice\n \n\ni

Fai una domanda Tutte le categorie

lovanderia

2 gen 2014, 16:30

Ciao a tutti,
ho un problema di lentezza di esecuzione del codice in R.
Ho due matrici:
* la matrice chiamata "dati" con 130 mila riga e due colonne: link.finale e cluster (colonna di tutti zeri)
* la matrice chiamata "prima" con 6488 righe e due colonne: link.finale e cluster (con valori di quest'ultima colonna che vanno da 1 a 5)

La colonna link.finale della matrice prima è stata generata da una unique della colonna link.finale della matrice dati.
Quello che voglio fare è confrontare se il link.finale della matrice dati corrisponde al link.finale della matrice prima. Se si ha questa corrispondenza, vorrei associare alla colonna cluster della matrice dati il valore corrispondente della colonna cluster matrice prima.

Premetto che le due matrici sono ordinate crescentemente per la variabile link.finale.
Ho pensato al seguente codice

 

i<-1
j<-1
while(i<=nrow(prima)){
  while(prima$link.finale[i]==dati$link.finale[j]){
    dati$cluster[j]<-prima$cluster[i]
    j<-j+1
  }
  i<-i+1
}

Il codice funziona, solo che è lentissimo. In 5 minuti assegna un valore a solo le prime 1000 righe della matrice dati. Dato che la matrice è di 130 mila righe, sembrerebbe che a fare questa semplice operazione ci metta diverse ore...

Conoscete un modo per fare più velocemente questa operazione?
Grazie !

Risposte

lovanderia

4 gen 2014, 00:35

Scusami, non si tratta di due matrici ma di due dataframe. La colonna cluster ovviamente è un intero, mentre link.finale è una variabile di tipo carattere.
Cioè se eseguo str(dati) visualizzo

 
'data.frame':	6488 obs. of  2 variables:
$ link.finale           : chr  "http://a.com" "http://b.com" ecc...
$ cluster               : int  1 2 3 3 4 4 4 3 4 4 ...

Dunque i link della variabile link.finale (per entrambi i dataframe) sono elencati in ordine alfabetico

lovanderia

7 gen 2014, 22:52

Ci sono suggerimenti?

apatriarca

10 gen 2014, 10:32

Il confronto tra stringhe può essere una operazione abbastanza costosa computazionalmente, soprattutto se fatta in un ciclo interno dell'algoritmo e se le stringhe sono molto simili tra di loro come negli URL. Che cosa stai cercando di ottenere esattamente?

Rispondi

Per rispondere a questa discussione devi prima effettuare il login.

[R] lentezza del codice

Segnala Post di

Aggiungi immagine

Aggiungi allegato

Aggiungi Link

Aggiungi formula matematica