R e data mining
Ciao ragazzi,
ho difficoltà con r, codici e in generale con il corso di data mining.
vorrei fare questo progetto da presentare all'esame ma mi sembra un po' banale e comunque ci sono alcune parti che non saprei svolgere.
1) prendere 20 campioni di acqua da 20 comuni diversi con 8 parametri di qualità.
2) calcolare la media nel campione e la varianza per ogni parametro
3)generare delle variabili casuali con media e varianza specificate( che funzioni mi permettono di fare questo con r?,)
4) fare analisi cluster( su questo non dovrei avere problemi).
Sono bloccata perchè mi è stato detto di usare il metodo di montecarlo, ma non capisco in che senso e cosa intendesse il prof.Per ricavarmi dei dati potrei fare bootstrap?
ho un po' di confusione e non vorrei presentare un progetto superficiale.
ho difficoltà con r, codici e in generale con il corso di data mining.
vorrei fare questo progetto da presentare all'esame ma mi sembra un po' banale e comunque ci sono alcune parti che non saprei svolgere.
1) prendere 20 campioni di acqua da 20 comuni diversi con 8 parametri di qualità.
2) calcolare la media nel campione e la varianza per ogni parametro
3)generare delle variabili casuali con media e varianza specificate( che funzioni mi permettono di fare questo con r?,)
4) fare analisi cluster( su questo non dovrei avere problemi).
Sono bloccata perchè mi è stato detto di usare il metodo di montecarlo, ma non capisco in che senso e cosa intendesse il prof.Per ricavarmi dei dati potrei fare bootstrap?
ho un po' di confusione e non vorrei presentare un progetto superficiale.
Risposte
Ciao, grazie mille delle risposte.
non so cosa intenesse con metodo montecarlo, ma dato che si sta rivelando tutto piu difficile del previsto,faccio una domanda un po' più banale.
Sono interessata a 4 parametri(durezza, residuo, ph, cloro). Se genero 4 rnorm con media e sd che calcolo da un campione di partenza( 20 acquedottti), ha senso fare una cluster analys?Cosa posso aspettarmi che venga fuori dalla mia analisi?
tieni conto che il mio progetto non è una tesi di laurea ma dovrebbe essere fatto su un argomento ( nel mio caso cluster analysis) a scelta, anche con dati simulati allo scopo di spiegare il metodo.
grazie mille ancora !
non so cosa intenesse con metodo montecarlo, ma dato che si sta rivelando tutto piu difficile del previsto,faccio una domanda un po' più banale.
Sono interessata a 4 parametri(durezza, residuo, ph, cloro). Se genero 4 rnorm con media e sd che calcolo da un campione di partenza( 20 acquedottti), ha senso fare una cluster analys?Cosa posso aspettarmi che venga fuori dalla mia analisi?
tieni conto che il mio progetto non è una tesi di laurea ma dovrebbe essere fatto su un argomento ( nel mio caso cluster analysis) a scelta, anche con dati simulati allo scopo di spiegare il metodo.
grazie mille ancora !
Rimango perplesso sul generare numeri psedo-casuali su un'analisi di questo tipo, se non per mero esercizio: sarebbe un'analisi in cui sono più interessanti i valori anomali che i valori normali ed inoltre una procedura di questo tipo che vantaggi avrebbe? Solo di aumentare numericamente il campione con pseudo-rilevazioni che gli assomigliano in media rischiando di arrivare a conclusioni sbagliate circa la normalità di certi valori, i quali sono riprodotti sulla base di un campione estremamente ristretto.
Comunque io farei la solita analisi esplorativa ed in seguito cluster facendo vari tentativi con metodi diversi a seconda dei risultati che si vogliono ottenere. Rimarrei col campione originale.
Le tecniche di clustering sono parecchie, quali vi sono state suggerite?
Comunque io farei la solita analisi esplorativa ed in seguito cluster facendo vari tentativi con metodi diversi a seconda dei risultati che si vogliono ottenere. Rimarrei col campione originale.
Le tecniche di clustering sono parecchie, quali vi sono state suggerite?