[TESI] Analisi Numerica e Big Data

DevilSeven
Salve a tutti ragazzi/e, sono uno studente della triennale di informatica, come da titolo avevo intezione di fare una tesi sui big data ma dal punto di vista del calcolo numerico. Il corso che ho frequentato mi é piaciuto moltissimo e il tema dei Big Data e tra i più hot del momento, purtroppo nel web non sono riuscito a trovare molte correlazione tra questi due argomenti quindi mi rivolgo a voi in cerca di spunti e chiarimenti. In particolare volevo chiedervi se qualcuno di voi ha mai trattato i Big Data dal punto di vista dell'Analisi Numerica, se si in che modo?
Grazie.

Risposte
vict85
Direi che i collegamenti tra machine learning e analisi numerica sono nel fatto che il primo usa alle volte il secondo per alcuni tipo di calcolo. Per esempio nel caso in cui la risoluzione di un problema di machine learning coinvolga il calcolo di un sistema lineare o una ottimizzazione di funzione. La radice teorica del machine learning è però statistico-probabilistico (l'analisi numerica è invece basata generalmente sull'analisi funzionale).

Quello che intendo dire è che le domande che ti poni sui big data sono di tipo probabilistico/classificatorio mentre l'analisi numeri tratta di problematica analitiche/funzionali.

Nota che alcuni concetti come la regressione lineare possano essere dimostrate sia passando per l'analisi funzionale che usando il calcolo delle probabilità.

DevilSeven
Prima di tutto ci tengo a ringraziarti per la tempestività della risposta, a questo punto mi stai dicendo che non ci sono collegamenti tali da tiraci su una tesi ?

vict85
Dovresti chiedere ad un tuo professore. In ogni caso non sarebbe una tesi solo in analisi numerica.

Per esempio potresti considerare un qualche algoritmo di machine learning che richieda l'uso di qualche problema numerico e analizzare le varie alternative.

Raptorista1
Off the top of my head: il PageRank di Google, che è quello che crea i risultati delle ricerche, è un algoritmo basato su un problema agli autovalori, che è una cosa di analisi numerica.

Non so che tiro debba avere una tesi triennale in informatica, se mi dici di più posso pensare a qualcosa...

DevilSeven
Grazie Raptorista e vict85 e scusate la mia assenza in questi giorni. Il problema del pagerank di google é stato già apliamente discusso e analizzato in classe quindi non posso portarlo come tesi. Oggi con il professore siamo arrivati alla conclusione che possiamo rimanere nel campo dei big data e focalizzarci sull'analisi di questi. Ovviamente l'analisi deve comprendere l'utilizzo di metodo numerici. Avete per caso dei suggerimenti riguardo dei problemi di analisi nei quali si utilizzano dei metodi numerici?

Raptorista1
Così al volo: la regressione lineare è un problema ai minimi quadrati.
In statistica se non sbaglio c'è una cosa che si chiama principal component analysis che è sostanzialmente un problema di autovalori.
Forse si può pensare a qualcosa di meglio con un po' di sforzo :S

DevilSeven
Il problema é che non so dove applicare questi metodi a problemi reali :/

Raptorista1
Secondo me dovresti prima decidere che taglio dare alla tesi: se vuoi farla più di metodi, allora avrai un nucleo centrale di teoria ed eventualmente l'applicazione ad un caso test abbastanza semplice per far vedere che la teoria funziona; se vuoi il caso reale allora verosimilmente applicherai tecniche e strumenti già disponibili ad un grosso dataset. Per una tesi triennale non so se hai possibilità di fare entrambe le cose, ma questo spetta al relatore deciderlo.

Intermat
Di dataset di regressione se ne trovano online quanti ne vuoi. In ogni caso, come giustamente ti diceva Raptorista, dovrebbe essere il relatore ad indicarti una strada. Tra l'altro ti vorrei far notare, dato che sui Big Data sto per iniziare la mia tesi di laurea magistrale, che lavorare con dataset grandi sia proibitivo per vari motivi. Uno fondamentale è che il pc non basta, servono macchine molto più potenti che non credo (almeno di casi particolari) tu abbia a disposizione. Un'altro, esattamente come ti diceva Raptorista, è che potresti perdere di vista il problema "teorico" in quanto se affronti un problema grande utilizzi dei package di R o Python (o del linguaggio che scegli di usare per programmare) che già contengono una funzione che calcola la regressione. Dato il tuo interesse più teorico mi sembra il caso di rimanere su un piccolo dataset (comunque penso potrebbero essere qualche migliaio di features con qualche decina di attributi) piuttosto che avventurarsi in problemi troppo grandi. In ogni caso parla per bene col relatore spiegandogli questi tuoi dubbi, sicuramente ti saprà dare una risposta più precisa. Se proprio non riuscisse a chiariti i dubbi allora fuggi da quel relatore finché sei in tempo... :-D

Se vuoi dare una occhiata a dei dataset abbordabili guarda su questo sito: UCI Machine Learning Repository. Troverai sicuramente dei dataset che possono essere analizzati con un normale pc e con un semplice programma in Python o R.

Rispondi
Per rispondere a questa discussione devi prima effettuare il login.