Antispam Bayesiano - Modello multinomiale, multivariate, etc
Buongiorno a tutti!
Vi scrivo per chiedere qualche chiarimento su un argomento che per me è abbastanza complesso. Devo preparare un esame orale e mi è stato assegnato come argomento il FILTRO ANTISPAM BAYESIANO. Girando e rigirando sul web ho trovato moltissimi documenti ed esempi utili, che mi hanno permesso di capire il suo funzionamento puramente pratico:
Si calcola la probabilità che una parola sia contenuta in messaggi di spam, la probabilità che non sia contenuta in messaggi di spam, e poi si calcola la SPAMICITY della singola parola. Infine si mette questo risultato in relazione delle spamacity della altre parole chiavi del messaggio per calcolare che probabilità che un messaggio sia spam contenendo le parole chiavi appena analizzate(classificatore bayesiano giusto? correggetemi se sbaglio):
(spamicity parola 1)*(spamicity parola 2)*.............*(spamicity parola N) il tutto diviso per
(spamicity parola 1)*(spamicity parola 2)*.............*(spamicity parola N) +((1-(spamicity parola 1))*.....*(1-(spamicity parola 1))
Se esce un numero superiore ad una soglia...diciamo 0,80(80%) allora l'email viene messa nella posta spam.
Esempio preso da questo sito: http://www.process.com/precisemail/bayesian_example.htm
Ma ora veniamo al mio problema: leggendo gli approfondimenti che mi ha dato il prof e cercando materiale sul web è uscito il discorso di MODELLO MULTINOMIALE e MODELLO MULTI-VARIATE BAYESIANO, che servono a capire se l'email ricevuta è spam o meno...ma la formula usata sopra non rappresenta un modello multinomiale?
In teoria i modelli non calcolano la probabilità di un documento di appartenere ad una determinata classe(in questo caso SPAM e NON SPAM) e da li prendere la probabilità maggiore?
Che relazione c'è tra la formula che ho trovato io sul sito inglese e i MODELLI MULTINOMIALI e MULTIVARIATE dei pdf del prof?
Vi allego il pdf in questione, sperando mi possiate aiutare!
http://dl.acm.org/citation.cfm?id=1067848
Qui invece la relazione di uno studente italiano circa l'argomento http://homes.di.unimi.it/~borghese/Teac ... anetti.pdf
Nonostante tutto questo materiale o dei dubbi sul reale funzionamento dei modelli! Grazie mille!
Vi scrivo per chiedere qualche chiarimento su un argomento che per me è abbastanza complesso. Devo preparare un esame orale e mi è stato assegnato come argomento il FILTRO ANTISPAM BAYESIANO. Girando e rigirando sul web ho trovato moltissimi documenti ed esempi utili, che mi hanno permesso di capire il suo funzionamento puramente pratico:
Si calcola la probabilità che una parola sia contenuta in messaggi di spam, la probabilità che non sia contenuta in messaggi di spam, e poi si calcola la SPAMICITY della singola parola. Infine si mette questo risultato in relazione delle spamacity della altre parole chiavi del messaggio per calcolare che probabilità che un messaggio sia spam contenendo le parole chiavi appena analizzate(classificatore bayesiano giusto? correggetemi se sbaglio):
(spamicity parola 1)*(spamicity parola 2)*.............*(spamicity parola N) il tutto diviso per
(spamicity parola 1)*(spamicity parola 2)*.............*(spamicity parola N) +((1-(spamicity parola 1))*.....*(1-(spamicity parola 1))
Se esce un numero superiore ad una soglia...diciamo 0,80(80%) allora l'email viene messa nella posta spam.
Esempio preso da questo sito: http://www.process.com/precisemail/bayesian_example.htm
Ma ora veniamo al mio problema: leggendo gli approfondimenti che mi ha dato il prof e cercando materiale sul web è uscito il discorso di MODELLO MULTINOMIALE e MODELLO MULTI-VARIATE BAYESIANO, che servono a capire se l'email ricevuta è spam o meno...ma la formula usata sopra non rappresenta un modello multinomiale?
In teoria i modelli non calcolano la probabilità di un documento di appartenere ad una determinata classe(in questo caso SPAM e NON SPAM) e da li prendere la probabilità maggiore?
Che relazione c'è tra la formula che ho trovato io sul sito inglese e i MODELLI MULTINOMIALI e MULTIVARIATE dei pdf del prof?
Vi allego il pdf in questione, sperando mi possiate aiutare!
http://dl.acm.org/citation.cfm?id=1067848
Qui invece la relazione di uno studente italiano circa l'argomento http://homes.di.unimi.it/~borghese/Teac ... anetti.pdf
Nonostante tutto questo materiale o dei dubbi sul reale funzionamento dei modelli! Grazie mille!