Improving the performance of anti-spam filters using out-of-vocabulary statistics

Autores: Pablo Daniel Agüero, Jorge Castiñeira Moreira, Monica Liberatori, Juan Carlos Bonadero, Juan Carlos Tulli
Localización: Ingeniare: Revista Chilena de Ingeniería, ISSN-e 0718-3305, ISSN 0718-3291, Vol. 17, Nº. 3, 2009, págs. 386-392
Idioma: inglés
Títulos paralelos:
- Mejora del desempeño de filtros anti-spam usando estadísticas de palabras fuera de vocabulario
Enlaces
- Texto completo (pdf)
Resumen
- español
  Este artículo presenta una característica basada en estadísticas de palabras desconocidas (fuera del vocabulario) que complementa las fuentes de información usadas en la decisión por parte de los filtros anti-spam actuales. Los experimentos incluyeron filtros anti-spam disponibles libremente como referencia: SpamAssassin, Bogofilter, SpamBayes y SpamProbe, así como también un clasificador puramente bayesiano. Los resultados muestran que la decisión basada en la característica propuesta mejora el rendimiento de todos los filtros anti-spam sujetos a estudio.
- English
  This paper presents a feature based on out-of-vocabulary word statistics that complements the information sources used in the decision by state-of-the-art spam filters. The experiments included freely available spam filters as reference, SpamAssassin, Bogofilter, SpamBayes and SpamProbe, as well as a Naive Bayes classifier. The results show that the decision based on the proposed feature improves the performance of all spam filters under study.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: