Aprendizaje automático y la colección reuters-21578 en la clasificación de documentos

Juan José Paniagua Medina; Everardo Vargas Rodríguez; Rafael Guzman Cabrera

Ayuda

Aprendizaje automático y la colección reuters-21578 en la clasificación de documentos

Paniagua Medina, Juan José ^[1] ; Vargas Rodríguez, Everardo ^[1] ; Guzmán Cabrera , Rafael ^[1]
1. [1] Universidad de Guanajuato
Localización: Revista Colombiana de Tecnologías de Avanzada, ISSN-e 2500-8625, ISSN 1692-7257, Vol. 2, Nº. 40, 2022 (Ejemplar dedicado a: July - December), págs. 39-46
Idioma: español
Títulos paralelos:
- Machine learning and the reuters collection-21578 in document classification
Enlaces
- Texto completo
Resumen
- español
  En la actualidad existe una gran facilidad para producir documentos, esto conlleva que exista demasiada información, toda esta información producida es casi imposible de organizar si no se utilizan métodos automáticos. La clasificación automática de documentos puede definirse como una acción ejecutada por un sistema artificial sobre un conjunto de documentos tanto estructurados o no estructurados. Esta acción se realiza utilizando las palabras contenidas en los documentos para definir la clase a la que pertenece el documento de prueba. En este trabajo presenta diversos experimentos de clasificación utilizando la base de datos Reuters-21578 con el fin de observar el comportamiento de los clasificadores naive bayes, máquinas de vectores de soporte (SVM por sus siglas en inglés) y regresión logística. Los resultados obtenidos permiten conocer el desempeño de los clasificadores, su comportamiento al aplicar técnicas de limpieza para la disminución de la dimensión de los documentos y diferentes escenarios de clasificación.
- English
  Currently, it is very easy to produce documents, which means that there is too much information, and all this information produced is almost impossible to organize if automatic methods are not used. The automatic classification of documents can be defined as an action executed by an artificial system on a set of structured or unstructured documents. This action is performed by using the words contained in the documents to define the class to which the test document belongs. This paper presents several classification experiments using the Reuters-21578 database in order to observe the performance of naive Bayes classifiers, support vector machines (SVM) and logistic regression. The results obtained show the performance of the classifiers, their behavior when applying cleaning techniques to reduce the size of the documents and different classification scenarios.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: