Ayuda
Ir al contenido

Dialnet


Aprendizaje automático y la colección reuters-21578 en la clasificación de documentos

    1. [1] Universidad de Guanajuato
  • Localización: Revista Colombiana de Tecnologías de Avanzada, ISSN-e 2500-8625, ISSN 1692-7257, Vol. 2, Nº. 40, 2022 (Ejemplar dedicado a: July - December), págs. 39-46
  • Idioma: español
  • Títulos paralelos:
    • Machine learning and the reuters collection-21578 in document classification
  • Enlaces
  • Resumen
    • español

      En la actualidad existe una gran facilidad para producir documentos, esto conlleva que exista demasiada información, toda esta información producida es casi imposible de organizar si no se utilizan métodos automáticos. La clasificación automática de documentos puede definirse como una acción ejecutada por un sistema artificial sobre un conjunto de documentos tanto estructurados o no estructurados. Esta acción se realiza utilizando las palabras contenidas en los documentos para definir la clase a la que pertenece el documento de prueba. En este trabajo presenta diversos experimentos de clasificación utilizando la base de datos Reuters-21578 con el fin de observar el comportamiento de los clasificadores naive bayes, máquinas de vectores de soporte (SVM por sus siglas en inglés) y regresión logística. Los resultados obtenidos permiten conocer el desempeño de los clasificadores, su comportamiento al aplicar técnicas de limpieza para la disminución de la dimensión de los documentos y diferentes escenarios de clasificación.

    • English

      Currently, it is very easy to produce documents, which means that there is too much information, and all this information produced is almost impossible to organize if automatic methods are not used. The automatic classification of documents can be defined as an action executed by an artificial system on a set of structured or unstructured documents. This action is performed by using the words contained in the documents to define the class to which the test document belongs. This paper presents several classification experiments using the Reuters-21578 database in order to observe the performance of naive Bayes classifiers, support vector machines (SVM) and logistic regression. The results obtained show the performance of the classifiers, their behavior when applying cleaning techniques to reduce the size of the documents and different classification scenarios.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno