Ayuda
Ir al contenido

Dialnet


Método híbrido para categorización de texto basado en aprendizaje y reglas

  • Autores: Julio Villena Román, Sonia Collada Pérez, Sara Lana Serrano, José Carlos González Cristobal
  • Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 46, 2011, págs. 35-43
  • Idioma: español
  • Enlaces
  • Resumen
    • español

      En este artículo se presenta un nuevo método híbrido de categorización automática de texto, que combina un algoritmo de aprendizaje computacional, que permite construir un modelo base de clasificación sin mucho esfuerzo a partir de un corpus etiquetado, con un sistema basado en reglas en cascada que se emplea para filtrar y reordenar los resultados de dicho modelo base. El modelo puede afinarse añadiendo reglas específicas para aquellas categorías difíciles que no se han entrenado de forma satisfactoria. Se describe una implementación realizada mediante el algoritmo kNN y un lenguaje básico de reglas basado en listas de términos que aparecen en el texto a clasificar. El sistema se ha evaluado en diferentes escenarios incluyendo el corpus de noticias Reuters-21578 para comparación con otros enfoques, y los modelos IPTC y EUROVOC. Los resultados demuestran que el sistema obtiene una precisión y cobertura comparables con las de los mejores métodos del estado del arte.

    • English

      This paper discusses a novel method for text categorization that combines a machine learning algorithm able to build a base model with low effort by using a labeled available corpus, along with a rule-based expert system in cascade used to filter and rerank the output of the previous classifier. The model can be fine-tuned by adding specific rules for those difficult classes that have not been successfully trained. We describe an implementation based on kNN algorithm and a basic rule language that expresses lists of terms appearing in the text. The system is trained and evaluated in different scenarios, including the popular Reuters-21578 news corpus for comparison to other approaches, and the IPTC and EUROVOC models. Results show that this approach achieves a precision that is comparable to other top state-of-the-art methods.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno