Clasificación automática de textos usando redes de palabras

Juan Pablo Cárdenas Villalobos; Gastón Olivares; Rodrigo Alfaro

Ayuda

Clasificación automática de textos usando redes de palabras

Juan Pablo Cárdenas ^[1] ; Gastón Olivares ^[1] ; Rodrigo Alfaro ^[1]
1. [1] Pontificia Universidad Católica de Valparaíso
  
  Pontificia Universidad Católica de Valparaíso
  
  Valparaíso, Chile
Localización: Revista signos: estudios de lingüística, ISSN-e 0718-0934, ISSN 0035-0451, Nº. 86, 2014, págs. 346-364
Idioma: español
Títulos paralelos:
- Automatic text classification using words networks
Enlaces
- Texto completo (pdf)
Resumen
- español
  El objetivo de este trabajo es proponer un algoritmo para la clasificación automática de textos, como una alternativa a los tradicionalmente utilizados en esta tarea. El clasificador propuesto considera la dependencia entre las variables predictoras (palabras o términos), algo que los clasificadores de texto comúnmente utilizados no hacen.
  
  La dependencia entre estas variables queda plasmada en forma de enlaces en grafos de palabras co-ocurrentes, objetos utilizados para entrenar el clasificador y además estimar la categoría de un texto desconocido. Los resultados obtenidos al clasificar automáticamente el sentido positivo, negativo o neutral de más de 1.000 mensajes de Twitter escritos en español, en distintos contextos (temas), muestran que el algoritmo, además de ser una propuesta novedosa para la clasificación automática de textos, tiene un desempeño, al menos, similar al de otros tradicionalmente utilizados en este tipo de problemas, como las Máquinas de Soporte Vectorial o algoritmos de estadística Bayesiana
- English
  The purpose of this paper is to propose an algorithm for automatic text classification, as an alternative for those traditionally used for this task. The proposed classifier considers dependence between predictor variables (words or terms), an approach ignored by traditional classifiers. The dependence between predictor variables is captured as links of co-ocurrent words networks, objects that are used for training the classifier and also estimate the category of an unknown text. The results obtained from the automatic sentiment classification of more than 1,000 Twitter messages in positive, negative or neutral categories, and considering different context (topics), show that the proposed classifier, besides being a novel proposal, performs well compared to other algorithms traditionally used in automatic text classification such as Support Vector Machines or algorithms based in Bayesian statistic