Resumen de Una metodología para depurar los resultados de los extractores de términos

Este artículo presenta una metodología para mejorar la ordenación de un listado de candidatos a término (el resultado típico de un extractor) utilizando un método basado en estadísticas de coocurrencia sobre un corpus de grandes dimensiones, como la Web o la Wikipedia. El método se basa en el supuesto de que las unidades léxicas que funcionan como términos en una disciplina muestran una tendencia a aparecer en las mismas oraciones con otros términos que están conceptualmente relacionados. El algoritmo descrito en este artículo se basa en la selección y reposicionamiento en los primeros lugares de todas aquellas unidades del listado de entrada en las que se detecta este comportamiento. El artículo presenta una evaluación del método con los resultados de extracción de términos en distintas revistas científicas en catalán.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: