Este artículo presenta una metodología para mejorar la ordenación de un listado de candidatos a término (el resultado típico de un extractor) utilizando un método basado en estadísticas de coocurrencia sobre un corpus de grandes dimensiones, como la Web o la Wikipedia. El método se basa en el supuesto de que las unidades léxicas que funcionan como términos en una disciplina muestran una tendencia a aparecer en las mismas oraciones con otros términos que están conceptualmente relacionados. El algoritmo descrito en este artículo se basa en la selección y reposicionamiento en los primeros lugares de todas aquellas unidades del listado de entrada en las que se detecta este comportamiento. El artículo presenta una evaluación del método con los resultados de extracción de términos en distintas revistas científicas en catalán.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados