Ayuda
Ir al contenido

Dialnet


Resumen de Simple data-driven context-sensitive lemmatization

Grzegorz Chrupa³a

  • español

    Para los idiomas con una morfología flexiva rica, la lematizacíon es uno de los pasos básicos e indispensables para su tratamiento automático. En este artículo presentamos un método de lematización sencillo basado en el aprendizaje automático y que tiene en cuenta el contexto de las formas en el texto. Tratamos la lematización como una tarea de clasificación e inducimos las etiquetas de clases de forma automática. Para este fin calculamos el script de edición más corto (SES) entre las cadenas invertidas de entrada y de salida. Un SES describe las modificaciones que se deben aplicar a la cadena de entrada (la forma) para convertirla en la cadena de salida (el lema). Con nuestro método conseguimos unos resultados competitivos en una serie de lenguas tipologicamente diversas.

  • English

    Lemmatization for languages with rich inflectional morphology is one of the basic, indispensable steps in a language processing pipeline. In this paper we present a simple data-driven context-sensitive approach to lemmatizating word forms in running text. We treat lemmatization as a classification task for Machine Learning, and automatically induce class labels. We achieve this by computing a Shortest Edit Script (SES) between reversed input and output strings. A SES describes the transformations that have to be applied to the input string (word form) in order to convert it to the output string (lemma). Our approach shows competitive performance on a range of typologically different languages.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus