Resumen de Simple data-driven context-sensitive lemmatization

Ayuda

Resumen de Simple data-driven context-sensitive lemmatization

Grzegorz Chrupa³a

español
Para los idiomas con una morfología flexiva rica, la lematizacíon es uno de los pasos básicos e indispensables para su tratamiento automático. En este artículo presentamos un método de lematización sencillo basado en el aprendizaje automático y que tiene en cuenta el contexto de las formas en el texto. Tratamos la lematización como una tarea de clasificación e inducimos las etiquetas de clases de forma automática. Para este fin calculamos el script de edición más corto (SES) entre las cadenas invertidas de entrada y de salida. Un SES describe las modificaciones que se deben aplicar a la cadena de entrada (la forma) para convertirla en la cadena de salida (el lema). Con nuestro método conseguimos unos resultados competitivos en una serie de lenguas tipologicamente diversas.
English
Lemmatization for languages with rich inflectional morphology is one of the basic, indispensable steps in a language processing pipeline. In this paper we present a simple data-driven context-sensitive approach to lemmatizating word forms in running text. We treat lemmatization as a classification task for Machine Learning, and automatically induce class labels. We achieve this by computing a Shortest Edit Script (SES) between reversed input and output strings. A SES describes the transformations that have to be applied to the input string (word form) in order to convert it to the output string (lemma). Our approach shows competitive performance on a range of typologically different languages.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: