Simple data-driven context-sensitive lemmatization

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3270
Información del item - Informació de l'item - Item information
Título: Simple data-driven context-sensitive lemmatization
Autor/es: Chrupała, Grzegorz
Palabras clave: Lematización | Aprendizaje automático | Lemmatization | Machine learning
Fecha de publicación: sep-2006
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: CHRUPALA, Grzegorz. "Simple data-driven context-sensitive lemmatization". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 121-127
Resumen: Para los idiomas con una morfología flexiva rica, la lematizacíon es uno de los pasos básicos e indispensables para su tratamiento automático. En este artículo presentamos un método de lematización sencillo basado en el aprendizaje automático y que tiene en cuenta el contexto de las formas en el texto. Tratamos la lematización como una tarea de clasificación e inducimos las etiquetas de clases de forma automática. Para este fin calculamos el script de edición más corto (SES) entre las cadenas invertidas de entrada y de salida. Un SES describe las modificaciones que se deben aplicar a la cadena de entrada (la forma) para convertirla en la cadena de salida (el lema). Con nuestro método conseguimos unos resultados competitivos en una serie de lenguas tipologicamente diversas. | Lemmatization for languages with rich inflectional morphology is one of the basic, indispensable steps in a language processing pipeline. In this paper we present a simple data-driven context-sensitive approach to lemmatizating word forms in running text. We treat lemmatization as a classification task for Machine Learning, and automatically induce class labels. We achieve this by computing a Shortest Edit Script (SES) between reversed input and output strings. A SES describes the transformations that have to be applied to the input string (word form) in order to convert it to the output string (lemma). Our approach shows competitive performance on a range of typologically different languages.
Patrocinador/es: We gratefully acknowledge support from Science Foundation Ireland grant 04/IN/I527 for the research reported in this paper.
URI: http://hdl.handle.net/10045/3270
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_37_16.pdf91,81 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.