Lemmatising Treebanks. Corpus Annotation with Knowledge Bases

Autores: Carmen Novo Urraca, Ana Elvira Ojanguren López
Localización: RAEL: revista electrónica de lingüística aplicada, ISSN 1885-9089, Vol. 17, Nº. 1, 2018, págs. 99-120
Idioma: inglés
Enlaces
- Texto completo (pdf)

Resumen
- español
  Este artículo se centra en la lexicografía del inglés antiguo y el análisis de corpus. El objetivo es definir un procedimiento de lematización para un tipo de corpus del inglés antiguo anotado y parseado conocido como treebank. Este estudio se centra en dos cuestiones, concretamente en indicar dónde se encuentran los datos con los que se puede lematizar el treebank del inglés antiguo; y qué procedimiento debe adoptarse para enlazar la lematización disponible en las fuentes con el treebank. A partir de las bases de conocimiento del Proyecto Nerthus, se diseña, pone en práctica y evalúa un procedimiento semiautomático para dotar The York-Toronto-Helsinki Parsed Corpus of Old English Prose de etiquetas de lemas.
- English
  This article deals with Old English lexicography and corpus analysis. It aims at devising a lemmatisation procedure for a type of annotated and parsed corpus of Old English known as treebank. This study addresses two questions, namely where to find the data with which an Old English treebank can be lemmatised; and what procedure should be adopted to link the lemmatisation available from the sources to the treebank. On the grounds of the set of knowledge bases compiled by the Nerthus Project, a semi-automatic procedure for annotating The York-Toronto-Helsinki Parsed Corpus of Old English Prose with lemma tags is devised, illustrated and assessed.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: