El artículo describe la metodología de la compilación y la anotación del Corpus Semánticamente Anotado Búlgaro - un corpus anotado de modo manual y consta de más de 100 mil palabras donde en cada unidad lingüística se le ha atribuido un significado conforme al Wordnet Búlgaro. El artículo presenta, asimismo, el programa de anotación Chooser. Han sido descritas las convenciones lingüísticas y las soluciones prácticas adoptadas en el proceso de la anotación. Al final, el artículo describe una de las aplicaciones esenciales de BulSemCor como un corpus de entrenamiento orientado a desarrollar el sistema de desambiguación de la lengua búlgara.
This paper describes the methodology of compilation and annotation of the Bulgarian Sense-Annotated Corpus - a manually annotated corpus of over 100,000 words in which each lexical unit (LU) is assigned a sense according to the Bulgarian wordnet. The paper gives a brief outline of the corpus representation, the functionalities of the annotation tool Chooser, and sketches the linguistic conventions and practical considerations adopted in the process of corpus annotation. Finally, the paper describes one of the major applications of the Bulgarian Sense-Annotated Corpus as a training corpus for a word-sense disambiguation system for Bulgarian.
© 2001-2025 Fundación Dialnet · Todos los derechos reservados