Ayuda
Ir al contenido

Dialnet


Design and development of the Bulgarian sense-annotated corpus

    1. [1] Institute for Bulgarian Language – Bulgarian Academy of Sciences
  • Localización: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus: Actas del III Congreso Internacional de Lingüistica de Corpus / María Luisa Carrió Pastor (ed. lit.), Miguel Ángel Candel Mora (ed. lit.), 2011, ISBN 978-84-694-6225-6, págs. 143-150
  • Idioma: inglés
  • Enlaces
  • Resumen
    • español

      El artículo describe la metodología de la compilación y la anotación del Corpus Semánticamente Anotado Búlgaro - un corpus anotado de modo manual y consta de más de 100 mil palabras donde en cada unidad lingüística se le ha atribuido un significado conforme al Wordnet Búlgaro. El artículo presenta, asimismo, el programa de anotación Chooser. Han sido descritas las convenciones lingüísticas y las soluciones prácticas adoptadas en el proceso de la anotación. Al final, el artículo describe una de las aplicaciones esenciales de BulSemCor como un corpus de entrenamiento orientado a desarrollar el sistema de desambiguación de la lengua búlgara.

    • English

      This paper describes the methodology of compilation and annotation of the Bulgarian Sense-Annotated Corpus - a manually annotated corpus of over 100,000 words in which each lexical unit (LU) is assigned a sense according to the Bulgarian wordnet. The paper gives a brief outline of the corpus representation, the functionalities of the annotation tool Chooser, and sketches the linguistic conventions and practical considerations adopted in the process of corpus annotation. Finally, the paper describes one of the major applications of the Bulgarian Sense-Annotated Corpus as a training corpus for a word-sense disambiguation system for Bulgarian.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno