Design and development of the Bulgarian sense-annotated corpus

Svetla Koeva; Svetlozara Leseva; Borislav Rizov; Ekaterina Tarpomanova; Tsvetana Dimitrova; Hristina Kukova; Marija Todorova

Ayuda

Design and development of the Bulgarian sense-annotated corpus

Koeva, Svetla ^[1] ; Leseva, Svetlozara ^[1] ; Rizov, Borislav ^[1] ; Tarpomanova, Ekaterina ^[1] ; Dimitrova, Tsvetana ^[1] ; Kukova, Hristina ^[1] ; Todorova, Maria ^[1]
1. [1] Institute for Bulgarian Language – Bulgarian Academy of Sciences
Localización: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus: Actas del III Congreso Internacional de Lingüistica de Corpus / María Luisa Carrió Pastor (ed. lit.), Miguel Ángel Candel Mora (ed. lit.), 2011, ISBN 978-84-694-6225-6, págs. 143-150
Idioma: inglés
Enlaces
- Texto Completo Libro
Resumen
- español
  El artículo describe la metodología de la compilación y la anotación del Corpus Semánticamente Anotado Búlgaro - un corpus anotado de modo manual y consta de más de 100 mil palabras donde en cada unidad lingüística se le ha atribuido un significado conforme al Wordnet Búlgaro. El artículo presenta, asimismo, el programa de anotación Chooser. Han sido descritas las convenciones lingüísticas y las soluciones prácticas adoptadas en el proceso de la anotación. Al final, el artículo describe una de las aplicaciones esenciales de BulSemCor como un corpus de entrenamiento orientado a desarrollar el sistema de desambiguación de la lengua búlgara.
- English
  This paper describes the methodology of compilation and annotation of the Bulgarian Sense-Annotated Corpus - a manually annotated corpus of over 100,000 words in which each lexical unit (LU) is assigned a sense according to the Bulgarian wordnet. The paper gives a brief outline of the corpus representation, the functionalities of the annotation tool Chooser, and sketches the linguistic conventions and practical considerations adopted in the process of corpus annotation. Finally, the paper describes one of the major applications of the Bulgarian Sense-Annotated Corpus as a training corpus for a word-sense disambiguation system for Bulgarian.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: