Is automatic production of dictionary entries in the first Slovene online dictionary of abbreviations Slovarček krajšav possible?

Mojca Kompara

Ayuda

Is automatic production of dictionary entries in the first Slovene online dictionary of abbreviations Slovarček krajšav possible?

Mojca Kompara ^[1]
1. [1] University of Ljubljana
  
  University of Ljubljana
  
  Eslovenia
Localización: Las tecnologías de la información y las comunicaciones: presente y futuro en el análisis de corpus: Actas del III Congreso Internacional de Lingüistica de Corpus / María Luisa Carrió Pastor (ed. lit.), Miguel Ángel Candel Mora (ed. lit.), 2011, ISBN 978-84-694-6225-6, págs. 273-281
Idioma: inglés
Enlaces
- Texto Completo Libro
Resumen
- español
  En este articulo se trata de la posibilidad de producción automática de las entradas del diccionario en el primer diccionario esloveno de abreviaturas Slovarček krajšav utilizando software Termania. En primer paso, un algoritmo de demostración se ha utilizado que se centra en el reconocimiento automático de abreviaturas y de las expansiones. El algoritmo actualizado se utiliza para analizar un corpus esloveno de más de 60 millones de palabras. Los datos obtenidos se limpian manualmente; pares buenos son verificados y utilizados para la producción del primer diccionario esloveno de abreviaturas. Entradas simples son producidas enteramente automáticamente, complejas, en forma “semi” automática. En las entradas simples y complejas nos centramos en la producción automática de estructuras nominativas eslovenas de expansiones con estructuras no nominativas. El problema principal en las entradas complejas son datos enciclopédicos y traducciones que por ahora tienen que ser incluidos de forma manual. El algoritmo de reconocimiento automático forma el vínculo entre el texto electrónico y la producción “semi” automática del diccionario de abreviaturas (Kompara, 2009).
- English
  The possibility of automatic production of dictionary entries in the first Slovene online dictionary of abbreviations Slovarček krajšav in Termania software is discussed in this paper. In the first step, a demonstration algorithm has been used which focuses on the automatic recognition of abbreviations and abbreviation’s expansions. The upgraded algorithm is used on a Slovene corpus of over 60 million words. The acquired data is manually cleaned; good pairs are verified and used for production of the first Slovene abbreviations’ dictionary. Simple entries are produced entirely automatically, complex, “semi” automatically. In simple and complex entries we are focusing on the automatic production of nominative Slovene structures of abbreviation’s expansions out of non nominative. The main problem in complex entries are encyclopaedic data and translations for now included manually. The algorithm for automatic recognition is the link between the electronic text and the “semi” automatically produced dictionary of abbreviations (Kompara, 2009).