Ayuda
Ir al contenido

Dialnet


Resumen de Elhuyar at TweetNorm 2013

Xavier Saralegi Urizar, Iñaki San Vicente Roncal

  • español

    Este artículo presenta el sistema desarrollado por Elhuyar para la campaña de evaluación Tweet-Norm, que consiste en normalizar tuits en español a lenguaje estándar. La normalización abarca únicamente una serie de palabras fuera de vocabulario (OOV), previamente identificadas por la organización del taller. El sistema desarrollado utiliza una estrategia compuesta por dos pasos. Primero, para cada palabra OOV se generan posibles candidatos de correción. Para ello se han implementado diversos métodos que tratan de corregir diferentes tipos de errores: extensión de abreviaciones comunes, detección de coloquialismos, corrección de carácteres repetidos, normalización de interjecciones, y corrección de errores ortográficos mediante medidas de distancia de edición. En el segundo paso el candidato correcto es seleccionado utilizando un modelo de lenguaje entrenado sobre un corpus de español correcto. El sistema obtuvo un 68,3% de precisión sobre el corpus de desarrollo, y un 63,6% sobre el corpus de test, siendo el 4º sistema de la campaña de evaluación.

  • English

    This paper presents the system developed by Elhuyar for the Tweet- Norm evaluation campaign which consists of normalizing Spanish tweets to standard language. The normalization covers only the correction of certain Out Of Vocabu- lary (OOV) words, previously identified by the organizers. The developed system follows a two step strategy. First, candidates for each OOV word are generated by means of various methods dealing with the different error-sources: extension of usual abbreviations, correction of colloquial forms, correction of replication of characters, normalization of interjections, and correction of spelling errors by means of edit- distance metrics. Next, the correct candidates are selected using a language model trained on correct Spanish text corpora. The system obtained a 68.3% accuracy on the development set, and 63.36% on the test set, being the 4th ranked system on the evaluation campaign.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus