Pablo Gamallo Otero, Marcos García González, José Ramón Pichel Campos
Este artículo describe una estrategia de normalización léxica de palabras “out-of-vocabulary” (OOV) en tweets escritos en español. Para corregir OOV incorrectos, el sistema de normalización genera candidatos “in-vocabulary” (IV) que aparecen en diferentes recursos léxicos y selecciona el más adecuado. Nuestro método genera dos tipos de candidatos, primarios y secundarios, que serán ordenados de diferentes maneras en el proceso de selección del mejor candidato.
This paper describes a strategy to perform lexical normalisation of out- of-vocabulary (OOV) words in Spanish tweets. To correct any ill-formed OOV, the normalisation system generates in-vocabulary (IV) candidates found in several lexical resources, and selects the best one. Our method generates two types of candidates, primary and secondary IV candidates, which will be ranked in different ways to select the best candidate.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados