En este artículo se presentan dos estrategias basadas en transductores de estados finitos para la normalización de tweets. La primera de ellas se basa en reglas de corrección creadas manualmente y diseñadas para capturar las erratas y abreviaturas utilizadas más comúnmente, mientras que la segunda intenta construir automáticamente un modelo de errores a partir de un corpus etiquetado (gold standard) de tweets previamente normalizados.
We present two simple finite-state transducer based strategies for tweet normalization. One relies on hand-written correction rules designed to capture commonly occurring misspellings and abbreviations, while the other tries to automatically induce an error model from a gold standard corpus of normalized tweets.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados