Weighted and unweighted transducers for tweet normalization

Mans Hulden ^[1] ; Jerid Francom ^[2]
1. [1] University of Helsinki
  
  University of Helsinki
  
  Helsinki, Finlandia
2. [2] Wake Forest University
  
  Wake Forest University
  
  Township of Winston, Estados Unidos
Localización: XXIX Congreso de la Sociedad Española de Procesamiento de Lenguaje Natural: SEPLN 2013 / coord. por Alberto Díaz Esteban, Iñaki Alegría Loinaz, Julio Villena Román, 2013, ISBN 978-84-695-8349-4, págs. 106-109
Idioma: inglés
Texto completo no disponible (Saber más ...)
Resumen
- español
  En este artículo se presentan dos estrategias basadas en transductores de estados finitos para la normalización de tweets. La primera de ellas se basa en reglas de corrección creadas manualmente y diseñadas para capturar las erratas y abreviaturas utilizadas más comúnmente, mientras que la segunda intenta construir automáticamente un modelo de errores a partir de un corpus etiquetado (gold standard) de tweets previamente normalizados.
- English
  We present two simple finite-state transducer based strategies for tweet normalization. One relies on hand-written correction rules designed to capture commonly occurring misspellings and abbreviations, while the other tries to automatically induce an error model from a gold standard corpus of normalized tweets.