Ayuda
Ir al contenido

Dialnet


Resumen de Integración de reordenamientos en el algoritmo de decodificación en traducción automática estocástica

Josep Maria Crego, José B. Mariño

  • español

    En esta comunicación se presenta un marco de trabajo para introducir la capacidad de reordenamiento de palabras en traducción automática (TA). Los reordenamientos producidos en la oración fuente se integran en el algoritmo de decodificación, lo que permite construir un grafo de búsqueda de dimensiones reducidas. A partir de un grafo de búsqueda monótono (sin reordenamientos), se utilizan patrones de reordenamiento (patrones de reescritura motivados lingüísticamente) para añadir arcos que introducen permutaciones de las palabras fuente. Los patrones se aprenden de manera automática a partir del conjunto de entrenamiento, utilizando los alineamientos de palabras (entre las oraciones fuente y destino) y las etiquetas morfo-sintácticas (POS) de las oraciones fuente. Una vez completado el grafo de búsqueda, el algoritmo de decodificación lo atraviesa asignando una probabilidad (coste) a cada hipótesis, ayudándose por un modelo de lenguaje N-grama aprendido de las etiquetas POS del idioma origen después de ser reordenadas (además de por un conjunto de modelos típico en traducción automática). El método propuesto se evalúa en una tarea de traducción del español al inglés y viceversa, utilizando el corpus del Parlamento Europeo, donde pueden observarse mejoras tanto en calidad de la traducción (con medidas subjetivas y automáticas) como en eficiencia computacional.

  • English

    This paper presents a reordering framework for statistical machine translation (SMT) where source-side reorderings are integrated into SMT decoding, allowing for a highly constrained reordered search graph. The monotone search is extended by means of a set of reordering patterns (linguistically motivated rewrite patterns). Patterns are automatically learnt in training from word-to-word alignments and source-side Part-Of-Speech (POS) tags. Traversing the extended search graph, the decoder evaluates every hypothesis making use of a group of widely used SMT models and helped by an additional Ngram language model of source-side POS tags. Experiments are reported on the Euparl task (Spanish-to-English and English-to-Spanish). Results are presented regarding translation accuracy (using human and automatic evaluations) and computational efficiency, showing significant improvements in translation quality for both translation directions at a very low computational cost.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus