La traducción automática estocástica basada en n-gramas se fundamenta en un modelo de lenguaje de n-gramas estándar de unidades bilingües (tuplas) para modelar el proceso de la traducción, cuya estimación requiere de una segmentación para cada par de frases paralelas del corpus de entrenamiento. Esto implica la toma de ciertas decisiones firmes en cuanto a segmentación en unidades de traducción se refiere, especialmente cuando una palabra no es alineada a ninguna otra del otro idioma. En esta comunicación se presenta un estudio de esta situación, comparando técnicas de segmentación ya propuestas en dos tareas de traducción independientes: la tarea de gran vocabulario definida por el corpus de los debates de Parlamento Europeo entre inglés y español, y una tarea de tamaño mucho más reducido de expresiones turísticas entre el árabe y el inglés. Además, se propone una técnica de segmentación nueva que incorpora información lingüística, obteniendo mejores resultados en todas las tareas.
Ngram-based Statistical Machine Translation relies on a standard Ngram language model of tuples to estimate the translation process. In training, this translation model requires a segmentation of each parallel sentence, which involves taking a hard decision on tuple segmentation when a word is not linked during word alignment. This is especially critical when this word appears in the target language, as this hard decision is compulsory. In this paper we present a thorough study of this situation, comparing for the first time each of the proposed techniques in two independent tasks, namely English-Spanish European Parliament Proceedings large-vocabulary task and Arabic-English Basic Travel Expressions small-data task. In the face of this comparison, we present a novel segmentation technique which incorporates linguistic information. Results obtained in both tasks outperform all previous techniques.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados