Segmentación lingüística de tuplas para el modelado de la traducción estocástica mediante n-gramas

Gispert Ramis, Adrià de; Mariño Acebal, José Bernardo

Segmentación lingüística de tuplas para el modelado de la traducción estocástica mediante n-gramas

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3303

Información del item - Informació de l'item - Item information
Título:	Segmentación lingüística de tuplas para el modelado de la traducción estocástica mediante n-gramas
Autor/es:	Gispert Ramis, Adrià de \| Mariño Acebal, José Bernardo
Palabras clave:	Traducción estocástica mediante n-gramas \| Segmentación en tuplas \| Modelo de traducción \| Ngram-based statistical machine translation \| Tuple segmentation \| Translation model
Fecha de publicación:	sep-2006
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	GISPERT RAMIS, Adrià de; MARIÑO ACEBAL, José Bernardo. "Segmentación lingüística de tuplas para el modelado de la traducción estocástica mediante n-gramas". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 241-248
Resumen:	La traducción automática estocástica basada en n-gramas se fundamenta en un modelo de lenguaje de n-gramas estándar de unidades bilingües (tuplas) para modelar el proceso de la traducción, cuya estimación requiere de una segmentación para cada par de frases paralelas del corpus de entrenamiento. Esto implica la toma de ciertas decisiones firmes en cuanto a segmentación en unidades de traducción se refiere, especialmente cuando una palabra no es alineada a ninguna otra del otro idioma. En esta comunicación se presenta un estudio de esta situación, comparando técnicas de segmentación ya propuestas en dos tareas de traducción independientes: la tarea de gran vocabulario definida por el corpus de los debates de Parlamento Europeo entre inglés y español, y una tarea de tamaño mucho más reducido de expresiones turísticas entre el árabe y el inglés. Además, se propone una técnica de segmentación nueva que incorpora información lingüística, obteniendo mejores resultados en todas las tareas. \| Ngram-based Statistical Machine Translation relies on a standard Ngram language model of tuples to estimate the translation process. In training, this translation model requires a segmentation of each parallel sentence, which involves taking a hard decision on tuple segmentation when a word is not linked during word alignment. This is especially critical when this word appears in the target language, as this hard decision is compulsory. In this paper we present a thorough study of this situation, comparing for the first time each of the proposed techniques in two independent tasks, namely English–Spanish European Parliament Proceedings large-vocabulary task and Arabic–English Basic Travel Expressions small-data task. In the face of this comparison, we present a novel segmentation technique which incorporates linguistic information. Results obtained in both tasks outperform all previous techniques.
Patrocinador/es:	Este trabajo ha sido cofinanciado por el proyecto TC-STAR (Unión Europea, FP6-506738), la Generalitat de Catalunya y el Fondo Social Europeo.
URI:	http://hdl.handle.net/10045/3303
ISSN:	1135-5948
Idioma:	spa
Tipo:	info:eu-repo/semantics/article
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_37_30.pdf		156,34 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo