Flexible statistical construction of bilingual dictionaries

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3019
Información del item - Informació de l'item - Item information
Título: Flexible statistical construction of bilingual dictionaries
Autor/es: Pascual Nieto, Ismael | O'Donnell, Michael
Palabras clave: Diccionarios bilingües | Modelos palabra-a-palabra | Traducción automática estadística | Bilingual dictionaries | Word-to-word models | Statistical machine translation
Fecha de publicación: sep-2007
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: PASCUAL NIETO, Ismael; O'DONNELL, Michael. "Flexible statistical construction of bilingual dictionaries". Procesamiento del lenguaje natural. N. 39 (sept. 2007). ISSN 1135-5948, pp. 249-255
Resumen: La mayoría de los sistemas previos para construir un diccionario bilingüe a partir de un corpus paralelo dependen de un algoritmo iterativo, usando probabilidades de traducción de palabras para alinear palabras en el corpus y sus alineamientos para estimar probabilidades de traducción, repitiendo hasta la convergencia. Si bien este enfoque produce resultados razonables, es computacionalmente lento, limitando el tamaño del corpus que se puede analizar y el del diccionario producido. Nosotros proponemos una aproximación no iterativa para producir un diccionario bilingüe unidireccional que, si bien menos precisa que las aproximaciones iterativas, es mucho más rápida, permitiendo procesar córpora mayores en un tiempo razonable. Asimismo, permite una estimación en tiempo real de la probabilidad de traducción de un par de términos, lo que significa que permite obtener un diccionario de traducción con los n términos más frecuentes, y calcular las probabilidades de traducción de términos infrecuentes cuando se encuentren en documentos reales. | Most previous systems for constructing a bilingual dictionary from a parallel corpus have depended on an iterative algorithm, using word translation probabilities to align words in the corpus, and using word alignments to estimate word translation probabilities, and repeating until convergence. While this approach produces reasonable results, it is computationally slow, limiting the size of the corpus that can be analysed and the size of the dictionary produced. We propose a non-iterative approach for producing a uni-directional bilingual dictionary which, while less accurate than iterative approaches, is far quicker, allowing larger corpora to be processed in reasonable time. The approach also allows on-the-fly estimation of translation likelihoods between a pair of terms, meaning that a translation dictionary can be generated with the n most frequent terms in an initial pass, and the translation likelihood of infrequent terms can be calculated as encountered in real documents.
URI: http://hdl.handle.net/10045/3019
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 39 (septiembre 2007)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_39_30.pdf118,3 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.