Ir al contenido


Resumen de Carvalho: English-Galician SMT system from EuroParl English-Portuguese parallel corpus

José Ramón Pichel Campos, Paulo Malvar Fernández, Oscar Senra Gómez, Pablo Gamallo Otero, Alberto García

  • español

    Para poder construir sistemas de traducción estadística es preciso contar con corpora paralelos suficientemente relevantes. No existe en estos momentos suficientes corpus paralelos entre el par de lenguas inglés-gallego. Siguiendo las teorías de importantes romanistas como Eugene Coseriu o Cunha & Cintra que gallego, portugués y brasileño son tres variedades del mismo sistema lingüístico y puesto que la variante portuguesa si que tiene estos corpus, en este proyecto investigamos si podemos usar el corpus EUROPARL inglés-portugués para conseguir un ingenio de traducción estadística entre el inglés-galego. Para conseguir esto, convertimos los corpus inglés-portugués a inglés-gallego usando un traductor RBMT Opentrad portugués- gallego. Las palabras no detectadas por el traductor son enviadas a un conversor ortográfico entre la grafía etimológica e histórica que usa el portugués y la grafía castellanizada del gallego. Posteriormente mediante Moses y Giza++ conseguimos modelos de lenguaje de nuestro prototipo. Los resultados obtenidos nos permiten pensar en la posibilidad de usar recursos lingüístico-computacionais del portugués para construír recursos, herramientasy aplicaciones para el gallego normativo ILG-RAG.

  • English

    In order to build reliable Statistical Machine Translation (SMT) engines between two languages it is essential to use a significantly big amount of parallel corpora. Since available English-Galician parallel corpora are not yet sufficient, it is obvious that other strategies must be followed. Important Romanicists, such as Coseriu (1987) or Cunha & Cintra (2002) have theorized that Galician and Portuguese are two varieties of European Portuguese. From a Computational Linguistics practical stand point, this assumption opens a new line of research that potentially supplies Galician with huge amount of computational resources from both European and Brazilian Portuguese. Thus, drawing from the English-Portuguese Europarl parallel corpus, imaxin|software has built a English-Galician Phrase-based Statistical Machine Translation prototype. To achieve that, the English-Portuguese parallel corpus was first converted into English-Galician using a Opentrad Portuguese Galician Rule-based Machine Translation (RBMT) engine and a spelling converter. Secondly, using Moses, Kohen et al. (2007), and GIZA++, Och & Ney (2003) we built the English-Galician translations and language models of our prototype. The results obtained allow us to conclude that SMT tools based on Galician can be drawn from Portuguese resources, which otherwise would have been an unthinkable task due to the lack of English-Galician parallel corpora. We can also conclude that this strategy can be implemented to develop a great variety of computational tools for Galician language.

Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus