Gys-Walt Van Egdom, Onno Kosters, Christophe Declercq
Este estudio pretende calibrar la fiabilidad y la validez de métricas y algoritmos para evaluar la calidad de la traducción automática en un contexto literario. Se comparan diez versiones traducidas automáticamente de una historia literaria, proporcionadas por cuatro motores de traducción automática diferentes a lo largo de un periodo de tres años, aplicando dos puntuaciones cuantitativas de estimación de la calidad (BLEU y un algoritmo de literariedad desarrollado recientemente). El análisis comparativo ofrece una visión no sólo de la calidad de los rasgos estilísticos y narratológicos de la traducción automática, sino también de criterios de calidad más tradicionales, como la precisión y la fluidez. Se constata que las evaluaciones no siempre coinciden y que carecen de matices. Se sugiere que las métricas y los algoritmos sólo cubren una parte de la noción de «calidad», y que es necesario un enfoque más detallado si se quiere captar la calidad literaria potencial de la traducción automática y, posiblemente, validarla mediante esos instrumentos.
This study aims to gauge the reliability and validity of metrics and algorithms in evaluating the quality of machine translation in a literary context. Ten machine translated versions of a literary story, provided by four different MT engines over a period of three years, are compared applying two quantitative quality estimation scores (BLEU and a recently developed literariness algorithm). The comparative analysis provides an insight not only into the quality of stylistic and narratological features of machine translation, but also into more traditional quality criteria, such as accuracy and fluency. It is found that evaluations are not always in agreement and that they lack nuance. It is suggested that metrics and algorithms cover only parts of the notion of “quality”, and that a more fine-grained approach is needed if potential literary quality of machine translation is to be captured and possibly validated using those instruments.
Aquest estudi pretén calibrar la fiabilitat i la validesa de mètriques i algoritmes per avaluar la qualitat de la traducció automàtica en un context literari. Es comparen deu versions traduïdes automàticament d’una història literària, proporcionades per quatre motors de traducció automàtica diferents al llarg d’un període de tres anys, aplicant dues puntuacions quantitatives d’estimació de la qualitat (BLEU i un algoritme de literarietat desenvolupat recentment). L’anàlisi comparativa ofereix una visió no només de la qualitat dels trets estilístics i narratològics de la traducció automàtica, sinó també de criteris de qualitat més tradicionals, com la precisió i la fluidesa. Es constata que les avaluacions no sempre coincideixen i que no posseixen matissos. Se suggereix que les mètriques i els algoritmes tan sols cubreixen una part de la noció de «qualitat», i que és necessari un enfocament més detallat si es pretén captar la qualitat literària potencial de la traducció automàtica i, possiblement, validar-la per mitjà d’aquests instruments.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados