Evaluación comparativa de la calidad de traducciones académicas y científicas producidas por Inteligencia Artificial

Ángel González Escalante

Ayuda

Evaluación comparativa de la calidad de traducciones académicas y científicas producidas por Inteligencia Artificial

González Escalante, Ángel ^[1]
1. [1] Universidad Autónoma de Sinaloa
  
  Universidad Autónoma de Sinaloa
  
  México
Localización: Revista Electrónica Tecnologías Emergentes en la Educación (RETEE), ISSN-e 2992-8230, Vol. 2, Nº. 2, 2025, págs. 55-71
Idioma: español
Títulos paralelos:
- Comparative evaluation of the quality of academic and scientific translations produced by Artificial Intelligence
Enlaces
- Texto completo
Resumen
- español
  El estudio evaluó la efectividad de tres sistemas de inteligencia artificial (ChatGPT, Gemini y DeepSeek) en la traducción de textos científicos del español al inglés. Se empleó un diseño comparativo de casos múltiples con enfoque mixto: ocho fragmentos científicos fueron traducidos por cada IA y valorados por tres expertos según seis criterios (fidelidad semántica, precisión terminológica, cohesión sintáctica, fluidez, puntuación gramatical y adecuación contextual). Los datos revelaron que ChatGPT ofreció la mayor fidelidad semántica, Gemini destacó en cohesión y DeepSeek mostró variabilidad terminológica. Aunque DeepSeek admitió una ventana de contexto superior de 128,000 tokens, esto no reflejó una ventaja clara en calidad, lo que evidencia que el tamaño de contexto no es el único factor determinante. Se propone un modelo híbrido que combine la traducción automática con revisión humana focalizada en terminología, de modo que se maximice la fidelidad y la coherencia. Esta investigación aporta un marco replicable de análisis comparativo de IAs en entornos académicos y sugiere protocolos prácticos para mejorar la calidad de traducción científica.
- English
  This study assessed the effectiveness of three artificial intelligence systems (ChatGPT, Gemini, and DeepSeek) for translating scientific texts from Spanish into English. A multiple-case comparative design with a mixed-methods approach was employed: eight scientific excerpts were translated by each AI and evaluated by three experts across six criteria (semantic fidelity, terminological accuracy, syntactic cohesion, fluency, punctuation, and contextual adequacy). Results indicated that ChatGPT achieved the highest semantic fidelity, Gemini excelled in cohesion, and DeepSeek exhibited terminological variability. Although DeepSeek’s context window supported up to 128,000 tokens, this did not translate into superior quality, demonstrating that context size alone does not guarantee better translations. A hybrid model combining machine translation with targeted human review is recommended to optimize both fidelity and coherence. This work provides a replicable benchmarking framework for AI translators in academic settings and offers practical protocols to enhance scientific translation quality.