Ayuda
Ir al contenido

Dialnet


Soluciones tecnológicas para intérpretes: reconocimiento automático del habla e interpretación remota

  • Autores: Mahmoud Gaber
  • Directores de la Tesis: Gloria Corpas Pastor (dir. tes.)
  • Lectura: En la Universidad de Málaga ( España ) en 2023
  • Idioma: español
  • Títulos paralelos:
    • Technological solutions for interpreters: automatic speech recognition and remote interpreting
  • Tribunal Calificador de la Tesis: Óscar Loureda Lamas (presid.), Encarnación Postigo Pinazo (secret.), María Ángeles Recio Ariza (voc.)
  • Programa de doctorado: Programa de Doctorado en Lingüística, Literatura y Traducción por la Universidad de Málaga
  • Materias:
  • Enlaces
    • Tesis en acceso abierto en: RIUMA
  • Resumen
    • Las líneas a continuación presentan un resumen de la tesis doctoral, con mención internacional bajo la modalidad de compendio de publicaciones, titulada ¿Soluciones tecnológicas para intérpretes: reconocimiento automático del habla e interpretación remota [Technological solutions for interpreters: automatic speech recognition and remote interpreting]¿. Abrimos el presente resumen con una breve introducción que describe la importancia del tema objeto de estudio y revela la carencia de soluciones tecnológicas diseñadas para los intérpretes (Sección 1). La motivación tanto personal como académica para investigar sobre las tecnologías de la interpretación queda reflejada en Sección 2. Sección 3 expone la hipótesis y los objetivos del proyecto de tesis doctoral. Acto seguido, se describe, en Sección 4, la metodología empleada para lograr los objetivos de nuestra investigación. Los resultados, principales hallazgos y futuras líneas de investigación se detallan en Sección 5. Sección 6 presenta una lista con las siete publicaciones que avalan nuestra tesis doctoral. Por último, en sección 7, se expone la estructura que conforma la tesis doctoral.

      1. Introducción Las Tecnologías de la Información y la Comunicación (TIC) han tenido un impacto considerable en la profesión de la interpretación, facilitando a los intérpretes el acceso a la información y su organización en la fase de preparación del encargo e, incluso, durante el acto de interpretación (Berber-Irabien, 2010; Sandrelli, 2015).

      Si bien la adopción de las tecnologías va despacio debido, en parte, a la reticencia de los intérpretes (Corpas y Fern, 2016); a las limitaciones que presentan las soluciones tecnológicas existentes hoy en día para intérpretes (Costa, Corpas y Durán, 2014; Corpas Pastor, 2022); o debido, básicamente, a la complejidad del proceso de interpretación, el futuro de la profesión, según Fantinouli (2018a: 6), se augura muy prometedor en lo relativo a la tecnología.

      En la actualidad, la interpretación a distancia o remota (IR), junto con la Interpretación Asistida por Ordenador (IAO) y la Interpretación Automática (IA), están llamadas a desempeñar un papel esencial en el próximo giro tecnológico de la interpretación (cfr. Corpas Pastor, 2018; Fantinuoli, 2018a). A pesar de que el interés por el desarrollo de herramientas tecnológicas se está creciendo cada vez más, el estado de la cuestión revela cierta carencia, en términos de cantidad y calidad, en las tecnologías disponibles para los intérpretes (Corpas Pastor, 2022). Dicha carencia se acentúa aún más en el ámbito de formación de intérpretes y en las lenguas de pocos recursos.

      A pesar de la complejidad del proceso de interpretación, los intérpretes, a diferencia de los traductores, para el cual existen infinidad de recursos y herramientas de traducción asistida, aún no disponen, según Corpas Pastor (ibid), de soluciones tecnológicas y sistemas de IAO suficientes y sofisticadas que les sirven para automatizar sus tareas. Varios son los investigadores que han hecho eco de la escasez de soluciones tecnológica diseñadas a medida para los intérpretes, así como la necesidad de más investigación sobre las tecnologías de la interpretación. Por ejemplo, Fantinuoli (2017b y 2019) señala que el impacto de las TIC en la interpretación ha sido, hasta ahora, moderado. Asimismo, el autor sostiene que las tecnologías de la interpretación es un ámbito de investigación aún poco representado en los estudios de interpretación (Fantinuoli, 2018a). Por su parte, Prandi (2018) advierte que las herramientas de IAO disponibles para los intérpretes son limitadas y sus funcionalidades no siempre cubren todas las fases del proceso de interpretación. Además, la escasez de soluciones tecnológicas es aún más acuciante en el caso de la interpretación desde/hacia lenguas menos comunes. De ahí que el poder contar con herramientas tecnológicas diseñadas para facilitar el trabajo de los intérpretes no se trate solo de una necesidad, sino de un derecho laboral para, por un lado, aliviar la carga cognitiva, evitando así el desgaste mental de los profesionales y, por otro lado, proteger el derecho del usuario, garantizándole una interpretación de calidad.

      Esta tesis se enmarca dentro de los proyectos VIP: Voice-text integrated system for InterPreters (ref. nº FFI2016-75831-P) y VIP II: Adaptación multilingüe y multi-dominio para la optimización del sistema VIP (Ref. PID2020-112818GB-I00), que aspiran a cubrir la laguna ¿tecnológica¿ que existe en el ámbito de la interpretación asistida, tanto en la fase previa de preparación/documentación de la interpretación como durante el transcurso de la interpretación. El proyecto VIP y su continuación (VIP II) incluyen varios tipos de herramientas y soluciones tecnologías de interpretación. Por ello y con el objetivo de delimitar nuestra área de investigación, nos focalizamos en dos tecnologías que representan el futuro de la disciplina de la interpretación, a saber, la Interpretación Remota (en adelante, IR) y el Reconocimiento Automático del Habla (en adelante, RAH).

      2. Motivación La elección del tema de investigación nunca ha sido aleatoria, ya que responde a inquietudes personales del investigador y se ajusta, así pensamos, con las necesidades reales de los intérpretes. Al iniciar esta investigación y a lo largo de todas sus fases, siempre hemos tenido presente la intención de contribuir y aportar a la interpretación como disciplina y como profesión.

      La vocación personal, al haber tenido una larga experiencia como intérprete ¿profesional desde el 2011 y jurado desde el 2016¿ nos ha hecho conscientes de la escasez de herramientas tecnológicas que facilitan nuestra tarea de interpretación. A lo largo de nuestra trayectoria profesional, anterior a la investigación, no teníamos a nuestra disposición las herramientas tecnológicas suficientes (avanzadas y diseñadas para los intérpretes) para gestionar, automatizar y agilizar las tareas que conforman el encargo de interpretación: documentación, extracción terminológica, gestión de glosarios, compilación automática de corpus, búsqueda rápida de términos durante el acto de interpretación, etc. A pesar de la aparición de diversas herramientas, dicha limitación y escasez sigue existiendo hoy día, constituyendo, a veces, un escollo para conseguir una interpretación de calidad, teniendo en cuenta el habitual apremio de tiempo entre la confirmación del encargo y la realización de la interpretación propiamente dicha.

      Por otro lado, el interés por las tecnologías de la interpretación ha ido ganando terreno en la investigación académica en los últimos años. Los avances en la Inteligencia Artificial (IA) y el Procesamiento de Lenguaje Natural (PLN), junto con los intereses comerciales por parte de los proveedores de servicios lingüísticos y los cambios en el ejercicio de la profesión motivados por la pandemia del COVID-19, aceleraron el desarrollo de ciertas tecnologías para la interpretación. No obstante, dicho desarrollo se ha limitado a ciertas lenguas, contextos o fases concretas de la interpretación. A modo de ejemplo, se ha observado más interés en desarrollar tecnologías para los intérpretes en el contexto de interpretación de conferencias en organismos internacionales o regionales de alto nivel, mientras se evidencia cierta escasez de recursos (y poca atención) a los intérpretes en los servicios públicos. Asimismo, el estado del arte revela que la investigación sobre los corpus escritos y sus beneficios para los intérpretes se aborda en un mayor número de estudios frente a los dedicados específicamente a los corpus orales, siendo éstos últimos los que, precisamente, más interesan a los intérpretes.

      En cuanto a la formación de intérpretes se refiere, se ha constatado la escasez de soluciones tecnológicas tanto para el profesorado como para el alumnado de interpretación. Además, el estado del arte revela que se ha hecho hincapié únicamente en el uso del RAH durante la fase de interpretación en su modalidad presencial, dejando de lado el potencial de dicha tecnología en la fase de preparación y documentación y lo que podría también aportar en la modalidad de interpretación consecutiva, etc.

      De ahí, se ha despertado nuestro interés por cubrir el vacío existente en la creación y propuesta de soluciones tecnológicas hechas a medida parar satisfacer las necesidades reales de los intérpretes, ateniendo a lenguas de pocos recursos -como el árabe- y contextos de interpretación que no han gozado de suficientes recursos.

      3. Hipótesis y objetivos Conscientes de la relevancia de la investigación en las tecnologías de la interpretación, y teniendo en cuenta la escasez de herramientas disponibles para los intérpretes, partimos de dos preguntas de investigación (research questions o RQ, en inglés), que formulamos de la siguiente manera: 1. ¿Cuáles son los impactos psicológicos y fisiológicos que tiene el uso de las tecnologías de interpretación remota en los intérpretes de los servicios públicos? 2. ¿Cómo podríamos explotar la tecnología del RAH para automatizar y agilizar el proceso de documentación previo al encargo? Ambas preguntas permiten establecer la doble hipótesis de nuestra investigación, a saber, 1) que el uso de las tecnologías de la interpretación remota tiene un impacto psicológico y fisiológico, que se puede observar en las percepciones de los intérpretes (en este caso, de los que realizan su trabajo en los servicios públicos); y 2) que el uso del RAH puede tener un impacto beneficioso para las tareas de interpretación, especialmente para la automatización de la fase previa de documentación o preparación de un encargo de interpretación.

      Asimismo, de las dos preguntas de investigación principales emanarán otras subpreguntas que nos ayudarán a definir la estrategia de investigación de nuestro proyecto de tesis doctoral, resaltando de esta manera elementos importantes que nos hacen falta para responder a dichas preguntas de investigación principales. De este modo, las siguientes subpreguntas se han derivado de la primera pregunta de investigación: 1a. ¿Cuál es la visión general que tienen los intérpretes sobre las tecnologías de interpretación remota? 1b. ¿Cuál es el modo de interpretación más usado en los servicios públicos (interpretación telefónica, por videoconferencia o interpretación simultánea remota)? 1c. ¿Cómo podríamos optimizar el uso de las tecnologías de interpretación remota y reducir los impactos negativos que podrían generar en los intérpretes? En cuanto a la segunda pregunta de investigación, se desglosa en las siguientes subpreguntas, que han permitido definir algunos temas interesantes de abordar: 2a. ¿Cuál es el sistema de transcripción automática más preciso y con mejor rendimiento? 2b. ¿Hasta qué punto podría ser preciso y fiable el resultado de la transcripción automática, utilizando lenguas diferentes al inglés (en este caso, español y árabe) y ámbitos de conocimiento especializados? 2c. ¿Qué protocolo de compilación de corpus ad hoc podríamos aplicar para aprovechar las transcripciones generadas automáticamente por los sistemas de RAH? 2d. ¿Facilitará el corpus oral patrones colocacionales distintos a los del corpus escrito? De las dos preguntas de investigación principales (y sus subpreguntas correspondientes) se desprenden los siguientes objetivos y subobjetivos de la presente tesis doctoral. Así, como primer objetivo (Artículos 1 y 2) pretendemos analizar los impactos fisiológicos y psicológicos que tiene el uso de las tecnologías de IR en los intérpretes de los servicios públicos. De este primer objetivo emanarán los siguientes subobjetivos específicos: a. Establecer cuál es la visión general que tienen los intérpretes sobre las tecnologías de IR, con idea de detectar deficiencias y proponer mejoras.

      b. Identificar el modo de interpretación más usado en los servicios públicos (interpretación telefónica, por videoconferencia o interpretación simultánea remota) c. Implicar a los intérpretes, a través de sus sugerencias y opiniones, en la mejora de las tecnologías que ellos mismos utilizan.

      Nuestro segundo objetivo nace de la necesidad de facilitar a los intérpretes, tanto de servicios públicos como los que realizan su interpretación en otros contextos, soluciones tecnológicas basada en el RAH para agilizar el proceso de documentación, preparación previa al encargo y otras tareas de formación, aprovechando el material audiovisual (que más interesa a los intérpretes) y compilando corpus ad hoc basado en la transcripción de dicho material. La idea está pensada para aliviar la carga cognitiva y reducir el impacto de otros factores negativos manifestados por los intérpretes encuestados en el estudio llevado a cabo en los Artículos 1 y 2. Este segundo objetivo se desglosará en los siguientes subobjetivos: a. Evaluar diversos sistemas de transcripción automática, medir su rendimiento en diferentes lenguas y especialidades y analizar sus fortalezas y debilidades (Artículos 3, 5 y 6).

      b. Compilar un corpus ad hoc (mediante el RAH) que será de utilidad para la extracción (semi)automática de términos y la documentación previa al encargo de interpretación (Artículos 3, 5 y 6).

      c. Establecer una metodología basada en el RAH para la documentación y el dominio de la fraseología a partir de corpus comparables, oral y textual, (Artículos 4 y 7) d. Presentar un análisis contrastivo de patrones colocacionales entre un corpus oral de transcripciones y otro escrito a los efectos de examinar los beneficios de los corpus orales para los intérpretes en proporcionar patrones colocacionales distintos a los del corpus escrito (Artículos 4 y 7).

      En este contexto, la Tabla 1, a continuación, ilustra un resumen de las preguntas de investigación (PI1, PI2) que se abordan en cada publicación: Publicación PI Descripción Art. 1 PI1 Presenta los resultados de una encuesta que hemos diseñado para recopilar información sobre el impacto psicológico y fisiológico que generan las tecnologías de interpretación remota en los intérpretes comunitarios.

      Art. 2 PI1 A raíz de la pandemia del Covid-19, se ha lanzado de nuevo la encuesta para ampliar los resultados y explorar la visión general de los intérpretes, al tiempo que se comprueban los efectos de usar las tecnologías de interpretación remota.

      Art. 3 PI2a, PI2b y PI2c Aborda las posibilidades que ofrece la tecnología habla-texto para cubrir las necesidades terminológicas y documentales de los intérpretes en la fase de preparación previa a un encargo de interpretación.

      Art. 4 PI2c y PI2d Propone una novedosa metodología de documentación consistente en compilar corpus comparables de forma semi-automática mediante transcripciones de discursos orales y de documentos escritos (compilación automática) sobre un mismo tema con vistas a la preparación de un encargo de interpretación.

      Art. 5 PI2a y PI2b En este capítulo presentamos el RAH como herramienta para la compilación de un corpus ad hoc en árabe basado en transcripciones de discursos orales en un ámbito especializado, en este caso, la oftalmología.

      Tabla 1: las preguntas de investigación (PI1, PI2) que se abordan en cada publicación Así pues, los objetivos anteriormente citados se abordan de forma detallada en las siete publicaciones que componen nuestra tesis doctoral. Alcanzaremos estos objetivos gracias a la metodología que procedemos a describir en el siguiente apartado.

      4. Metodología La metodología que seguiremos para desarrollar esta tesis persigue la consecución de los objetivos expuestos anteriormente. El dominador común de nuestro método, para cumplir con los objetivos propuestos, será detectar escasez y necesidades en las herramientas disponibles para los intérpretes y, por consiguiente, ofrecer soluciones tecnológicas adaptadas a las necesidades reales de los intérpretes tanto profesionales como en formación.

      Para alcanzar el primer objetivo, nuestra metodología se basa, principalmente, en: a) repasar el estado de la cuestión de las tecnologías de interpretación remota, elaborando una comparativa con las ventajas e inconvenientes del uso de las tecnologías en cuestión (cfr. Artículo 1), mostrando, a la vez, la escasez de estudios que atienden las necesidades de los intérpretes de los servicios públicos; y b) diseñar un cuestionario para su distribución entre los intérpretes de los servicios públicos. El cuestionario, cuya versión bilingüe (español e inglés) ha sido realizada en LimeSurvey , se ha distribuido en línea, con una dirección URL para cada lengua por separado. Dicho cuestionario contiene 25 preguntas, de tipo cerrado y abierto, y ha sido dividido en las cuatro secciones siguientes: ¿ La primera, dedicada a estudiar el perfil personal y profesional de los encuestados: edad, sexo, país de residencia, formación académica y profesional, años de experiencia profesional y lenguas de trabajo.

      ¿ La segunda sección abarca preguntas que pretenden identificar la frecuencia de uso de las modalidades de interpretación a distancia y los contextos de servicios públicos donde los intérpretes realizan sus encargos.

      ¿ En la tercera sección, los intérpretes manifiestan su opinión y revelan los impactos psicológicos y fisiológicos, tanto positivos como negativos (como, a modo de ejemplo, estrés, incomodidad, astenopía, productividad, motivación, etc.) que experimentan con el uso de las tecnologías en cuestión.

      ¿ En la cuarta sección, recabamos información sobre las plataformas que usan los intérpretes; además, estos aportan sugerencias de mejora para las tecnologías de interpretación a distancia.

      Como se puede apreciar, las cuatro secciones de la encuesta han sido estructuradas en consonancia con los objetivos marcados para este estudio (cfr. Sección 3).

      Cabe destacar que en las preguntas que conforman el cuestionario hemos evitado el uso de conceptos y términos poco frecuentes entre los intérpretes o aquellos que puedan generar confusión. Por ello, se emplean los conceptos habituales y más utilizados en el día a día entre los intérpretes profesionales para referirse a las modalidades de IR: telefónica, por vídeo conferencia y simultánea remota. Este aspecto nos garantiza, en la medida de lo posible, que las preguntas dirigidas a los intérpretes sean bien comprendidas y respondidas acorde. Además, se han realizado pruebas antes de lanzar el cuestionario al público para comprobar que la estructura, las preguntas y opciones a elegir gocen de coherencia y cohesión, y que un intérprete profesional (no investigador) se vea familiarizado con los conceptos reflejados.

      Es importante indicar que el lanzamiento del cuestionario coincidió justo con el inicio de la pandemia COVID-19. Los primero resultados (28 cuestionarios cumplimentados) fueros reflejados en la primera publicación de la presente tesis (cfr. Artículo 1). Más tarde, se ha propagado el uso de las tecnologías de IR, principalmente, por causas de la pandemia y vimos la necesidad de repasar el estado del arte y ampliar la difusión de la encuesta. Así que, se ha duplicado la cifra de respuestas en la segunda publicación, alcanzando 56 cuestionarios cumplimentados.

      En lo que se refiere al segundo objetivo, teniendo en cuenta los subobjetivos que se desglosan del mismo (véase Sección 3), hemos establecido una metodología específica que ilustra la siguiente figura (cfr. Figura 1): Figura 1: Metodología específica del segundo objetivo Cabe mencionar que para lograr este objetivo fue de vital importancia la estancia de investigación que realicé en el seno del Research Group in Computational Linguistics de la University of Wolverhampton (Reino Unido) entre los meses de marzo y agosto de 2019. Durante dicha estancia, bajo la dirección de Dr. Ruslan Mitkov y con la colaboración de Dr. Ahmed Omer, se realizó un análisis de varios sistemas de RAH en inglés para determinar el sistema con mejor rendimiento (cfr. Artículo 3). Para ello, hemos ideado un protocolo de evaluación de los sistemas de RAH, teniendo en cuenta el propósito establecido y las implicaciones de un encargo de interpretación. En este contexto, sería importante que el material a transcribir abarcara, entre otros aspectos, el conocimiento tanto general como especializado del tema objeto de estudio, ya que ello es importante en la fase de preparación de un encargo de interpretación. Además, dicho material debería de cumplir con otros criterios que nos permitiesen poner a prueba el rendimiento, la precisión y la consistencia de los sistemas de RAH que hemos seleccionado. A modo de ejemplo, el ruido de fondo, el contexto (entrevista, discurso unidireccional, rueda de prensa, etc.), la duración del material audiovisual, entre otros, son factores que comprometen el rendimiento de los sistemas de RAH (cfr. Barrios, 2018), y, por ende, habrá que tomarlos en cuenta a la hora de establecer el protocolo en cuestión.

      El proceso de evaluación se trataba de comparar la transcripción obtenida por cada sistema (texto generado) con una transcripción hecha manualmente (texto de referencia) (González et al., 2011). Por ello, hemos sometido cada texto generado por los sistemas de RAH a un proceso de evaluación para medir la precisión de cada uno de ellos. En general, el WER (del inglés Word Error Rate) es una de las medidas comúnmente utilizadas en la evaluación de sistemas de RAH (ibid). Aparte de la WER, se ha utilizado la métrica BLEU (Bilingual Evaluation Understudy), que, a su vez, ha confirmado los mismos resultados obtenidos con WER.

      Teniendo en cuenta la gran escasez de estudios de investigación y de soluciones tecnológicas en otras lenguas que no sean el inglés, se procede a evaluar también el rendimiento de sistemas de RAH en árabe (cfr. Artículo 5) y en español (cfr. Artículo 6). Esto nos permite, además, analizar los desafíos y aspectos particulares que afectan el rendimiento de los sistemas de RAH en una lengua como el árabe, por ejemplo, en la que suele interferirse más de una variante lingüística en ciertas intervenciones (conferencia, entrevista, rueda de prensa, etc.).

      Además, el aceptable grado de precisión de los sistemas analizados nos ha motivado a compilar un corpus ad hoc basado en las transcripciones obtenidas automáticamente del material audiovisual. Así que, teniendo en cuenta el aspecto novedoso de la propuesta de compilar un corpus ad hoc basado en transcripciones de un material audiovisual, habrá que idear un protocolo y procedimiento de compilación que respondan a las particularidades de dicho corpus. De ahí, se establece un nuevo protocolo de compilación de un corpus ad hoc de acuerdo con las siguientes fases: i) búsqueda de material audiovisual; ii) descarga; iii) transcripción y iv) almacenamiento y gestión de corpus (cfr. Artículos 4 y 7). Así pues, el proceso de compilación del corpus ad hoc nos abre caminos para explotar el discurso oral, pudiendo extraer la terminología, gestionar la fraseología que contienen dichos discursos y, además, realizar la documentación necesaria previa al encargo de interpretación e, incluso, llevar a cabo tareas de formación (cfr. Artículos 6 y 7).

      En este contexto, los resultados del Artículo 3 nos permiten establecer una metodología a través de la cual se realiza un estudio contrastivo de patrones colocacionales entre un corpus escrito y otro oral (cfr. Artículo 4). Para ello, hemos establecido un protocolo de compilación semi-automática de corpus comparables (transcripciones de discursos y documentos escritos) sobre un mismo tema, a fin de estudiar posibles diferencias a nivel fraseológico. En este contexto, hemos extraído de forma automática los patrones V+S y V+S+S de ocho términos (cinco simples y tres multipalabra, a modo de ejemplo).

      Asimismo, se ha realizado otro estudio contrastivo de patrones colocacionales entre un corpus de transcripciones de español y otro escrito de árabe (cfr. Artículo 7). En este caso, se establece, como primer paso, el protocolo de diseño y compilación de los dos corpus. Acto seguido, se procede a extraer y analizar los patrones colocacionales a través de la funcionalidad de CQL (Corpus Query Language) que tiene el Sketch Engine para la búsqueda de estructuras complejas. Para ello, hemos elaborado las etiquetas de búsqueda de patrones correspondiente a cada lengua. La Tabla 3 nos indica las etiquetas que se han utilizado en tanto el corpus de español como el de árabe: Tipo de patrón Etiqueta (ES) Etiqueta (AR) Sust + Adj [tag="N.*"] [tag="A.*"] [tag="(DT)?NN.*"] [tag="(DT)?JJ.*"] Adj + Adv [tag="A.*"][tag="R.*"] [tag="(DT)?JJ.*"] [tag="W?RB"] Sust + Prep + Sust [tag="N.*"] [tag="S.*"][tag="N.*"] [tag="(DT)?NN.*"] [tag="IN"] [tag="(DT)?NN.*"] Verb + Adv [tag="V.*"][tag="A.*"] [tag="VB.*"] [tag="W?RB"] Verb + Sust [tag="V.*"][tag="N.*"] [tag="VB.*"] [tag="(DT)?NN.*"] Verb + Prep + Sust [tag="V.*"][tag="S.*"][tag="N.*"] [tag="VB.*"] [tag="IN"] [tag="(DT)?NN.*"] Tabla 2: Etiquetas de búsqueda de colocaciones en español y árabe 5. Resultados Nuestra investigación responde a dos principales preguntas de investigación: 1. ¿Cuáles son los impactos psicológicos y fisiológicos que tiene el uso de las tecnologías de interpretación remota en los intérpretes de los servicios públicos? 2. ¿Cómo podríamos explotar la tecnología del RAH para automatizar y agilizar el proceso de documentación previo al encargo? Los principales hallazgos y contribuciones del proyecto de investigación se detallan a continuación, seguidos por las vías de investigación que abre nuestro trabajo.

      5.1. Resumen de contribuciones Dos son los objetivos generales que han marcado el rumbo de nuestra investigación. El primer objetivo general se centra en torno a analizar los impactos fisiológicos y psicológicos del uso de las tecnologías de la IR en los intérpretes de los servicios públicos. Para ello, se ha implementado el método de la encuesta al usuario para recabar una cantidad considerable de información, comentarios y opiniones por parte de los intérpretes sobre el uso y los impactos de las tecnologías de IR. Los resultados de la encuesta nos han permitido llegar a ciertas conclusiones de las cuales hemos podido formular una serie de recomendaciones. Entre los resultados más relevantes del estudio es la actitud positiva que mostraron los intérpretes hacia el uso de la modalidad remota. Pues, los intérpretes son conscientes de las ventajas que proporciona el uso de las tecnologías, pero apuntan algunos aspectos que afectan a la calidad de la interpretación o incrementan el estrés sobre el intérprete. Todos y cada uno los aspectos positivos (motivación, productividad, comodidad, mayor disponibilidad, etc.) reciben un porcentaje superior, por encima de cualquiera de los aspectos negativos (fatiga, astenopía, náusea, falta de motivación, falta de concentración, agotamiento, sentimientos de alienación y de aislamiento, etc.) exceptuando el elemento estrés. Los aspectos que más afectan negativamente a los intérpretes son la falta de contexto visual, la inestabilidad de la conexión (en algunos casos), la inadecuación del medio de comunicación usado, la falta de conocimiento acerca de cómo usar el servicio de IR, tanto por parte del usuario como del proveedor de servicio comunitario. Se ha detectado que la interpretación telefónica es la modalidad más usada en los servicios públicos, aunque la más cuestionada debido a la falta de información visual y, por consiguiente, total ausencia de lenguaje no verbal. Por ello, se reclama la moderación del uso de la interpretación telefónica cuando se trate interpretaciones de larga duración o encuentros donde intervienen varias personas o se implican situaciones complejas. Pues, la falta del contexto visual en estas situaciones afecta tanto la calidad de la comunicación como el rendimiento del intérprete. Es importante proporcionar mayor apoyo tecnológico y tener en cuenta los requisitos técnicos de cada tipo de interpretación y contexto. El uso de la tecnología de la realidad aumentada podría también aliviar el sentimiento de alienación y la preferencia de estar en el mismo lugar con el cliente, un inconveniente siempre manifestado por los intérpretes. Es preciso informar y formar no solo a los intérpretes sobre el uso de las tecnologías de interpretación a distancia, sino también a los usuarios y proveedores de servicios. Por último, la IR se ha transformado en una realidad que requiere la adaptación de todos los agentes y medios implicados: intérpretes, usuarios, proveedores de servicios y herramientas tecnológicas utilizadas. Será necesario seguir profundizando en las preferencias y perspectivas de cada uno de ellos, por separado, y en relación a las distintas modalidades y escenarios (presentes y futuros) de la IR.

      El segundo objetivo de nuestra investigación se ha enfocado en facilitar a los intérpretes soluciones tecnológicas mediante la explotación del RAH a los efectos de, entre otras tareas de formación, (semi)automatizar el proceso de documentación previo al acto de interpretación, aprovechando de esta manera el material audiovisual que más interesa a los intérpretes. La metodología, que se ha aplicado para lograr este objetivo, nos ha permitido determinar el sistema de RAH más preciso para compilar corpus ad hoc y extraer terminología a partir de discurso orales mediante la tecnología habla-texto en tres idiomas: inglés, árabe y español (cfr. Artículos 3,5 y 6, respectivamente). Así que, nuestro método facilita a los intérpretes profesionales soluciones tecnológicas novedosas para llevar a cabo una preparación avanzada durante la fase de documentación. En base con el estudio comparativo realizado en el Artículo 3, los resultados de BLEU score y WER indican que Otter AI es el más eficaz para la transcripción automática en inglés entre los otros sistemas de RAH analizados. Por otro lado, los resultados del Artículo 5 muestran que IBM¿s WatsonBeta como el sistema con mejor rendimiento para el árabe. Mientras que el sistema de RAH de YouTube es el más preciso para el español (cfr. Artículo 6). A pesar de que la tecnología del RAH ha avanzado hasta el punto de tenerla presente en infinitas aplicaciones del día a día, el porcentaje de error (WER) es todavía considerable en el caso del árabe dialectal cuando se trata de un ámbito especializado y de reconocimiento del habla continua de dominio extenso (en inglés: LVCSR, Large Vocabulary Speech Recognition). Los sistemas de RAH analizado en el Artículo 5 proporcionaron mejores resultados en el árabe estándar que el dialectal. Así que, será necesario investigar más para mejorar la tecnología del RAH en lenguas con muchas variedades diatópicas, como el caso del árabe y el español. A rasgos generales, existen variables que afectan a los resultados WER obtenidos para los sistemas de RAH, como, por ejemplo, el ruido de fondo, incluida la música; la calidad del sonido; las variantes dialectales; la vocalización y el ritmo del orador; el cambio de turnos y solapamiento de oradores en las entrevistas; el titubeo, etc. Además, en el caso del árabe, se suman otros aspectos que hemos detectado en el proceso de la transcripción y que constituyen otras de las aportaciones del presente estudio. En primer lugar, se destaca el uso frecuente de términos extranjeros (incluso frases enteras) en el ámbito de la medicina en general, especialmente anglicismos. En segundo lugar, se detecta la falta de uniformidad en la ortotipografía del árabe médico. Muchos términos, como, por ejemplo, "¿¿¿¿¿¿¿/¿¿¿¿¿¿¿¿ ¿¿¿¿¿¿¿¿¿¿¿¿¿/¿¿¿¿¿¿¿¿¿¿¿¿¿" (en español, astigmatismo y glaucoma, respectivamente) se escriben de forma diferente dependiendo del país (o, incluso, la región dentro de un mismo país). Como es preciso adoptar una única forma de ortografía a la hora de elaborar la transcripción de referencia, esto hace que dicha transcripción favorezca una de las variedades diatópicas (que utiliza la ortografía similar a la de referencia) frente a otras, como se observa al compararla con la transcripción generada automáticamente. En tercer lugar, la mezcla de variedades diatópicas (e, incluso, variantes dialectales) es un aspecto que se repite en la mayoría de los vídeos en formato de entrevista. En este caso, al tener que seleccionar una variante específica antes de iniciar la transcripción automática esto afecta, de alguna manera, el rendimiento del sistema al reconocer las otras variantes que podrían aparecer durante las entrevistas. En cuánto a el estudio de fraseología contrastivo entre un corpus textual y otro oral (cfr. Artículo 4), los resultados obtenidos revelan tendencias de simplificación en función de la complejidad del patrón colocacional y del término base (a mayor complejidad, menor número de colocados verbales tipo); y según se trate del corpus de origen oral o escrito (el corpus de transcripciones presenta menos colocados verbales por patrón que el corpus escrito). También se observa un fenómeno similar cuando se analizan los colocados (verbos) agrupados por funciones o contenido semántico, independientemente del patrón: en el corpus oral, el número colocados que entran a formar parte de ambos patrones es menor, como menor son también las posibilidades combinatorias de los colocados verbales. En este sentido, se producen además preferencias colocacionales idiosincrásicas entre las bases (términos) y sus colocados (verbos), según se trate del corpus de transcripciones orales o del corpus de documentos escritos. Todo ello corrobora que los corpus orales podrían reportar incluso más ventajas al intérprete que los corpus escritos, especialmente en la fase de preparación de una interpretación. Por último, hemos logrado establecer un método novedoso que tiene como objetivo satisfacer algunas necesidades de la formación en interpretación mediante el uso del RAH (cfr. Artículos 6 y 7). El resultado de dicho método permitirá a los intérpretes en formación llevar a cabo la fase de documentación y preparación contando con discurso orales para compilar corpus ad hoc, extraer terminología especializada y adquirir el conocimiento temático. Nuestra investigación se trata de uno de los primeros estudios en los que se abordan las posibilidades que ofrece la tecnología habla-texto para cubrir las necesidades terminológicas y documentales de los intérpretes en la fase de preparación de un encargo dado. Asimismo, contribuye a promover el uso de los corpus orales, transcritos a través de la tecnología del reconocimiento automático del habla, evitando así las dificultades que implica la transcripción manual y el desafío de la extracción informacional. Además, hasta que ha llegado nuestro conocimiento, no hay casi ningún estudio de fraseología contrastiva entre el árabe y el español basados en corpus para los fines de interpretación.

      5.2. Futuras líneas de investigación Los resultados y principales conclusiones de esta tesis doctoral revelan un gran potencial para un futuro trabajo posdoctoral, ya que dejan abiertas muchas líneas de investigación y desarrollo. Por ejemplo, un tema interesante para futuras investigaciones sería estudiar si las percepciones subjetivas de los intérpretes (por ejemplo, el estrés) están asociadas a indicadores objetivos (variabilidad del ritmo cardíaco, resonancias magnéticas, mediciones a través de sensores, etc.).

      Por otro lado, tenemos previsto explorar en profundidad el potencial de la tecnología del RAH para desarrollar una herramienta de interpretación asistida por ordenador integrada y multifuncional que sea capaz realizar transcripciones automáticas, compilar y gestionar corpus orales, extraer terminología y unidades multipalabra y realizar consultas dentro de un discurso oral.

      También nos gustaría desarrollar un software basado en la tecnología del RAH para ayudar a los intérpretes durante la modalidad de interpretación consecutiva, ya sea in situ o en modalidad remota. Dicho software sería capaz de automatizar el proceso de toma de notas, proporcionando a los intérpretes la transcripción segmentada del discurso hablado de forma manipulada según el protocolo de toma de notas más avanzado; sugerencias de equivalencia de términos; etc.

      Por último, nuestro proyecto de tesis doctoral constituye un paso hacia el diseño de un futuro sistema interactivo de RAH, alumno<> alumno y alumno <> profesor. El sistema que pretendemos crear integraría varios componentes, a saber: tecnología del RAH, toma de notas automatizada, grabaciones etiquetadas de discursos originales, sección de feedback para el alumno y el profesor, autoevaluación, plantillas de evaluación de la formación (en función de la modalidad de interpretación), grabadora de voz, etc. Un sistema de estas características sería una solución tecnológica de gran importancia e impacto para la formación en interpretación.

      6. Lista de publicaciones La tesis doctoral queda conformada por siete (7) publicaciones, que han sido revisadas y sometidas a un proceso de evaluación anónima por, al menos, dos especialistas. A continuación, reflejamos la referencia de cada publicación, un resumen de ella y el índice de calidad.

      ¿ ARTÍCULO 1 Gaber, M., y Corpas Pastor, G. (2019). Las tecnologías de interpretación a distancia en los servicios públicos: uso e impacto. In E. Postigo Domínguez (Ed.), Interpreting in a Changing World: New Scenarios, Technologies, Training Challenges and Vulnerable Groups / La interpretación en un mundo cambiante: nuevos escenarios, tecnologías, retos formativos y grupos vulnerables, (p. 65-89). Berlín: Peter Lang.

      ¿ ARTÍCULO 2 Corpas Pastor, G. y Gaber, M. (2020). Remote Interpreting in Public Service Settings: Technology, Perceptions and Practice. SKASE Journal for Translation and Interpretation, 13(2), 58-68. http://www.skase.sk/Volumes/JTI19/pdf_doc/04.pdf.

      ¿ ARTÍCULO 3 Gaber, M., Corpas Pastor, G., y Omer, A. (2020). Speech-to-Text Technology as a Documentation Tool for Interpreters: a new approach to compiling an ad hoc corpus and extracting terminology from video-recorded speeches. TRANS ¿ Revista de Traductología, (24), 263-281. https://doi.org/10.24310/TRANS.2020.v0i24.7876. ¿ ARTÍCULO 4 Corpas Pastor, G., y Gaber, M. (2021). Extracción de fraseología para intérpretes a partir de corpus comparables compilados mediante reconocimiento automático del habla. In G. Corpas Pastor, M. R. Bautista Zambrana, y C. M. Hidalgo Ternero (Eds.), Sistemas fraseológicos en contraste: enfoques computacionales y de corpus (p. 271¿291). Granada: Comares.

      ¿ ARTÍCULO 5 Gaber, M., Corpas Pastor, G., y Hatami, A. (en prensa). Protocolo de compilación de un corpus médico en árabe mediante reconocimiento de voz. In M. Pérez Carrasco y M. Seghiri (Eds.), Nuevas tendencias en traducción e interpretación especializadas. Berlín: Peter Lang.

      ¿ ARTÍCULO 6 Gaber, M., y Corpas Pastor, G. (en prensa). La tecnología del reconocimiento automático del habla: recurso de documentación y apoyo tecnológico para la docencia en interpretación. In G. Corpas Pastor y M.Seghiri (Eds.), Tecnología e interpretación: nuevos horizontes didácticos y profesionales. Granada: Comares.

      ¿ ARTÍCULO 7 Gaber, M. (en prensa). Cómo dominar la fraseología y automatizar el proceso de documentación: una solución tecnológica para la formación de intérpretes en la combinación español<>árabe. Romanica Olomucensia.

      En este contexto, Tabla 2 ilustra un resumen de la producción científica a lo largo de la tesis doctoral: (I) ARTÍCULOS DE REVISTAS (3 PUBLICACIONES) Autor (año) Revista Título Gaber, M., y Corpas Pastor, G. (2020) TRANS: Revista de Traductología Speech-to-Text Technology as a Documentation Tool for Interpreters: a new approach to compiling an ad hoc corpus and extracting terminology from video-recorded speeches Corpas Pastor, G., y Gaber, M. (2020) SKASE Journal for Translation and Interpretation Remote Interpreting in Public Service Settings: Technology, Perceptions and Practice Gaber, M. (en prensa) Romanica Olomucensia Cómo dominar la fraseología y automatizar el proceso de documentación: una solución tecnológica para la formación de intérpretes en la combinación español<>árabe (II) CAPÍTULOS DE LIBRO (4 PUBLICACIONES) Autor (año) Editorial Título Corpas Pastor, G. y Gaber, M. (2020) Peter Lang Las tecnologías de interpretación a distancia en los servicios públicos: uso e impacto Corpas Pastor, G., y Gaber, M. (2021) Comares Extracción de fraseología para intérpretes a partir de corpus comparables compilados mediante reconocimiento automático del habla Gaber, M., y Corpas Pastor, G. (en prensa) Peter Lang Protocolo de compilación de un corpus médico en árabe mediante reconocimiento de voz Gaber, M., y Corpas Pastor, G. (en prensa) Comares La tecnología del reconocimiento automático del habla: recurso de documentación y apoyo tecnológico para la docencia en interpretación (III) CONGRESOS Y SEMINARIOS (4 PARTICIPACIONES) Institución Fecha Título Research Group in Computational linguistics, Wolverhampton University, UK 29/07/2019 Speech to Text technology as a computer-aided interpreting tool 7th International Conference on Public Service Interpreting and Translation (TISP 7, University of Alcala de Henares, Spain 26/03/2020- 27/03/2020 Optimising remote interpreting technologies: the user experience perspective 3rd International Conference on Translation, Interpreting & Cognition (ICTIC 3), Bologna, Italy 02/11/2021- 05/11/2021 Automatic speech recognition systems for interpreters: Spoken corpora exploitation by interpreter trainers and trainees Jornadas de Lenguaje 2022- Traducciones y Transposiciones", organised by the Research Group CUYNACO- Universidad Industrial de Santander, Colombia 10/10/2022- 12/10/2022 Nuevas tecnologías de la interpretación y su funcionamiento Tabla 2: Resumen de la producción científica a lo largo de la tesis doctoral 7. Estructura de la tesis La presente tesis doctoral abre con un primer capítulo a modo de resumen (Summary), en el que ofreceremos una panorámica general de nuestro trabajo.

      En el segundo capítulo, Introducción, atenderemos a la motivación de nuestra tesis, expondremos nuestra hipótesis y los objetivos que de ella se derivan y, en ultimo lugar, haremos una sinopsis de la metodología empleada, puesto que al tratarse de una tesis por compendio, será en cada uno de los siete artículos donde se desarrolle la metodología empleada para cumplir con los objetivos planteados de una forma más detallada.

      En el tercer capítulo, Marco Teórico, repasaremos el estado de la cuestión de las tecnologías de la interpretación, haciendo hincapié en las tecnologías de la IR y el RAH, recogiendo aquella información que no se haya podido incluir en las publicaciones que avalan la tesis debido a las limitaciones de espacio.

      En el cuarto capítulo, Materiales, Métodos y Resultados, presentaremos las siete publicaciones en las que se ha concretado nuestra tesis. Se realizará una breve introducción a cada una de ellas, para después reflejarlas tal y como han sido publicadas.

      Con Discussion, Conclusions and Future Lines of Research cerramos el presente trabajo, a través de la exposición y discusión de los resultados y conclusiones más relevantes a los que hemos llegado. Asimismo, se proponen futuras líneas de investigación que derivarán de esta tesis, ampliando así su impacto y relevancia para la comunidad investigadora.

      Por último, ofrecemos una lista de la bibliografía citada a lo largo de la elaboración de esta tesis ordenada alfabéticamente y, además, el apartado de Anexos que incluye las encuestas que pertenecen a los Artículos 1 y 2.

      Bibliografía Barrios, K., López, J., Mendieta, S., Benavides, R., y Sáez, Y. (2018). Sistema de reconocimiento de voz: un enlace en la comunicación hombre-máquina. Revista de iniciación científica, 4, 92-95.

      Berber-Irabien, D. (2010). Information and Communications Technologies in Conference Interpreting [Tesis doctoral]. Tarragona: Universitat Rovira i Virgili.

      Corpas Pastor, G. y Fern, L. (2016). A survey of interpreters¿ needs and practices related to language technology. Documento técnico [FFI2012-38881-MINECO/TI-DT-2016-1]. Málaga: Universidad de Málaga.

      Corpas Pastor, G. (2018). Tools for Interpreters: The Challenges that Lie Ahead. Current Trends in Translation Teaching and Learning E 5, 157-182.

      Corpas Pastor, G. (2022). Interpreting Tomorrow? How to Build a Computer-Assisted Glossary of Phraseological Units in (Almost) No Time. International Conference on Computational and Corpus-Based Phraseology, Springer: Cham, 62-77.

      Costa, H., Corpas Pastor, G. y Durán Muñoz, I. (2014). Technology Assisted Interpreting. Multilingual 143, 27-32.

      Fantinuoli, C. (2017b). Computer-assisted preparation in conference interpreting. Translation & Interpreting, 9(2), 24-37.

      Fantinuoli, C. (2018a). Interpreting and technology: The upcoming technological turn. En Claudio Fantinuoli (Ed.), Interpreting and technology (pp.1¿12). Berlín, Alemania. Language Science Press.

      Fantinuoli, C. (2019). The technological turn in interpreting: the challenges that lie ahead. Proceedings of the BDÜ Conference Translating and Interpreting 4.0, 334-335. Bonn: Alemania.

      González, M., Moreno, J., Martínez, J. L. y Martínez, P. (2011). An illustrated methodology for evaluating ASR systems. En M. Detyniecki, A. García-Serrano, A. Nürnberger y S. Stober (Eds.), International Workshop on Adaptive Multimedia Retrieval (pp. 33-42). Berlín, Heidelberg: Springer.

      Prandi, B. (2018). An exploratory study on CAI tools in simultaneous in- terpreting: Theoretical framework and stimulus validation. En C. Fantinuoli (Ed.), Interpreting and technology, (pp. 29¿59). Berlín: Language Science Press. DOI:10.5281/zenodo.1493293 Sandrelli, A. (2015). Becoming an interpreter: the role of computer technology. MonTI. Monografías de Traducción e Interpretación, Special Issue 2, 111-138. https://doi.org/10.6035/MonTI.2015.ne2.4


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno