Ayuda
Ir al contenido

Dialnet


Adaptacíón eficiente del modelo de lenguaje para transcripción automática de voz en un entorno bilingüe

  • Autores: Javier Diéguez Tirado
  • Directores de la Tesis: Carmen García Mateo (dir. tes.), Antonio Cardenal López (dir. tes.)
  • Lectura: En la Universidade de Vigo ( España ) en 2008
  • Idioma: español
  • Tribunal Calificador de la Tesis: José Bernardo Mariño Acebal (presid.), Laura Docío Fernández (secret.), María Asunción Moreno Bilbao (voc.), Leandro Rodríguez Liñares (voc.), Luis Alfonso Hernández Gómez (voc.)
  • Materias:
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • El problema del reconocimiento de voz, si bien ha experimentado un notable avance en los últimos años, continúa presentando dificultades en entornos adversos tales como la presencia de habla espontánea, canales ruidosos, o variaciones continuas de tema y estilo de habla. Los reconocimientos de voz actuales se basan en encontrar la secuencia de palabras con un mejor ajuste a las observaciones, tanto a nivel acústico en base a modelos de palabra, como semántico y gramatical utilizando modelos de lenguaje. Para ello se aplican algoritmos que recorren de manera eficiente el espacio de búsqueda despreciando de manera temprana las hipótesis menos probables.

      El objeto de la presente tesis doctoral es la mejora de la tasa de reconocimiento a través de avances en el modelado de lenguaje. Para ello se atacan dos vertientes fundamentales: cómo aplicar el modelo de lenguaje en el reconocedor de la manera más temprana posible, y cómo adaptar el modelo de lenguaje para que se ajuste mejor a aquello que se desea reconocer. Para efectuar esta investigación se escogió la tarea de transcripción de noticias, creando para ello un nuevo marco experimental a partir de recursos limitados.

      En lo que se refiere a la aplicación del modelo de lenguaje, las mejoras fueron realizadas durante el desarrollo del reconocedor de la Universidad de Vigo, y se basan en técnicas para el acceso rápido a las bases de datos de probabilidades, así como algoritmos que intentan explotar la redundancia de los cálculos de manera que se minimice el número de cómputos necesarios. Estas modificaciones permiten aplicar modelos más complejos en las primeras fases de reconocimiento, permitiendo así guiar la búsqueda de manera más eficiente.

      Una vez finalizado el reconocedor de la Universidad de Vigo se construyó el marco experimental de transcripción de noticias para investigar la adaptación de modelos de lenguaje. Nuestro sistema de transcripción, denominado Transcrigal, goza de la particularidad de que está formado por una base de datos de noticiarios en gallego, en los cuales está presente asimismo una cantidad significativa de idioma castellano. Este bilingüismo es un factor novel y su tratamiento constituye un problema más a los problemas comunes de variedad de tema, locutor o estilo.

      La estimación de modelos de lenguaje adaptados para Transcrigal utiliza técnicas basadas en interpolación de modelos individuales, de manera que la mezcla de modelos esté adaptada a un tema, estilo y/o idioma concreto. Dentro de las estrategias de interpolación propondremos esquemas que aplican en paralelo varios modelos adaptados a pàrtir de particiones manuales del corpus de texto, así como un sistema basado en clustering jerárquico que ha dado buenos resultados. Esta estrategia, unida a la aplicación temprana del modelo de lenguaje, conduce a incrementos no despreciables en la tasa de reconocimiento.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno