Ayuda
Ir al contenido

Dialnet


Reconocimiento de voz codificada sobre redes IP

  • Autores: José Luis Carmona Maqueda
  • Directores de la Tesis: José Luis Pérez Córdoba (dir. tes.), Antonio Miguel Peinado Herreros (codir. tes.)
  • Lectura: En la Universidad de Granada ( España ) en 2009
  • Idioma: español
  • Tribunal Calificador de la Tesis: José Carlos Segura Luna (presid.), Ángel Manuel Gómez García (secret.), Eduardo Lleida Solano (voc.), Tim Fingscheidt (voc.), Carmen Peláez Moreno (voc.)
  • Enlaces
    • Tesis en acceso abierto en: DIGIBUG
  • Resumen
    • El rápido desarrollo de diversas redes inalámbricas, como por ejemplo 3G, redes WiFi y Bluetooth, ha propiciado que los terminales móviles incrementen sustancialmente su conectividad. Paralelamente, estos dispositivos tienden a reducir sus dimensiones para aumentar su portabilidad, lo que dificulta la accesibilidad de sus interfaces. Esta tendencia imposibilita, en cierta medida, el desarrollo de nuevos servicios sobre redes inalámbricas. Por ello, se hace necesario el desarrollo de nuevos interfaces, que proporcionen una fácil interacción multimodal, para la próxima generación de dispositivos móviles. En este escenario, el reconocimiento automático del habla es un camino prometedor para un acceso fácil y natural a nuevas aplicaciones. Sin embargo, los terminales móviles se caracterizan por tener una capacidad de cómputo restringida, así como una duración de batería limitada. El reconocimiento remoto de voz permite salvar estas restricciones ubicando las tareas de mayor coste computacional en un servidor remoto, es decir, fuera del propio dispositivo móvil.

      Uno de los aspectos claves del panorama actual de las telecomunicaciones es la convergencia de las distintas redes inalámbricas hacia las redes IP. Así, en un futuro cercano, este tipo de redes presentarán un alcance prácticamente global, posibilitando el reconocimiento remoto de la voz de forma ubicua. Como desventaja, estas redes resultan propensas a pérdidas de paquetes, ya que no fueron originariamente diseñadas para la transmisión de datos en tiempo real.

      El interés de esta tesis se centra en el análisis de las degradaciones ocasionadas por las pérdidas de paquetes sobre el reconocimiento de voz codificada, así como la propuesta y posterior desarrollo de soluciones para prevenir, reducir y compensar los efectos degradantes. El rendimiento de la arquitectura de reconocimiento remoto vendrá supeditado a la robustez del esquema de codificación de voz utilizado. Los codificadores convencionales consiguen reducir sustancialmente la tasa de transmisión haciendo uso de técnicas predictivas que explotan las correlaciones temporales de la voz. No obstante, estas técnicas predictivas introducen fuertes dependencias intertrama, de modo que una pérdida de un paquete no sólo afecta al segmento de voz correspondiente, sino que además genera una propagación de error en los paquetes posteriores, reduciendo severamente la precisión del reconocimiento. Por otro lado, los decodificadores integran sus propios algoritmos de mitigación de pérdidas, los cuales están basados en consideraciones perceptuales que no son adecuadas para las tareas de reconocimiento. Para combatir estas degradaciones, proponemos diferentes técnicas, las cuales pueden dividirse en dos clases en función de si actúan en el emisor o en el receptor.

      En cuanto a las técnicas basadas en el emisor, en esta tesis realizamos dos propuestas. La primera de ellas consiste en llevar a cabo una combinación de diferentes esquemas de codificación, mezclando tramas independientes y dependientes, de modo que, por un lado, se consigue limitar la posible propagación de error (tramas independientes) y, por otro, se obtiene una tasa de codificación moderada (tramas dependientes). La segunda de las propuestas emplea códigos FEC específicos, basados en la codificación multipulso, que permiten reducir la propagación de error mediante un incremento limitado de la tasa de codificación. Ambas técnicas, además de aumentar la precisión de reconocimiento, consiguen mejorar la calidad perceptual en la síntesis de voz.

      Por otra parte, también proponemos un conjunto de técnicas de mitigación basadas en el receptor. En este caso, el proceso de reconstrucción se lleva a cabo mediante estimación MMSE. Esta técnica consigue buenos resultados ya que emplea un modelado estadístico de la evolución temporal de la voz y de las distorsiones originadas por las pérdidas. Además, esta técnica permite determinar valores de confianza asociados a las reconstrucciones realizadas, los cuales pueden ser utilizados para tratar las pérdidas en el propio reconocedor.

      Finalmente, en esta tesis se proponen esquemas para la transformación directa de los parámetros de voz codificada en vectores de características para el reconocimiento, a los que nos referimos como transaparametrizadores. Estas soluciones permiten soslayar ciertas consideraciones preceptúales del proceso de decodificación de voz, las cuales no son oportunas para el reconocimiento, así como adaptar eficientemente las técnicas basadas en el receptor.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno