Ayuda
Ir al contenido

Dialnet


Resumen de Bio-motivated features and deep learning for robust speech recognition

Fernando de la Calle

  • A pesar del enorme impulso que las tecnologías de reconocimiento del habla han experimentado durante los últimos cinco años, su aplicación en condiciones adversas como, por ejemplo, en presencia de alto ruido, dista bastante de la capacidad de reconocimiento que tenemos los humanos. Esto ocasiona a menudo que su implantación práctica no se pueda llevar a cabo. En esta Tesis se aborda el desafío del reconocimiento de habla robusto desde dos perspectivas.

    La primera se centra en modelar el sistema auditivo humano para mejorar la robustez del proceso de extracción de características. Se han concebido dos contribuciones principales.

    Por una lado, modelamos el fenómeno de enmascaramiento del sistema auditivo humano utilizando para ello un filtrado no lineal del espectro que se aplica simultáneamente en los dominos del tiempo y la frecuencia.

    En concreto e inspirándonos en técnicas de procesado de imagen, utilizamos operaciones de morfología matemática con un elemento estructurante específicamente diseñado para emular los fenómenos de enmascaramiento que se producen en la cóclea.

    Por otra parte, hemos modelado los patrones temporales de los impulsos nerviosos que se transmiten a través del nervio auditivo.

    La mayoría de las características acústicas convencionales se basan en el cálculo de la energía por banda de frecuencia durante un periodo corto de tiempo, descartando la información temporal contenida en estos patrones.

    Nuestra contribución consiste en el diseño de diversos esquemas de extracción de características capaces de sacar partido de dichos patrones a través del efecto de sincronía que se produce en el nervio auditivo.

    Con ello demostramos que el modelado de este efecto puede mejorar la precisión del reconocimiento de habla en presencia de ruido aditivo.

    Ambas contribuciones se integraron en el conocido esquema de los llamados PNCC (Coeficientes Cepstrales Normalizados en Potencia).

    La segunda línea de investigación abunda en el tema de la mejora de la robustez mediante técnicas de aprendizaje profundo y en particular, utilizando redes neuronales convolucionales (CNN). Nuestra propuesta consiste en la adaptación de las conocidas como ResNet o redes residuales, introducidas inicialmente en el ámbito de procesado de imagen, para su uso en reconocimiento del habla, donde la dimensión de entrada es menor, en comparación con las dimensiones habituales empleadas en aplicaciones de visión artificial.

    Hemos comprobado que las ResNet por sí solas ya aumentan la robustez de todo el sistema frente a condiciones adversas pero además, nuestros experimentos demuestran que su combinación con las características propuestas en esta tesis proporciona mejoras significativas comparadas con otras CNN del estado del arte. Esta ventaja aparece cuando las condiciones de los conjuntos de entrenamiento y test no coinciden (mismatch conditions o condiciones desajustadas), manteniendo al mismo tiempo el rendimiento en conjuntos con similares condiciones (matched conditions o condiciones ajustadas).

    Los métodos propuestos han sido ampliamente probados y comparados con otros del estado del arte, con una amplia variedad de bases de datos y condiciones. Los resultados obtenidos demuestran que nuestros métodos mejoran otras aproximaciones y resultan especialmente indicados en aplicaciones prácticas donde se desconocen a priori las condiciones de operación.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus