Ayuda
Ir al contenido

Dialnet


Resumen de Procesamiento de señales de Habla basado en Deep Learning

Astryd González Salazar, Michelle Gutiérrez Muñoz

  • El procesamiento de señales de audio es necesario para la transmisión, reconocimiento y almacenaje de este tipo información. Dado que el registro de señales como el habla se realiza en ambientes no ideales, éstas se ven contaminadas con ruido y distorsión, por lo cual se requieren métodos externos de filtrado o reconstrucción. Durante las últimas décadas se han desarrollado diversos algoritmos para mejorar la calidad de estas señales y de esta manera permitir a los distintos procesos y aplicaciones trabajar de una manera más adecuada, tales como el reconocimiento automático del habla y los dispositivos de comunicación alternativa para personas con discapacidad.En esta línea, deep learning, es decir, la implementación de redes neuronales profundas, ha presentado resultados relevantes en la mejora de señales ruidosas y con reverberación. En la pre-sente investigación se ha experimentado con redes recurrentes de memoria a corto y largo plazo (LSTM) para mostrar mejoras significativas en el filtrado de señales.Adicionalmente, debido al alto costo computacional del entrenamiento de este tipo de mode-los de aprendizaje de máquina, se proponen el uso de redes mixtas, combinando LSTM con mode-los clásicos como el perceptrón, y de esta manera disminuir los tiempos entrenamiento, al mismo tiempo que se mantiene la eficacia de los modelos más complejos. Asimismo, se propuso el uso de transfer learning, para aumentar la eficiencia del sistema y disminuir el tiempo de entrenamiento.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus