Astryd González Salazar, Michelle Gutiérrez Muñoz
El procesamiento de señales de audio es necesario para la transmisión, reconocimiento y almacenaje de este tipo información. Dado que el registro de señales como el habla se realiza en ambientes no ideales, éstas se ven contaminadas con ruido y distorsión, por lo cual se requieren métodos externos de filtrado o reconstrucción. Durante las últimas décadas se han desarrollado diversos algoritmos para mejorar la calidad de estas señales y de esta manera permitir a los distintos procesos y aplicaciones trabajar de una manera más adecuada, tales como el reconocimiento automático del habla y los dispositivos de comunicación alternativa para personas con discapacidad.En esta línea, deep learning, es decir, la implementación de redes neuronales profundas, ha presentado resultados relevantes en la mejora de señales ruidosas y con reverberación. En la pre-sente investigación se ha experimentado con redes recurrentes de memoria a corto y largo plazo (LSTM) para mostrar mejoras significativas en el filtrado de señales.Adicionalmente, debido al alto costo computacional del entrenamiento de este tipo de mode-los de aprendizaje de máquina, se proponen el uso de redes mixtas, combinando LSTM con mode-los clásicos como el perceptrón, y de esta manera disminuir los tiempos entrenamiento, al mismo tiempo que se mantiene la eficacia de los modelos más complejos. Asimismo, se propuso el uso de transfer learning, para aumentar la eficiencia del sistema y disminuir el tiempo de entrenamiento.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados