Perceptually-based signal features for environmental sound classification

Xavier Valero González

Ayuda

Perceptually-based signal features for environmental sound classification

Autores: Xavier Valero González
Directores de la Tesis: Francesc Alías (dir. tes.)
Lectura: En la Universitat Ramon Llull ( España ) en 2013
Idioma: español
Tribunal Calificador de la Tesis: Climent Nadeu Camprubí (presid.), Xavier Sevillano Domínguez (secret.), Julien Pinquier (voc.), Stavros Ntalampiras (voc.), Antti Johannes Eronen (voc.)
Materias:
Texto completo no disponible (Saber más ...)
Resumen
- Esta tesis plantea el problema de la clasificación automática de sonidos ambientales, es decir, cualquier sonido diferente al habla o a la música que se encuentre en el medio ambiente. En términos generales, se requieren dos grande procesos para llevar a cabo dicha clasificación: la extracción de descriptores de la señal con el fin de componer patrones representativos de cada tipo de sonido y la técnica de aprendizaje máquina que efectúa la clasificación de dichos patrones. El objetivo principal de esta investigación se centra en el primer proceso, estudiando descriptores de las señales que representen de manera óptima las características de cada sonido, ya que, según varias referencias, es un punto clave para lograr un reconocimiento robusto. Este tipo de señales de audio poseen diferencias significativas con respecto a las señales del habla o de la música. Por lo tanto, los descriptores de la señal deben ser determinados y adaptados a sus características propias. En este sentido, se proponen descriptores inspirados por el sistema auditivo y la percepción sonora humana para mejorar la representación y clasificación de las señales sonoras ambientales.
  
  En primer lugar, en el análisis del dominio espectral de la señal, se proponen y adaptan a la clasificación de sonido ambiental unos coeficientes Cepstrales computados con filtros biológicamente inspirados Gammatone, obteniendo los llamados Gammatone Cepstral Coefficients (GTCC). Los resultados experimentales muestran un incremento en las tasas de clasificación cuando usamos los GTCC en lugar de los clásicos Mel Frequency Cepstral Coefficients (MFCC) para describir cualquiera de los conjuntos de sonidos ambientales testeados. La mejora es atribuida a una mejor recopilación de la información espectral de la señal, especialmente cuando los detalles o particularidades aparecen en bandas bajas de frecuencia.
  
  En segundo lugar, la información del dominio temporal de la señal es introducida acorde con las características específicas de cada conjunto de sonidos ambientales. Por un lado, se proponen los coeficientes Wavelets Gammatone (GTW) para parametrizar sonidos relacionados con aplicaciones de vigilancia, dado que conjugan el óptimo análisis espectral de los filtros Gammatone con la capacidad de captar eventos impulsivos o de corta duración de la transformada espectro-temporal de Wavelet. Por otro lado, se proponen los descriptores Narrow-Band Autocorrelation Function (NB-ACF) para parametrizar señales de paisajes sonoros, dada su capacidad para extraer las complejas características de dichos paisajes sonoros compuestos por múltiples y coexistentes eventos sonoros. En este caso, los descriptores NB-ACF son capaces de representar sonidos espectralmente no superpuestos gracias al análisis detallado (consistente en la parametrización de la función de autocorrelación mediante cinco parámetros perceptuales) realizado independientemente en cada banda espectral. Los NB-ACF superan a los MFCC independientemente de la técnica de aprendizaje máquina utilizada, especialmente cuando son calculados un banco de filtros Gammatone. Por último, se estudia el caso particular de la clasificación de fuentes de ruido ambiental que afectan a la salud y calidad de vida de las personas. En trabajos preliminares se detectó la dificultad de distinguir entre fuentes de ruido de tráfico (coche, camión, moto). Con el objetivo de mejorar la clasificación de dichas fuentes de ruido, se propone un sistema de clasificación jerárquica que considera las distintas fases del paso de un vehículo. Las fases de paso se refiere a las fases en que se puede dividir el paso de un vehículo y que son perceptualmente distinguibles: aproximación, paso y alejamiento. El esquema propuesto, que usa modelos de mezcla de Gaussianas, proporciona una precisión en la clasificación comparable a una aproximación clásica con modelos ocultos de Markov (técnica de aprendizaje que contempla intrínsecamente la evolución temporal de la señal) pero con unos requisitos computacionales notablemente inferiores.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Opciones de compartir

Opciones de entorno

Sugerencia / Errata

Coordinado por: