La presente Tesis se centra en el uso de técnicas modernas de optimización y de procesamiento de audio para la localización precisa y robusta de personas dentro de un entorno reverberante dotado con agrupaciones (arrays) de micrófonos. En esta tesis se han estudiado diversos aspectos de la localización sonora, incluyendo el modelado, la algoritmia, así como el calibrado previo que permite usar los algoritmos de localización incluso cuando la geometría de los sensores (micrófonos) es desconocida a priori.
Las técnicas existentes hasta ahora requerían de un número elevado de micrófonos para obtener una alta precisión en la localización. Sin embargo, durante esta tesis se ha desarrollado un nuevo método que permite una mejora de más del 30\% en la precisión de la localización con un número reducido de micrófonos. La reducción en el número de micrófonos es importante ya que se traduce directamente en una disminución drástica del coste y en un aumento de la versatilidad del sistema final. Adicionalmente, se ha realizado un estudio exhaustivo de los fenómenos que afectan al sistema de adquisición y procesado de la señal, con el objetivo de mejorar el modelo propuesto anteriormente. Dicho estudio profundiza en el conocimiento y modelado del filtrado PHAT (ampliamente utilizado en localización acústica) y de los aspectos que lo hacen especialmente adecuado para localización.
Fruto del anterior estudio, y en colaboración con investigadores del instituto IDIAP (Suiza), se ha desarrollado un sistema de auto-calibración de las posiciones de los micrófonos a partir del ruido difuso presente en una sala en silencio. Esta aportación relacionada con los métodos previos basados en la coherencia. Sin embargo es capaz de reducir el ruido atendiendo a parámetros físicos previamente conocidos (distancia máxima entre los micrófonos). Gracias a ello se consigue una mejor precisión utilizando un menor tiempo de cómputo. El conocimiento de los efectos del filtro PHAT ha permitido crear un nuevo modelo que permite la representación 'sparse' del típico escenario de localización. Este tipo de representación se ha demostrado ser muy conveniente para localización, permitiendo un enfoque sencillo del caso en el que existen múltiples fuentes simultáneas.
La última aportación de esta tesis, es el de la caracterización de las Matrices TDOA (Time difference of arrival -Diferencia de tiempos de llegada, en castellano-). Este tipo de matrices son especialmente útiles en audio pero no están limitadas a él. Además, este estudio transciende a la localización con sonido ya que propone métodos de reducción de ruido de las medias TDOA basados en una representación matricial 'low-rank', siendo útil, además de en localización, en técnicas tales como el beamforming o el autocalibrado.
This thesis deals with the problem of indoor acoustic source localization using modern optimization strategies. It includes modeling, algorithms, and calibration, which allows using localization algorithms even when the geometry of the microphones is unknown. The aim of this thesis is to localize robustly and accurately speakers within a reverberant environment equipped with array of microphones.
The previous exiting techniques usually required a high number of microphones in order to get high accuracy. During this thesis, we have develop a new method which improves up to 30% the localization accuracy with a reduced number of microphones. Using a low number of microphones is important since it directly reduce the cost and improve the versatility of the final system.
On the other hand, we have performed a exhaustive analysis about the PHAT filtering (broadly used in acoustic localization), including all the phenomena involved in acquisition and signal processing. Our analysis improves the knowledge about PHAT filtering, modeling the main aspects involved in acoustic localization.
Previous model has yielded a sparse representation of the acoustic source localization scenario. This kind of representation has been demonstrated very convenient for localization since it allows to deal with multiple simultaneous sources easily.
Additionally, we have proposed a method for the calibration of pairwise distance using the diffuse noise present in a silent room. The new algorithm is related with previous methods based in coherence. Nevertheless, applying the developed model for PHAT filtering we have been able to introduce physical constraints based on the maximum expected distance between microphones. It allows to improve accuracy and reducing the computational cost.
Finally but not least, we have characterize TDOA matrices. We have propose several methods to robust denoise TDOA measurements exploiting low-rank properties of TDOA matrices. Therefore, these methods are not limited to acoustic source localization, but are useful for other techniques such as self-calibration and beamforming, and other technologies (e.g. radar, ultrasound).
© 2001-2024 Fundación Dialnet · Todos los derechos reservados