Generalmente, el rendimiento de los sistemas de reconocimiento de locutor se mide en condiciones ideales, donde la voz es relativamente limpia, los usuarios son colaborativos, y hay suficientes datos disponibles para entrenar modelos de locutor y de canal. No obstante, cuando aplicamos verificación de locutor en entornos reales nos enfrentamos a retos que merecen investigación en profundidad. Esta tesis aborda algunos de ellos.
El rendimiento de los sistemas de verificacio ¿n puede empeorar debido a múltiple causas: ruido, reverberación, idiomas o canales distintos de los utilizados en la fase de desarrollo, etc. De este modo, saber que podemos confiar en las decisiones del sistema de verificación es fundamental. Esto nos motivó a estudiar formas de estimar la fiabilidad de las decisiones. Trabajamos en soluciones basadas en redes bayesianas. Las redes modelan las relaciones de causalidad entre la fiabilidad de la decisión, el score del sistema de verificación, y un conjunto de medidas de calidad calculadas sobre las señales de inscripción y test del trial. La contribución más importante de esta tesis, en este aspecto, es una red bayesiana que describe cómo varían las distribuciones de scores cuando los audios del trial están distorsionados. Esta red supone que existen dos scores: uno observado y otro oculto. El score observado o score ruidoso es el que se obtiene del sistema de verificación, mientras que el score oculto o score limpio es un score ideal que se obtendría si se tuviese voz de alta calidad. A partir de la distribución a posteriori del score limpio, se puede inferir la fiabilidad del trial. Esta aproximación consiguió mejores resultados que métodos previos.
Actualmente, el paradigma de los i-vectors es el estado del arte en verificación de locutor superando, en la mayoría de tareas, al joint factor analysis o los support vector machines (SVM). Por esta razón, otra de las partes de la tesis se enfocó en problemas que aparecen cuando se modelan las distribuciones de i-vectors. Se consideró el problema de tener simultáneamente i-vectors grabados en diferentes condiciones como múltiples tipos de canal, tipos o niveles de ruido. Introdujimos una variante de probabilistic discriminant analysis (PLDA) que intenta aproximar este problema de manera teóricamente correcta permitiendo que existan diferente distribuciones de canal para cada condición. Otro problema que se abordó fue como tener en cuenta la incertidumbre acerca de los parámetros del modelo que existe cuando la cantidad de datos de desarrollo es pequeña en comparación con la dimensión de los i-vectors. Se propuso calcular la distribución a posteriori del modelo dados los datos de desarrollo, y después usar esta distribución para evaluar los ratios de verosimilitud integrando los para ¿metros del modelo. Con este método se obtuvo una mejora significativa con i-vectors sin normalización en longitud. Finalmente, se abordó el problema de entrenar PLDA en dominios con escasos datos de desarrollo. Se propuso adaptar un modelo entrenado para otro dominio, con datos suficientes, al dominio de interés usando Maximum a posteriori.
En la última parte de la tesis, nos interesamos por los ataques a sistemas de verificación de locutor. Se trabajó en detectar ataques de spoofing y tampering. Ambos ataques tienen intenciones opuestas. Mientras que el spoofing intenta que un impostor suplante la identidad del usuario bajo test, el tampering intenta ocultar la identidad del locutor para no ser detectado. Nos enfocamos en ataques de baja tecnología, los cuales pueden ser llevados a cabo por cualquier criminal sin necesidad de tener conocimientos de procesado de voz. En el caso del spoofing, se estudiaron ataques basados en grabar la voz del usuario y reproducirla sobre el sistema. En sistemas dependientes del texto, el ataque también implica crear la contraseña cortando y pegando extractos de varias grabaciones de la víctima. En cuanto al tampering, se estudiaron ataques basados en cubrir la boca con la mano o con un pañuelo; y denasalización pellizcando las fosas nasales. Los sistemas para detectar los ataques estuvieron basados en características acústicas y clasificadores Gaussian mixture models y SVM; y seguimiento de contornos de Mel filtered cepstral coefficients y pitch. La fusión del verificador de locutor con los detectores de ataques mejoró la robustez del sistema.
Abordar los asuntos arriba descritos es crucial para poder aplicar verificación de locutor en el mundo real. En un amplio rango de aplicaciones ¿desde forenses a banca¿, se necesita evaluar si las decisiones del verificador de locutor son fiables dado que los errores pueden acarrear grandes pérdidas. Para mejorar la fiabilidad, los modelos estadísticos deben estar optimizados para la tarea en cuestión. Los nuevos métodos de modelado deberían entrenar modelos lo más generales posible o ser capaces de adaptar modelos entre dominios necesitando para ello los mínimos recursos. Finalmente, las medidas contra ataques mejorarían la aceptación de los sistemas de biometría de voz. Se necesitan recursos y protocolos de evaluación comunes para poder avanzar en este campo y fomentar la colaboración entre instituciones.
© 2001-2026 Fundación Dialnet · Todos los derechos reservados