Ayuda
Ir al contenido

Dialnet


Resumen de Integración de audio y video en reconocimiento biométrico

Santiago Cruz Llanas

  • La Tesis recoge un detallado estudio de las tecnologías de reconocimiento de locutor y de identificación facial, planteando y analizando diferentes estrategias de fusión de ambas tecnologías biometricas.

    La Tesis se divide en dos partes fundamentales. La primera es una introducción al ámbito de la biometría y una presentación del estado del arte en todos los temas que se abordan posteriormente desde una perspectiva práctica: verificación biométrica, reconocimiento de locutor, reconocimiento facila y biometría multimodal voz-cara.

    En la segunda parte de la Tesis se describen sistemas de reconocimiento de locutor y reconocimiento facial. En reconocimiento de voz se utiliza parametrización MFCC y modelos de mezclas gaussianas (GMM) entrenados mediante técnicas MAP. En reconocimiento facial se analizan diferentes diseños, aunque se presta mayor atención a los métodos relacionados con álgebra lineal, reducción de la dimensión y modelos estadísticos (PCA, LDA, etc.).

    La parte más innovadora de la Tesis es la correspondiente a fusión multimodal.

    Se analizan formas de combinar las puntuaciones ofrecidas por los reconocedores de voz y cara. Se proponen métodos de normalización de puntuaciones y diferentes reglas de fusión. Todos los experimentos realizados en la Tesis siguen el protocolo de evaluación de Lausanne asociado a la base de datos XM2VTS.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus