Ayuda
Ir al contenido

Dialnet


Video indexing using multimodal information

  • Autores: Alberto Albiol Colomer
  • Directores de la Tesis: Lluís Torres Urgell (dir. tes.), J. Delp Edward (codir. tes.)
  • Lectura: En la Universitat Politècnica de València ( España ) en 2003
  • Idioma: español
  • Tribunal Calificador de la Tesis: Ferrán Marqués Acosta (presid.), José Prades Nebot (secret.), Fernando Pereira (voc.), Guillermo Cisneros Pérez (voc.), José Manuel Mossi García (voc.)
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • La presente tesis se centra el del desarrollo de algoritmos para el indexado de secuencias de vídeo empleando información de distintas modalidades: audio e imagen.

      La tesis se divide en dos partes. En la primera parte, se propone un sistema para la detección de tomas de vídeo en las que aparezcan caras humanas. Como resultado del sistema de detección se obtendrá un valor de confianza que se utiliza en un sistema global de indexación y búsqueda de secuencias de vídeo. El sistema global conocido como ViBE ha sido desarollado en la Universidad de Purdue y emplea diferentes características adicionales para realizar las búsquedas.

      La segunda parte de la tesis se centra en el reconocimiento de personas en secuencias de vídeo, con el fin de poder indexar aquellas partes donde un determinado personaje aparece. El reconocimiento se realiza empleando distintas modalidades. En primer lugar se empela únicamente información de imagen. Para ello, se propone un sistema combinado de detección-reconocimiento de caras. En segundo lugar, se considera únicamente información relativa al audio. En este caso, se han implementado técnicas de reconocimiento de personas basadas en la voz. Finalmente, se propone un sistema híbrido que emplea los resultados de las distintas modalidades audio-imagen, para crear un sistema multimodal más robusto y con mayor fiabilidad.

      En la tesis también se tratan otros aspectos relacionados con los sistemas anteriores. Por ejemplo, se hace un estudio sobre sistemas de detección de piel en imagen. Este paso se emplea en los distintos sistemas de detección de caras como paso previo para centrar la búsqueda. También se presenta un sistema para poder localizar aquellas partes de las secuencias de vídeo donde probablemente se va a encontrar un personaje hablando, y por tanto se pude aplicar el reconocimiento audiovisual.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno