Ayuda
Ir al contenido

Dialnet


Resumen de Advances on audio segmentation and audio content description for multimedia documents

Diego Castán Lavilla

  • Debido al aumento de los contenidos multimedia, existe un inter\'es significativo en el an\'alisis multimedia. Esta tesis tiene como objetivo proporcionar informaci\'on extra\'ida del audio sin habla para recuperar e identificar documentos multimedia.

    La tesis se centra en la detecci\'on de eventos multimedia complejos utilizando t\'ecnicas supervisadas. Con este fin, los sonidos que no provienen del habla pueden ser cr\'iticos, ya que contienen informaci\'on sobre el contexto o las actividades donde se desarrolla la acci\'on. Los sonidos sin habla se componen de segmentos de ruido o m\'usica y de peque\~nos sonidos informativos denominados `` Conceptos Ac\'usticos '' en la literatura. Sin embargo, la variabilidad de los sonidos sin habla es muy alta por lo que se requieren t\'ecnicas de compensaci\'on.

    En primer lugar, se estudian diferentes t\'ecnicas supervisadas para detecci\'on de eventos multimedia y proponemos una soluci\'on en la que se utilizan las celos\'ias (lattices) del reconocimiento de conceptos ac\'usticos basados en HMM para extraer recuentos de N-gramas. Este enfoque se compara con una t\'ecnica no supervisada y se fusion\'o con una soluci\'on basada en conceptos hablados. La fusi\'on muestra la tremenda importancia de tener un buen sistema de segmentaci\'on y un buen detector de conceptos ac\'usticos.

    Por lo tanto, en segundo lugar, se propone un sistema de segmentaci\'on por clasificaci\'on basada en el an\'alisis factorial con dos ventajas claras. El sistema no necesita caracter\'isticas dependientes de la clase ni tampoco precisa de una estructura jer\'arquica para clasificar las diferentes clases y el algoritmo compensa la variabilidad dentro de la clase con una alta precisi\'on, por lo que es capaz de clasificar clases bien definidas en tareas gen\'ericas. El m\'etodo propuesto se aplica para segmentar y clasificar audios provenientes de programas de televisi\'on y se compara con un sistema jer\'arquico con caracter\'isticas ac\'usticas espec\'ificas logrando una reducci\'on de errores significativa.

    Por \'ultimo, se estudia la compensaci\'on de variabilidad para la detecci\'on de conceptos ac\'usticos. Comparamos el rendimiento del sistema de an\'alisis factorial propuesto para la segmentaci\'on con soluciones ampliamente utilizadas. La primera aproximaci\'on al problema se realiza mediante la clasificaci\'on de conceptos aislados que han sido generados artificialmente. A continuaci\'on, la clasificaci\'on y la detecci\'on de los conceptos generados espont\'aneamente son estudiados y se señalan los inconvenientes del sistema propuesto.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus