Resumen de Segmentación automática de voz basada en modelos ocultos de Markov y características acústicas

Un aspecto muy importante en el ámbito de las tecnologías del habla, lo constituyen las bases de datos segmentadas y etiquetadas de forma precisa ya sea a nivel fonético, de sub-palabra o de palabra. Sin embargo, un etiquetado y segmentación manual es una tarea que consume mucho tiempo y muy propensa a errores. Este artículo describe un procedimiento automático para realizar la segmentación de voz en un conjunto de unidades acústicas: dado el contenido fonético o lingüístico de una locución, el sistema proporciona las fronteras temporales de las unidades. La técnica se basa en el uso de un reconocedor que utiliza modelos ocultos de Markov (HMMs) para modelar cada una de las unidades acústicas. Dicho reconocedor proporciona una segmentación burda inicial obtenida a través de un alineamiento de Viterbi, la cual será refinada posteriormente por medio de una "segmentación acústica" y un pequeño conjunto de reglas basadas en características acústicas. Estas reglas representan conocimiento fonético y su finalidad consiste en la corrección de errores de segmentación inesperados, los cuales son un principal problema de los reconocedores basados en HMMs.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: