La detección de regiones estables dentro de una señal de voz es necesaria en muchos sistemas de procesado del habla. Las vocales se corresponden precisamente con regiones de gran estabilidad, por lo que su detección automática puede ser muy conveniente. Este trabajo presenta un sistema de detección automática de vocales en la voz, mediante un identificador basado en modelos HMM de grupos fonéticos. Estos grupos fonéticos, creados según la similitud acústica de los fonemas, son la clave para el correcto funcionamiento del sistema en diferentes idiomas. Aunque los modelos han sido entrenados para euskera, las pruebas realizadas sobre bases de datos en euskera y en alemán demuestran que el sistema permite detectar las vocales y sus fronteras temporales con una precisión aceptable en ambos idiomas.
Many speech signal processing systems require the detection of regions of stability within the signal. As vowels form great stability regions, a system capable of detecting them automatically in the speech is very convenient. This work presents such a system, which uses HMM models of phonetic clusters created according to the acoustic similarities among the phonemes. These clusters are the key element for the system to work correctly in different languages. Although models were trained in Basque, tests were carried out in both Basque and German speech databases showing that the system is able to detect the vowels and their boundaries with acceptable accuracy in both languages.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados