Esta tesis aborda el problema del reconocimiento del habla dialectal. La tesis se centra en el idioma español con el objetivo de diseñar un sistema de reconocimiento automático del habla multidialectal que ofrezca un comportamiento similar para los diferentes dialectos del español. Teniendo en cuenta los factores que provocan un descenso en la calidad de reconocimiento de un sistema ante el habla dialectal, esta tesis plantea la investigación de nuevas técnicas de modelado acústico-fonético multidialectal y modelado de la variación en la pronunciación. El uso de trascripciones fonéticas canónicas, adaptadas de forma específica a cada variante, supone tratar cada dialecto de forma diferente. Con el objetivo de disponer de una trascripción común a todos los dialectos del español, que evite la diversificación de formas de transcribir para cada variante, y permita prescindir de la información del dialecto, se presenta el diseño de un nuevo método de trascripción, una nueva trascripción global para ser usada de igual forma por cualquier variante. Para ello se caracteriza fonéticamente los dialectos del español y se utiliza la información para marcar aquellos fonemas que se realizan de forma diferente entre variantes.
En el área de modelado acústico se desea obtener un conjunto de modelos acústicos multidialectales aprovechando al máximo los recursos y datos disponibles. Se plantea el estudio y comparación de técnicas basadas en el uso de árboles de decisión para agrupar las unidades acústicas de diferentes dialectos. Además del uso de la estructura de árbol con múltiples raíces (una para cada unidad del inventario fonético), se propone el uso de un árbol con una única raíz para agrupar todas las unidades. En cuanto al punto de partida del modelado contextual se contemplan dos opciones: partir de la definición de un inventario fonético global o partir directamente de modelos contextuales de cada dialecto. Combinando las estructuras de árbol con los puntos de inicio del modelado contextual surgen cuatro estrategias diferenciadas para la obtención del conjunto de modelos acústicos multidialectales. Estas estrategias se evalúan haciendo uso de las trascripciones canónicas y de la trascripción global propuesta. También se realiza un análisis de los árboles resultantes para evaluar el grado de datos compartidos y la similitud de los modelos de los diferentes dialectos.
La propuesta en el modelado de la variación en la pronunciación consiste en el diseño de un método para modelar variaciones en la pronunciación basado en el aprendizaje de reglas de forma automática a partir de datos. La principal aportación dentro del método es el diseño del algoritmo de inferencia jerárquico de reglas HIEGRI. Este algoritmo genera un grafo de reglas de re-escritura que modela cada transformación en la pronunciación respecto a una trascripción canónica. La propuesta se completa con el diseño de una metodología de selección de reglas finales que realiza una poda a los grafos y calcula la probabilidad de cada regla. La técnica propuesta se valida mediante su uso para el modelado de la variación en la pronunciación del español de España. El modelado se aplica tanto a nivel léxico como a nivel de modelado acústico, permitiendo obtener unos modelos acústicos mejorados.
Por último, se propone un sistema independiente del dialecto integrando la trascripción global, un conjunto de modelos acústicos independientes del dialecto, y el modelado de la variación en la pronunciación común para todos los dialectos, diseñado para tratar la variabilidad no abarcada por los modelos acústicos multidialectales.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados