Ayuda
Ir al contenido

Dialnet


Estudio y modelización acústica del habla espontanea en diálogos hombre/máquina y entre personas

  • Autores: Luis Javier Rodríguez Fuentes
  • Directores de la Tesis: María Inés Torres Barañano (dir. tes.)
  • Lectura: En la Universidad del País Vasco - Euskal Herriko Unibertsitatea ( España ) en 2004
  • Idioma: español
  • Tribunal Calificador de la Tesis: José Bernardo Mariño Acebal (presid.), Amparo Varona Fernández (secret.), Francisco Casacuberta Nolla (voc.), Antonio Moreno Sandoval (voc.), Eduardo Lleida Solano (voc.)
  • Texto completo no disponible (Saber más ...)
  • Resumen
    • En esta tesis se describe, en primer lugar, un nuevo esquema de anotación de fenómenos de habla espontánea, así como su aplicación a dos bases de datos, una de ellas ligada a una tarea y formada por diálogos hombre-máquina, y la otra completamente genérica y formada por diálogos naturales entre personas. Se ha estudiado y comparado la distribución de fenómenos en ambas bases de datos, su dependencia de la duración y de la identidad del hablante, así como la posibilidad de utilizar fenómenos acústicos, léxicos y pragmáticos para predecir la presencia de reformulaciones. A continuación se describen las características principales del sistema de reconocimiento del GRFyTH, dedicando una mayor extensión a los modelos acústicos y las alternativas de estimación. Se presentan resultados de decodificación acústico-fonética (DAF) y de reconocimiento que muestran la degradación que experimentan los sistemas de reconocimiento frente al habla espontánea. Para reducir dicha degradación, en primer lugar se propone modelar explícitamente los fenómenos de tipo acústico. Esto conduce a reducciones sustanciales del error, de entre el 11 y el 13% en DAF y de hasta el 20% en reconocimiento.

      Por último se propone un algoritmo de clustering que trata de identificar automáticamente conjuntos de hablantes con características similares, de manera que sea posible, para cada señal de entrada, elegir el grupo de hablantes más afín, lo cual debería mejorar el rendimiento. Tanto el algortimo de clustering como la función de selección están basadas en un modelo acústico muy simple que, sin embargo, muestra una gran precisión y coherencia. Aunque los modelos de grupos de hablantes no mejoran el rendimiento de los modelos de género, tienen muchas posibilidades de éxito si se aplican sobre bases de datos lo bastante grandes, que permitan obtener estimaciones robustas de los modelos acústicos.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus

Opciones de compartir

Opciones de entorno