Ayuda
Ir al contenido

Dialnet


Resumen de Estrategias de generación y reducción de variantes de pronunciación en sistemas de reconocimiento automático de habla: consideraciones arquitecturales

Javier Macías Guarasa, Juan Manuel Montero, Javier Ferreiros López, Ricardo de Córdoba, José David Romeral

  • español

    En el contexto de sistemas de reconocimiento de habla de gran vocabulario es fundamental modelar de forma adecuada las variaciones sinfónicas con las que se enfrentará el sistema en una tarea real. En zata comunicación describimos un estudio sobre la introducción de variantes de pronunciación dirigidas por datos, abordando tanto los procesos de generación y reducción de las mismas como los de evaluación de su impacto en la lasa del sistema. Las técnicas descritas se acompañan del correspondiente trabajo experimental, sobre dos sistemas radicalmente distintos en relación a su potencia de discriminación (basados en arquitecturas integrada y no integrada, pensadas para trabajar como módulos de hipótesis y verificación, respectivamente), de modo que es posible obtener conclusiones razonadas sobre el funcionamiento de cada uno de ellos en relación al incremento del tamaño de los diccionarios. Los resultados más relevantes muestran cómo, para el caso de la arquitectura no integrada es posible incrementar notablemente su lasa de inclusión, incluso para incrementos muy importantes del tamaño del diccionario (de basta un 250%). Por el contrario, el incremento del número de variaciones tiene un efecto claramente negativo, cuando se utiliza el sistema integrado.

  • English

    In the context of large vocabulary speech recognition systems, it is crucial to accurately model the allophonic variations that will be found in a real world task. In this paper we describe a study on the use of data driven pronunciation variations, considering the generation and reduction strategies, as well as their impact in the system performance. The described techniques are supported by the corresponding experimental evaluation on two radically different systems in what respect to their discrimination power (based on integrated and non-integrated architectures, designed to work as hypothesis and verification modules, respectively), so that it's possible to discuss on their relative performance as a function of the increase in dictionary size. The most relevant results show that in the case of the non integrated architecture, we can significantly improve the inclusion rate, even for huge increases in dictionary size (up to 250%). On the contrary, the increase in the number of pronunciation variants has a clearly negative effect when applied to the integrated system.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus