Resumen de Comparison of intensity-based methods for automatic speech rate computation

Ayuda

Resumen de Comparison of intensity-based methods for automatic speech rate computation

Wendy Elvira García , Mireia Farrús , Juan María Garrido Almiñana

español
El cálculo automático de la velocidad de habla es una tarea fonética útil y que además se hace indispensable cuando no hay disponible una transcripción manual a partir de la cual determinar una tasa de habla manual. Se han desarrollado varias herramientas para este fin, pero todavía no se ha llevado a cabo suficiente investigación para ver hasta qué punto las herramientas son aplicables a lenguas distintas para las que fueron diseñadas. En este artículo probamos dos herramientas para el cálculo automático de la velocidad de habla ya evaluadas para el neerlandés y el inglés (v1, que se basa en la determinación de picos de intensidad precedidos de un valle para encontrar núcleos de sílaba, y v3, que se basa en picos de intensidad rodeados de valles) y las aplicamos a un corpus de habla leída y espontánea del español para analizar cuál ofrece mejores resultados en español.

Los resultados de precisión y del error cuadrático mediano normalizado obtenidos muestran que v3 funciona mejor que v1. No obstante, el recall muestra mejor rendimiento para la v1, lo que nos indica que se necesita un análisis detallado de la sensibilidad y la especificidad para seleccionar la mejor opción en función de los objetivos del análisis posterior que se quiera hacer.
English
Automatic computation of speech rate is a necessary task in a wide range of applications that require this prosodic feature, in which a manual transcription and time alignments are not available. Several tools have been developed to this end, but not enough research has been conducted yet to see to what extent they are scalable to other languages.

In the present work, we take two off-the- shelf tools designed for automatic speech rate computation and already tested for Dutch and English (v1, which relies on intensity peaks preceded by an intensity dip to find syllable nuclei and v3, which relies on intensity peaks surrounded by dips) and we apply them to read and spontaneous Spanish speech. Then, we test which of them offers the best performance. The results obtained with precision and normalized mean squared error metrics showed that v3 performs better than v1. However, recall measurement shows a better performance of v1, which suggests that a more fine-grained analysis on sensitivity and specificity is needed to select the best option depending on the application we are dealing with.

Acceso de usuarios registrados

¿Olvidó su contraseña?

¿Es nuevo? Regístrese

Ventajas de registrarse

Dialnet Plus

Coordinado por: