La creciente demanda de los denominados "teleservicios" requiere la recogida de bases de datos adecuadas para entrenar y evaluar los sistemas de reconocimiento automático de voz. Para lenguas habladas por grandes poblaciones se disponen en el mercado de bases de datos útiles que permiten la implementación de reconocedores. Sin embargo, las lenguas minoritarias sufren la falta de tales bases de datos por lo que casi cualquier investigación en el ámbito de las tecnologías del habla que se centre en una lengua minoritaria debe pasar por una fase en la que se capture una base de datos de voz con la que trabajar. En este artículo se presenta nuestra experiencia en la creación de una base de datos para el idioma gallego. Se describen las cuestiones relativas a la captación de llamadas y al etiquetado de las mismas. También se muestran experimentos de entrenamiento y evaluación de reconocedores realizados sobre dicha base de datos que sirven como herramienta de validación de la base de datos en cuestión.
© 2001-2024 Fundación Dialnet · Todos los derechos reservados