Problemática de la recogida y anotación de una base de datos oral para el gallego

Autores: Begoña González Rei, Antonio Cardenal López, Laura Docío Fernández, Carmen García Mateo
Localización: Procesamiento del lenguaje natural, ISSN 1135-5948, Nº. 27, 2001 (Ejemplar dedicado a: XVII Congreso de la SEPLN: Sociedad Española para el Procesamiento del Lenguaje Natural: Universidad de Jaén, 12-14 septiembre 2001), págs. 37-44
Idioma: español
Enlaces
- Texto completo
Resumen
- La creciente demanda de los denominados "teleservicios" requiere la recogida de bases de datos adecuadas para entrenar y evaluar los sistemas de reconocimiento automático de voz. Para lenguas habladas por grandes poblaciones se disponen en el mercado de bases de datos útiles que permiten la implementación de reconocedores. Sin embargo, las lenguas minoritarias sufren la falta de tales bases de datos por lo que casi cualquier investigación en el ámbito de las tecnologías del habla que se centre en una lengua minoritaria debe pasar por una fase en la que se capture una base de datos de voz con la que trabajar. En este artículo se presenta nuestra experiencia en la creación de una base de datos para el idioma gallego. Se describen las cuestiones relativas a la captación de llamadas y al etiquetado de las mismas. También se muestran experimentos de entrenamiento y evaluación de reconocedores realizados sobre dicha base de datos que sirven como herramienta de validación de la base de datos en cuestión.

Acceso de usuarios registrados

¿Es nuevo? Regístrese

Coordinado por: