Category-based language models in a Spanish spoken dialogue system

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/3105
Información del item - Informació de l'item - Item information
Título: Category-based language models in a Spanish spoken dialogue system
Autor/es: Justo Blanco, Raquel | Torres Barañano, María Inés | Benedí Ruiz, José Miguel
Palabras clave: Modelo de lenguaje | Categorización | Reconocimiento automático del habla | Sistemas de diálogo | Language model | Categorization | Automatic speech recognition | Dialogue systems
Fecha de publicación: sep-2006
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: JUSTO BLANCO, Raquel; TORRES BARAÑANO, María Inés; BENEDÍ RUIZ, José Miguel. "Category-based language models in a Spanish spoken dialogue system". Procesamiento del lenguaje natural. N. 37 (sept. 2006). ISSN 1135-5948, pp. 19-24
Resumen: El objetivo principal de este trabajo es comprobar si un modelo de lenguaje basado en categorías puede mejorar el rendimiento de un sistema de diálogo, de la misma forma que lo hace para aplicaciones que utilizan bases de datos no espontáneas y de mayores dimensiones en inglés. En primer lugar, se obtienen diversos conjuntos de categorías generados en base a diferentes criterios de clasificación. Para cada grupo de categorías se generan dos modelos: Un modelo de lenguaje basado en k-gramas de categorías y un modelo híbrido que es una interpolación de un modelo de lenguaje basado en palabras y uno basado en categorías. Finalmente, se presentan los experimentos realizados sobre un corpus de diálogo espontáneo en castellano para los que se han obtenido resultados de Perplejidad y Word Error Rate. | The main goal of this work is to study if a language model based on categories could improve the performance of a dialogue system application as it does when not spontaneous and bigger English corpora are used. Firstly, several sets of categories, which are generated on the basis of different classification criteria, are obtained. Then, for each criterion, two language models are generated: A language model based on category k-grams and a hybrid model that is an interpolation of a word-based language model and a category-based language model. Finally, experiments on a spontaneous dialogue corpus in Spanish are reported. These experiments have been carried out in terms of Perplexity and Word Error Rate.
Patrocinador/es: This work has been partially supported by the CICYT project TIN2005-08660-C04-03 and by the Universidad del País Vasco under grant 9/UPV 00224.310-15900/2004.
URI: http://hdl.handle.net/10045/3105
ISSN: 1135-5948
Idioma: eng
Tipo: info:eu-repo/semantics/article
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 37 (septiembre 2006)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_37_03.pdf104,23 kBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.