Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/81351
Información del item - Informació de l'item - Item information
Título: Estudio sobre el impacto del corpus de entrenamiento del modelo de lenguaje en las prestaciones de un reconocedor de habla
Título alternativo: Study on the impact of the training corpus of the language model on the performance of a speech recognizer
Autor/es: Piñeiro Martín, Andrés | García Mateo, Carmen | Docío Fernández, Laura | Regueira, Xosé Luis
Palabras clave: Modelos de lenguaje | Reconocimiento automático del habla | Palabras fuera de vocabulario | Language models | Automatic speech recognition | Out of vocabulary words
Área/s de conocimiento: Lenguajes y Sistemas Informáticos
Fecha de publicación: sep-2018
Editor: Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica: Procesamiento del Lenguaje Natural. 2018, 61: 75-82. doi:10.26342/2018-61-8
Resumen: Dentro del reconocimiento automático del habla, los modelos de lenguaje estadísticos basados en la probabilidad de secuencia de palabras (n-gramas) suponen uno de los dos pilares sobre los que se basa su correcto funcionamiento. En este trabajo se expone el impacto que tienen sobre las prestaciones de reconocimiento a medida que estos modelos se mejoran con más texto de mejor calidad, cuando estos se ajustan a la aplicación final del sistema, y por lo tanto, cuando se reducen el número de palabras fuera de vocabulario (Out Of Vocabulary - OOV). El reconocedor con los distintos modelos de lenguaje ha sido aplicado sobre cortes de audio correspondientes a tres marcos experimentales: oralidad formal, habla en noticiarios, y TED talks en gallego. Los resultados obtenidos muestran claramente una mejora sobre los marcos experimentales propuestos. | Within the automatic speech recognition, statistical language models based on the probability of word sequences (n-grams) represent one of the two pillars on which its correct functioning is based. In this paper, the impact they have on the recognition result is exposed as these models are improved with more text of better quality, when these are adjusted to the final application of the system, and therefore, when the number out of vocabulary (OOV) words is reduced. The recognizer with the different language models has been applied to audio cuts corresponding to three experimental frames: formal orality, talk on newscasts, and TED talks in Galician. The results obtained clearly show an improvement over the experimental frameworks proposed.
Patrocinador/es: El trabajo realizado está enmarcado en el proyecto del Plan Nacional TraceThem TEC2015-65345-P y en la red gallega TecAnDaLi ED431D 2016/011 financiada por la Xunta de Galicia. Asimismo se beneficia de las ayudas de la Xunta de Galicia de Grupos de Referencia Competitiva GRC2014/024 y Agrupación Estratéxica Consolidada de Galicia acreditación 2016-2019 y a la Unión Europa a través de los fondos FEDER.
URI: http://hdl.handle.net/10045/81351
ISSN: 1135-5948
DOI: 10.26342/2018-61-8
Idioma: spa
Tipo: info:eu-repo/semantics/article
Derechos: © Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica: si
Versión del editor: https://doi.org/10.26342/2018-61-8
Aparece en las colecciones:Procesamiento del Lenguaje Natural - Nº 61 (2018)

Archivos en este ítem:
Archivos en este ítem:
Archivo Descripción TamañoFormato 
ThumbnailPLN_61_08.pdf1,27 MBAdobe PDFAbrir Vista previa


Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.