The state of end-to-end systems for Mexican Spanish speech recognition

Hernández-Mena, Carlos Daniel; Meza Ruiz, Iván Vladimir

The state of end-to-end systems for Mexican Spanish speech recognition

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/133262

Información del item - Informació de l'item - Item information
Título:	The state of end-to-end systems for Mexican Spanish speech recognition
Título alternativo:	El estado de los sistemas end-to-end para el reconocimiento de voz del Español de México
Autor/es:	Hernández-Mena, Carlos Daniel \| Meza Ruiz, Iván Vladimir
Palabras clave:	Speech recognition \| Acoustic models \| Mexican Spanish \| Reconocimiento de voz \| Modelos acústicos \| Español de México
Fecha de publicación:	mar-2023
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2023, 70: 135-144. https://doi.org/10.26342/2023-70-11
Resumen:	Current end-to-end speech recognizer systems report an excellent performance for Spanish. However, this is not reported for specific variants. Moreover, it is unclear if there would be a benefit in creating a fine-tuned version for a particular variant. To investigate these aspects, particularly for Mexican Spanish, we evaluate four different of-the-shelf speech recognizers (one commercial and three open-source); additionally, we fine-tune two systems for Mexican Spanish. We evaluate read and spontaneous speech, present an error analysis and show that fine-tuning for a variant decreases the error rate. As a result of our experimentation, we build two new systems available to the community. \| El desempeño actual de los reconocedores de voz se reporta como notablemente bueno para el español, sin embargo, no se especifica el desempeño para variantes específicas, y sobre todo no se establece si existe un beneficio de crear una versión ajustada explícitamente a una variante particular. Para investigar estos aspectos, y específicamente para el español de México, nuestro trabajo evalúa el desempeño de cuatro sistemas de reconocimiento de voz (uno comercial y tres de código abierto); adicionalmente creamos dos versiones especificas al español de México mediante la técnica de fine-tuning. Se evalúan los sistemas en voz leída y espontanea, presentamos un análisis de error y mostramos que ajustando los sistemas actuales con la variante todavía se puede reducir el error. Como resultado de la experimentación se obtuvieron dos nuevos sistemas que se hacen disponibles a la comunidad.
URI:	http://hdl.handle.net/10045/133262
ISSN:	1135-5948
DOI:	10.26342/2023-70-11
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural. Distribuido bajo Licencia Creative Commons Reconocimiento-NoComercial-SinObraDerivada 4.0
Revisión científica:	si
Versión del editor:	https://doi.org/10.26342/2023-70-11
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 70 (2023)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_70_11.pdf		1,18 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo

Este ítem está licenciado bajo Licencia Creative Commons