AutoPunct: A BERT-based Automatic Punctuation and Capitalisation System for Spanish and Basque

González-Docasal, Ander; García Pablos, Aitor; Arzelus, Haritz; Alvarez, Aitor

AutoPunct: A BERT-based Automatic Punctuation and Capitalisation System for Spanish and Basque

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/117479

Información del item - Informació de l'item - Item information
Título:	AutoPunct: A BERT-based Automatic Punctuation and Capitalisation System for Spanish and Basque
Título alternativo:	AutoPunct: Sistema de Puntuación y Mayusculización Automático basado en BERT para Castellano y Euskera
Autor/es:	González-Docasal, Ander \| García Pablos, Aitor \| Arzelus, Haritz \| Alvarez, Aitor
Palabras clave:	Punctuation \| Capitalisation \| Low-resource languages \| Puntuación \| Mayusculización \| Lenguas con pocos recursos
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	sep-2021
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2021, 67: 59-68. https://doi.org/10.26342/2021-67-5
Resumen:	The raw output of an Automatic Speech Recognition system usually consists in a stream of words without any casing nor punctuation. In order to improve the readability and enable further uses of this output, punctuation and capitalisation have to be included. In this context, we present AutoPunct, a Transformers-based automatic punctuation and capitalisation model that combines both acoustic (i.e. silences duration) and lexical information (the words themselves). We compared its performance with a system based on Bidirectional Recurrent Neural Networks (BRNN) on Basque (a low-resource language) and Spanish, both individually and simultaneously. The result is a system that achieves high accuracy for punctuation and capitalisation in both languages at the same time, with a throughput of several thousand words per second using a standard GPU. \| La salida en bruto de un sistema de Reconocimiento Automático del Habla generalmente consiste en una secuencia de palabras sin mayúsculas ni signos de puntuación. Para mejorar la legibilidad y posibilitar posteriores usos de esta salida es necesario incluir la puntuación y las mayúsculas. En este contexto, presentamos AutoPunct, un modelo para puntuación y mayusculización basado en arquitecturas de Transformers que combina tanto información acústica (silencios) como léxica (palabras). Hemos comparado su desempeño con un sistema basado en redes neuronales recursivas bidireccionales (BRNN) en euskera (un idioma de pocos recursos) y castellano, así como combinando ambos idiomas. El resultado es un sistema que obtiene buenos resultados aplicando mayusculización y puntuación de manera simultánea en dos idiomas diferentes, con una velocidad de proceso que alcanza varios miles de palabras por segundo en una GPU estándar.
Patrocinador/es:	This work was supported by the Department of Economic Development and Competitiveness of the Basque Government under projects GAMES (ZL-2020/00074) and Deep-Text (KK-2020-00088).
URI:	http://hdl.handle.net/10045/117479
ISSN:	1135-5948
DOI:	10.26342/2021-67-5
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	https://doi.org/10.26342/2021-67-5
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 67 (2021)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_67_05.pdf		665,33 kB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo