BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling

Rosa, Javier de la; Ponferrada, Eduardo G.; Villegas, Paulo; González de Prado Salas, Pablo; Romero, Manu; Grandury, María

BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/122846

Información del item - Informació de l'item - Item information
Título:	BERTIN: Efficient Pre-Training of a Spanish Language Model using Perplexity Sampling
Título alternativo:	BERTIN: Preentrenamiento eficiente de un modelo de lenguaje en español usando muestreo de perplejidad
Autor/es:	Rosa, Javier de la \| Ponferrada, Eduardo G. \| Villegas, Paulo \| González de Prado Salas, Pablo \| Romero, Manu \| Grandury, María
Palabras clave:	Pre-trained Language Models \| Sampling Methods \| Data-centric AI \| Modelos de lenguaje preentrenados \| Métodos de muestreo \| IA dato-céntrica
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	mar-2022
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2022, 68: 13-23. https://doi.org/10.26342/2022-68-1
Resumen:	The pre-training of large language models usually requires massive amounts of resources, both in terms of computation and data. Frequently used web sources such as Common Crawl might contain enough noise to make this pretraining sub-optimal. In this work, we experiment with different sampling methods from the Spanish version of mC4, and present a novel data-centric technique which we name perplexity sampling that enables the pre-training of language models in roughly half the amount of steps and using one fifth of the data. The resulting models are comparable to the current state-of-the-art, and even achieve better results for certain tasks. Our work is proof of the versatility of Transformers, and paves the way for small teams to train their models on a limited budget. \| El preentrenamiento de grandes modelos de lenguaje generalmente requiere cantidades masivas de recursos, tanto en términos de computación como de datos. Las fuentes web comúnmente usadas, como Common Crawl, pueden contener el suficiente ruido para que el preentrenamiento no sea óptimo. En este trabajo experimentamos con diferentes métodos de muestreo de la versión en español de mC4 y presentamos una técnica novedosa centrada en datos que llamamos muestreo de perplejidad y que permite el preentrenamiento de modelos de lenguaje en aproximadamente la mitad de pasos, y con una quinta parte de los datos normalmente necesarios. Los modelos obtenidos logran resultados comparables e incluso superan el estado del arte para ciertas tareas. Nuestro trabajo es una muestra de la versatilidad de los modelos Transformers en cuanto a aprendizaje práctico y allana el camino para que otros equipos pequeños entrenen sus modelos con un presupuesto limitado.
Patrocinador/es:	This project was made possible thanks to the Flax/Jax Community Week organized by HuggingFace, and sponsored by Google Cloud, which provided free credits for the use of their TPUs.
URI:	http://hdl.handle.net/10045/122846
ISSN:	1135-5948
DOI:	10.26342/2022-68-1
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	https://doi.org/10.26342/2022-68-1
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 68 (2022)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_68_01.pdf		1,91 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo