Low-resource AMR-to-Text Generation: A Study on Brazilian Portuguese

Sobrevilla Cabezudo, Marco A.; Pardo, Thiago A.S.

Low-resource AMR-to-Text Generation: A Study on Brazilian Portuguese

Por favor, use este identificador para citar o enlazar este ítem: http://hdl.handle.net/10045/122833

Información del item - Informació de l'item - Item information
Título:	Low-resource AMR-to-Text Generation: A Study on Brazilian Portuguese
Título alternativo:	Generación de Texto a partir de AMR en Contexto de Bajos Recursos: Un Estudio para el Portugués Brasileño
Autor/es:	Sobrevilla Cabezudo, Marco A. \| Pardo, Thiago A.S.
Palabras clave:	AMR-to-Text Generation \| Low-resource setting \| Brazilian Portuguese \| Generación de Texto a partir de AMR \| Contexto de Bajos Recursos \| Portugués Brasileño
Área/s de conocimiento:	Lenguajes y Sistemas Informáticos
Fecha de publicación:	mar-2022
Editor:	Sociedad Española para el Procesamiento del Lenguaje Natural
Cita bibliográfica:	Procesamiento del Lenguaje Natural. 2022, 68: 85-97. https://doi.org/10.26342/2022-68-6
Resumen:	This work presents a study of how varied strategies for tackling low-resource AMR-to-text generation for three approaches are helpful in Brazilian Portuguese. Specifically, we explore the helpfulness of additional translated corpus, different granularity levels in input representation, and three preprocessing steps. Results show that translation is useful. However, it must be used in each approach differently. In addition, finer-grained representations as characters and subwords improve the performance and reduce the bias on the development set, and preprocessing steps are helpful in different contexts, being delexicalisation and preordering the most important ones. \| Este trabajo presenta un estudio de cómo diversas estrategias para abordar la generación de textos a partir de AMR en contextos de bajos recursos para tres enfoques son útiles en portugués brasileño. Específicamente, exploramos la utilidad de un corpus traducido, diferentes niveles de granularidad en la representación de entradas y tres técnicas de preprocesamiento. Los resultados muestran que el corpus traducido es útil. Sin embargo, debe usarse en cada enfoque de manera diferente. Además, las representaciones más detalladas, como las basadas en caracteres y subpalabras, mejoran el rendimiento y reducen el sesgo en el conjunto de validación, y los pasos de preprocesamiento son útiles en diferentes contextos, siendo la deslexicalización y el preordenamiento los más importantes.
Patrocinador/es:	The authors are grateful to CAPES and the Center for Artificial Intelligence (C4AI - http://c4ai.inova.usp.br/) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). Besides, this research has been carried out using the computational resources of the Center for Mathematical Sciences Applied to Industry (CeMEAI) funded by FAPESP (grant 2013/07375-0).
URI:	http://hdl.handle.net/10045/122833
ISSN:	1135-5948
DOI:	10.26342/2022-68-6
Idioma:	eng
Tipo:	info:eu-repo/semantics/article
Derechos:	© Sociedad Española para el Procesamiento del Lenguaje Natural
Revisión científica:	si
Versión del editor:	https://doi.org/10.26342/2022-68-6
Aparece en las colecciones:	Procesamiento del Lenguaje Natural - Nº 68 (2022)

Archivos en este ítem:

Archivos en este ítem:
Archivo	Descripción	Tamaño	Formato
PLN_68_06.pdf		1,15 MB	Adobe PDF	Abrir Vista previa Cerrar vista previa

Ver citas en Google Académico

Muestra el registro completo