Low-resource AMR-to-Text Generation: A Study on Brazilian Portuguese
Por favor, use este identificador para citar o enlazar este ítem:
http://hdl.handle.net/10045/122833
Título: | Low-resource AMR-to-Text Generation: A Study on Brazilian Portuguese |
---|---|
Título alternativo: | Generación de Texto a partir de AMR en Contexto de Bajos Recursos: Un Estudio para el Portugués Brasileño |
Autor/es: | Sobrevilla Cabezudo, Marco A. | Pardo, Thiago A.S. |
Palabras clave: | AMR-to-Text Generation | Low-resource setting | Brazilian Portuguese | Generación de Texto a partir de AMR | Contexto de Bajos Recursos | Portugués Brasileño |
Área/s de conocimiento: | Lenguajes y Sistemas Informáticos |
Fecha de publicación: | mar-2022 |
Editor: | Sociedad Española para el Procesamiento del Lenguaje Natural |
Cita bibliográfica: | Procesamiento del Lenguaje Natural. 2022, 68: 85-97. https://doi.org/10.26342/2022-68-6 |
Resumen: | This work presents a study of how varied strategies for tackling low-resource AMR-to-text generation for three approaches are helpful in Brazilian Portuguese. Specifically, we explore the helpfulness of additional translated corpus, different granularity levels in input representation, and three preprocessing steps. Results show that translation is useful. However, it must be used in each approach differently. In addition, finer-grained representations as characters and subwords improve the performance and reduce the bias on the development set, and preprocessing steps are helpful in different contexts, being delexicalisation and preordering the most important ones. | Este trabajo presenta un estudio de cómo diversas estrategias para abordar la generación de textos a partir de AMR en contextos de bajos recursos para tres enfoques son útiles en portugués brasileño. Específicamente, exploramos la utilidad de un corpus traducido, diferentes niveles de granularidad en la representación de entradas y tres técnicas de preprocesamiento. Los resultados muestran que el corpus traducido es útil. Sin embargo, debe usarse en cada enfoque de manera diferente. Además, las representaciones más detalladas, como las basadas en caracteres y subpalabras, mejoran el rendimiento y reducen el sesgo en el conjunto de validación, y los pasos de preprocesamiento son útiles en diferentes contextos, siendo la deslexicalización y el preordenamiento los más importantes. |
Patrocinador/es: | The authors are grateful to CAPES and the Center for Artificial Intelligence (C4AI - http://c4ai.inova.usp.br/) of the University of São Paulo, sponsored by IBM and FAPESP (grant #2019/07665-4). Besides, this research has been carried out using the computational resources of the Center for Mathematical Sciences Applied to Industry (CeMEAI) funded by FAPESP (grant 2013/07375-0). |
URI: | http://hdl.handle.net/10045/122833 |
ISSN: | 1135-5948 |
DOI: | 10.26342/2022-68-6 |
Idioma: | eng |
Tipo: | info:eu-repo/semantics/article |
Derechos: | © Sociedad Española para el Procesamiento del Lenguaje Natural |
Revisión científica: | si |
Versión del editor: | https://doi.org/10.26342/2022-68-6 |
Aparece en las colecciones: | Procesamiento del Lenguaje Natural - Nº 68 (2022) |
Archivos en este ítem:
Archivo | Descripción | Tamaño | Formato | |
---|---|---|---|---|
PLN_68_06.pdf | 1,15 MB | Adobe PDF | Abrir Vista previa | |
Todos los documentos en RUA están protegidos por derechos de autor. Algunos derechos reservados.