RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa

Eduardo Garcia; Nádia F.F. da Silva; Juliana Gomes; Hidelberg O. Albuquerque; Ellen Souza; Felipe Siqueira; Eliomar Lima; André Carvalho

Ayuda

RoBERTaLexPT: um modelo RoBERTa jurídico pré-treinado com deduplicação para língua Portuguesa

Garcia, Eduardo ^[1] ; da Silva, Nádia Félix Felipe ^[1] ; Gomes, Juliana ^[1] ; Albuquerque, Hidelberg ^[2] ; Souza, Ellen ^[2] ; Siqueira, Felipe ^[3] ; Lima, Eliomar ^[1] ; Carvalho, André ^[3]
1. [1] Universidade Federal de Goiás
  
  Universidade Federal de Goiás
  
  Brasil
2. [2] Universidade Federal Rural de Pernambuco
  
  Universidade Federal Rural de Pernambuco
  
  Brasil
3. [3] Universidade de São Paulo
  
  Universidade de São Paulo
  
  Brasil
Mostrar afiliaciones +
Localización: Linguamática, ISSN 1647-0818, Vol. 16, Nº. 2, 2024, págs. 183-200
Idioma: portugués
Títulos paralelos:
- RoBERTaLexPT: A Legal RoBERTa Model pretrained with deduplication for Portuguese
Enlaces
- Texto completo

Dialnet Métricas: 3 Citas

Resumen
- português
  Este trabalho investiga a aplicação do Processamento de Linguagem Natural (PLN) no contexto jurídico para a língua portuguesa, enfatizando a importância de adaptar modelos pré-treinados, como o RoBERTa, a partir de corpora especializados no domínio jurídico. Compilamos e pré-processamos um corpus jurídico em português, o corpus "LegalPT", abordando os desafios da alta duplicação de documentos em corpora jurídicos e medindo o impacto dos hiperparâmetros e da inicialização de embeddings. Experimentos revelaram que o pré-treinamento em dados jurídicos e em dados gerais resultou em modelos mais eficazes para tarefas jurídicas, com o nosso modelo, intitulado RoBERTaLexPT, superando modelos maiores treinados em corpora genéricos e outros modelos jurídicos de trabalhos relacionados. Também agregamos um benchmark jurídico, o benchmark "PortuLex". Este estudo contribui para melhorar as soluções de PLN no contexto jurídico brasileiro, fornecendo modelos aprimorados, um corpus especializado e um conjunto de dados de referência. Para fins de reprodutibilidade, disponibilizaremos o código, os dados e os modelos relacionados.
- English
  This work investigates the application of Natural Language Processing (NLP) in the legal context for the Portuguese language, emphasizing the importance of adapting pre-trained models, such as RoBERTa, from specialized corpora in the legal domain. We compiled and pre-processed a Portuguese Legal corpus, LegalPT corpus, addressing challenges of high document duplication in legal corpora, and measuring the impact of hyperparameters and embedding initialization. Experiments revealed that pre-training on legal and general data resulted in more effective models for legal tasks, with RoBERTaLexPT outperforming larger models trained on generic corpora, and other legal models from related works. We also aggregated a legal benchmark, PortuLex benchmark. This study contributes to improving NLP solutions in the Brazilian legal context, providing enhanced models, a specialized corpus, and a benchmark dataset. For reproducibility, we will make related code, data, and models available.