Ayuda
Ir al contenido

Dialnet


Resumen de Reconocimiento de Entidades Nombradas: una investigación para el idioma Portugués

André Carvalho, Adriano L. I. Oliveira, Hidelberg O. Albuquerque, Ellen Souza, Carlos Gomes, Matheus Henrique de C. Pinto, Ricardo P.S. Filho, Rosimeiry de Sousa Costa, Vinícius Teixeira de M. Lopes, Nádia F.F. da Silva

  • español

    El Reconocimiento de Entidades con Nombre (en inglés, NER) es una tarea importante en el Procesamiento del Lenguaje Natural, ya que es una subtarea clave de extracción de información con numerosas aplicaciones, como la recuperación de información y el aprendizaje automático. Sin embargo, los recursos aún son escasos para algunos idiomas, como es el caso del portugués. Por lo tanto, el objetivo de esta investigación es mapear técnicas, métodos y recursos de NER para la lengua portuguesa. Se aplicaron búsquedas manuales y automatizadas, recuperando 447 estudios primarios, de los cuales 45 se incluyeron en nuestra revisión. El creciente número de estudios revela un mayor interés de los investigadores en el área. 21 estudios se centraron en el análisis comparativo entre técnicas y herramientas. Se mapearon 24 corpora NER nuevos o actualizados, en varios dominios. Las técnicas de preprocesamiento de texto más utilizadas fueron tokenization, embeddings y PoS Tagging, mientras que los métodos/algoritmos más utilizados fueron los basados en BiLSTM, CRF y de los modelos BERT. También se mapearon los investigadores, instituciones y países más relevantes, así como la evolución de las publicaciones.

  • English

    Named Entity Recognition (NER) is an important task in Natural Language Processing, as it is a key information extraction sub-task with numerous applications, such as information retrieval and machine learning. However, resources are still scarce for some languages, as it is the case of Portuguese. Thus, the objective of this research is to map NER techniques, methods and resources for the Portuguese language. Manual and automated searches were applied, retrieving 447 primary studies, of which 45 were included in our review. The growing number of studies reveal a greater interest of researchers in the area. 21 studies focused on the comparative analysis between techniques and tools. 24 new or updated NER corpora were mapped, in several domains. The most used text pre-processing techniques were tokenization, embeddings, and PoS Tagging, while the most used methods/algorithms were based on BiLSTM, CRF, and BERT models. The most relevant researchers, institutions and countries were also mapped, as well as the evolution of publications.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus