Ayuda
Ir al contenido

Dialnet


Resumen de Recursos linguísticos para o PLN específico de domínio: o Petrolês

Cláudia Freitas, Elvis Sousa, Maria Clara Castro, Tatiana Cavalcanti, Patricia Ferreira da Silva, Fábio Corrêa Cordeiro

  • English

     Many organizations struggle with retrieving and extractinginformation from their repositories of technical documents,particularly oil and gas operators with decades of accumulatedgeoscientific reports and documents. However, the majority oflinguistic resources for natural language processing are derivedfrom internet pages in English. In this article, we present thelinguistic resources developed throughout the Petrolês project, withan emphasis on PetroNer, a gold standard corpus annotated withdomain entities, syntactic dependencies, and aligned with anontology of geological concepts. We report the construction processof PetroGold, a gold standard treebank used in generating acustomized model for syntactic dependency annotation, and we detailthe entity annotation process in PetroNer, carried out through thecreation of linguistic rules. We also conduct a study on theapplication of rules in the corpus, and finally, we describelinguistic characteristics of the material comprising Petrolês,comparing it with a corpus of journalistic texts.

  • português

    Muitas organizações têm dificuldade em recuperar e extrairinformações dos seus repositórios de documentos técnicos, emespecial operadoras de óleo e gás que há várias décadas acumulamrelatórios e documentos geocientíficos. No entanto, a maior partedos recursos linguísticos para o processamento de linguagem naturalé extraída de páginas da internet em inglês. Neste artigo,apresentamos os recursos linguísticos desenvolvidos ao longo doprojeto Petrolês, com ênfase no PetroNer, corpus padrãoouro anotado com entidades do domínio, dependências sintáticas, ealinhado a uma ontologia de conceitos geológicos. Relatamos oprocesso de construção do PetroGold, treebank padrão ourousado na geração de um modelo customizado para anotação dedependências sintáticas, e detalhamos o processo de anotação deentidades no PetroNer, realizado por meio de regras. Tambémrealizamos um estudo sobre a aplicação das regras no corpuse, por fim, descrevemos características linguísticas do material quecompõe o Petrolês, comparando-o com um corpus de textosjornalísticos.


Fundación Dialnet

Dialnet Plus

  • Más información sobre Dialnet Plus