NLP resources for the oil & gas domain: Petrolês

Detalhes bibliográficos
Autor(a) principal: Freitas, Cláudia
Data de Publicação: 2023
Outros Autores: Sousa, Elvis, Castro, Maria Clara, Cavalcanti, Tatiana, Ferreira da Silva, Patricia, Corrêa Cordeiro, Fábio
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://doi.org/10.21814/lm.15.2.412
Resumo: Many organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic  dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.
id RCAP_8d02b7e17c3b7f222bfad19ea324eed3
oai_identifier_str oai:linguamatica.com:article/412
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling NLP resources for the oil & gas domain: PetrolêsRecursos linguísticos para o PLN específico de domínio: o PetrolêsRecursos linguísticos para o PLN específico de domínio: o Petrolêsnamed entitiesgeology ontologysyntactic dependenciesuniversal dependenciesgold standard portuguese corpuscorpusentidades mencionadasontologia geológicadependências sintáticasdependências universaisuniversal dependenciescorpus padrão ourocorpusMany organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic  dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.412https://doi.org/10.21814/lm.15.2.412Linguamática; Vol. 15 No. 2; 51--68Linguamática; v. 15 n. 2; 51--68Linguamática; Vol. 15 Núm. 2; 51--681647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/412https://linguamatica.com/index.php/linguamatica/article/view/412/502Direitos de Autor (c) 2023 Cláudia Freitas, Elvis Sousa, Maria Clara Castro, Tatiana Cavalcanti, Patricia Ferreira da Silva, Fábio Corrêa Cordeirohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessFreitas, CláudiaSousa, ElvisCastro, Maria ClaraCavalcanti, TatianaFerreira da Silva, PatriciaCorrêa Cordeiro, Fábio2024-01-05T13:45:19Zoai:linguamatica.com:article/412Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:30:17.564573Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv NLP resources for the oil & gas domain: Petrolês
Recursos linguísticos para o PLN específico de domínio: o Petrolês
Recursos linguísticos para o PLN específico de domínio: o Petrolês
title NLP resources for the oil & gas domain: Petrolês
spellingShingle NLP resources for the oil & gas domain: Petrolês
Freitas, Cláudia
named entities
geology ontology
syntactic dependencies
universal dependencies
gold standard portuguese corpus
corpus
entidades mencionadas
ontologia geológica
dependências sintáticas
dependências universais
universal dependencies
corpus padrão ouro
corpus
title_short NLP resources for the oil & gas domain: Petrolês
title_full NLP resources for the oil & gas domain: Petrolês
title_fullStr NLP resources for the oil & gas domain: Petrolês
title_full_unstemmed NLP resources for the oil & gas domain: Petrolês
title_sort NLP resources for the oil & gas domain: Petrolês
author Freitas, Cláudia
author_facet Freitas, Cláudia
Sousa, Elvis
Castro, Maria Clara
Cavalcanti, Tatiana
Ferreira da Silva, Patricia
Corrêa Cordeiro, Fábio
author_role author
author2 Sousa, Elvis
Castro, Maria Clara
Cavalcanti, Tatiana
Ferreira da Silva, Patricia
Corrêa Cordeiro, Fábio
author2_role author
author
author
author
author
dc.contributor.author.fl_str_mv Freitas, Cláudia
Sousa, Elvis
Castro, Maria Clara
Cavalcanti, Tatiana
Ferreira da Silva, Patricia
Corrêa Cordeiro, Fábio
dc.subject.por.fl_str_mv named entities
geology ontology
syntactic dependencies
universal dependencies
gold standard portuguese corpus
corpus
entidades mencionadas
ontologia geológica
dependências sintáticas
dependências universais
universal dependencies
corpus padrão ouro
corpus
topic named entities
geology ontology
syntactic dependencies
universal dependencies
gold standard portuguese corpus
corpus
entidades mencionadas
ontologia geológica
dependências sintáticas
dependências universais
universal dependencies
corpus padrão ouro
corpus
description Many organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic  dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-30
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://doi.org/10.21814/lm.15.2.412
https://doi.org/10.21814/lm.15.2.412
url https://doi.org/10.21814/lm.15.2.412
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://linguamatica.com/index.php/linguamatica/article/view/412
https://linguamatica.com/index.php/linguamatica/article/view/412/502
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by/4.0
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv Linguamática; Vol. 15 No. 2; 51--68
Linguamática; v. 15 n. 2; 51--68
Linguamática; Vol. 15 Núm. 2; 51--68
1647-0818
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136784747069440