NLP resources for the oil & gas domain: Petrolês
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | , , , , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://doi.org/10.21814/lm.15.2.412 |
Resumo: | Many organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts. |
id |
RCAP_8d02b7e17c3b7f222bfad19ea324eed3 |
---|---|
oai_identifier_str |
oai:linguamatica.com:article/412 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
NLP resources for the oil & gas domain: PetrolêsRecursos linguísticos para o PLN específico de domínio: o PetrolêsRecursos linguísticos para o PLN específico de domínio: o Petrolêsnamed entitiesgeology ontologysyntactic dependenciesuniversal dependenciesgold standard portuguese corpuscorpusentidades mencionadasontologia geológicadependências sintáticasdependências universaisuniversal dependenciescorpus padrão ourocorpusMany organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.412https://doi.org/10.21814/lm.15.2.412Linguamática; Vol. 15 No. 2; 51--68Linguamática; v. 15 n. 2; 51--68Linguamática; Vol. 15 Núm. 2; 51--681647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/412https://linguamatica.com/index.php/linguamatica/article/view/412/502Direitos de Autor (c) 2023 Cláudia Freitas, Elvis Sousa, Maria Clara Castro, Tatiana Cavalcanti, Patricia Ferreira da Silva, Fábio Corrêa Cordeirohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessFreitas, CláudiaSousa, ElvisCastro, Maria ClaraCavalcanti, TatianaFerreira da Silva, PatriciaCorrêa Cordeiro, Fábio2024-01-05T13:45:19Zoai:linguamatica.com:article/412Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:30:17.564573Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
NLP resources for the oil & gas domain: Petrolês Recursos linguísticos para o PLN específico de domínio: o Petrolês Recursos linguísticos para o PLN específico de domínio: o Petrolês |
title |
NLP resources for the oil & gas domain: Petrolês |
spellingShingle |
NLP resources for the oil & gas domain: Petrolês Freitas, Cláudia named entities geology ontology syntactic dependencies universal dependencies gold standard portuguese corpus corpus entidades mencionadas ontologia geológica dependências sintáticas dependências universais universal dependencies corpus padrão ouro corpus |
title_short |
NLP resources for the oil & gas domain: Petrolês |
title_full |
NLP resources for the oil & gas domain: Petrolês |
title_fullStr |
NLP resources for the oil & gas domain: Petrolês |
title_full_unstemmed |
NLP resources for the oil & gas domain: Petrolês |
title_sort |
NLP resources for the oil & gas domain: Petrolês |
author |
Freitas, Cláudia |
author_facet |
Freitas, Cláudia Sousa, Elvis Castro, Maria Clara Cavalcanti, Tatiana Ferreira da Silva, Patricia Corrêa Cordeiro, Fábio |
author_role |
author |
author2 |
Sousa, Elvis Castro, Maria Clara Cavalcanti, Tatiana Ferreira da Silva, Patricia Corrêa Cordeiro, Fábio |
author2_role |
author author author author author |
dc.contributor.author.fl_str_mv |
Freitas, Cláudia Sousa, Elvis Castro, Maria Clara Cavalcanti, Tatiana Ferreira da Silva, Patricia Corrêa Cordeiro, Fábio |
dc.subject.por.fl_str_mv |
named entities geology ontology syntactic dependencies universal dependencies gold standard portuguese corpus corpus entidades mencionadas ontologia geológica dependências sintáticas dependências universais universal dependencies corpus padrão ouro corpus |
topic |
named entities geology ontology syntactic dependencies universal dependencies gold standard portuguese corpus corpus entidades mencionadas ontologia geológica dependências sintáticas dependências universais universal dependencies corpus padrão ouro corpus |
description |
Many organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-12-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://doi.org/10.21814/lm.15.2.412 https://doi.org/10.21814/lm.15.2.412 |
url |
https://doi.org/10.21814/lm.15.2.412 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://linguamatica.com/index.php/linguamatica/article/view/412 https://linguamatica.com/index.php/linguamatica/article/view/412/502 |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by/4.0 |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
publisher.none.fl_str_mv |
Universidade do Minho e Universidade de Vigo |
dc.source.none.fl_str_mv |
Linguamática; Vol. 15 No. 2; 51--68 Linguamática; v. 15 n. 2; 51--68 Linguamática; Vol. 15 Núm. 2; 51--68 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136784747069440 |