NLP resources for the oil & gas domain: Petrolês

Freitas, Cláudia; Sousa, Elvis; Castro, Maria Clara; Cavalcanti, Tatiana; Ferreira da Silva, Patricia; Corrêa Cordeiro, Fábio

NLP resources for the oil & gas domain: Petrolês

Detalhes bibliográficos
Autor(a) principal:	Freitas, Cláudia
Data de Publicação:	2023
Outros Autores:	Sousa, Elvis, Castro, Maria Clara, Cavalcanti, Tatiana, Ferreira da Silva, Patricia, Corrêa Cordeiro, Fábio
Tipo de documento:	Artigo
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://doi.org/10.21814/lm.15.2.412
Resumo:	Many organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic  dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.

Metadados do item

id	RCAP_8d02b7e17c3b7f222bfad19ea324eed3
oai_identifier_str	oai:linguamatica.com:article/412
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	NLP resources for the oil & gas domain: PetrolêsRecursos linguísticos para o PLN específico de domínio: o PetrolêsRecursos linguísticos para o PLN específico de domínio: o Petrolêsnamed entitiesgeology ontologysyntactic dependenciesuniversal dependenciesgold standard portuguese corpuscorpusentidades mencionadasontologia geológicadependências sintáticasdependências universaisuniversal dependenciescorpus padrão ourocorpusMany organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic  dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.Muitas organizações têm dificuldade em recuperar e extrair informações dos seus repositórios de documentos técnicos, em especial operadoras de óleo e gás que há várias décadas acumulam relatórios e documentos geocientíficos. No entanto, a maior parte dos recursos linguísticos para o processamento de linguagem natural é extraída de páginas da internet em inglês. Neste artigo, apresentamos os recursos linguísticos desenvolvidos ao longo do projeto Petrolês, com ênfase no PetroNer, corpus padrão ouro anotado com entidades do domínio, dependências sintáticas, e alinhado a uma ontologia de conceitos geológicos. Relatamos o processo de construção do PetroGold, treebank padrão ouro usado na geração de um modelo customizado para anotação de dependências sintáticas, e detalhamos o processo de anotação de entidades no PetroNer, realizado por meio de regras. Também realizamos um estudo sobre a aplicação das regras no corpus e, por fim, descrevemos características linguísticas do material que compõe o Petrolês, comparando-o com um corpus de textos jornalísticos.Universidade do Minho e Universidade de Vigo2023-12-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttps://doi.org/10.21814/lm.15.2.412https://doi.org/10.21814/lm.15.2.412Linguamática; Vol. 15 No. 2; 51--68Linguamática; v. 15 n. 2; 51--68Linguamática; Vol. 15 Núm. 2; 51--681647-0818reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAPporhttps://linguamatica.com/index.php/linguamatica/article/view/412https://linguamatica.com/index.php/linguamatica/article/view/412/502Direitos de Autor (c) 2023 Cláudia Freitas, Elvis Sousa, Maria Clara Castro, Tatiana Cavalcanti, Patricia Ferreira da Silva, Fábio Corrêa Cordeirohttp://creativecommons.org/licenses/by/4.0info:eu-repo/semantics/openAccessFreitas, CláudiaSousa, ElvisCastro, Maria ClaraCavalcanti, TatianaFerreira da Silva, PatriciaCorrêa Cordeiro, Fábio2024-01-05T13:45:19Zoai:linguamatica.com:article/412Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:30:17.564573Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	NLP resources for the oil & gas domain: Petrolês Recursos linguísticos para o PLN específico de domínio: o Petrolês Recursos linguísticos para o PLN específico de domínio: o Petrolês
title	NLP resources for the oil & gas domain: Petrolês
spellingShingle	NLP resources for the oil & gas domain: Petrolês Freitas, Cláudia named entities geology ontology syntactic dependencies universal dependencies gold standard portuguese corpus corpus entidades mencionadas ontologia geológica dependências sintáticas dependências universais universal dependencies corpus padrão ouro corpus
title_short	NLP resources for the oil & gas domain: Petrolês
title_full	NLP resources for the oil & gas domain: Petrolês
title_fullStr	NLP resources for the oil & gas domain: Petrolês
title_full_unstemmed	NLP resources for the oil & gas domain: Petrolês
title_sort	NLP resources for the oil & gas domain: Petrolês
author	Freitas, Cláudia
author_facet	Freitas, Cláudia Sousa, Elvis Castro, Maria Clara Cavalcanti, Tatiana Ferreira da Silva, Patricia Corrêa Cordeiro, Fábio
author_role	author
author2	Sousa, Elvis Castro, Maria Clara Cavalcanti, Tatiana Ferreira da Silva, Patricia Corrêa Cordeiro, Fábio
author2_role	author author author author author
dc.contributor.author.fl_str_mv	Freitas, Cláudia Sousa, Elvis Castro, Maria Clara Cavalcanti, Tatiana Ferreira da Silva, Patricia Corrêa Cordeiro, Fábio
dc.subject.por.fl_str_mv	named entities geology ontology syntactic dependencies universal dependencies gold standard portuguese corpus corpus entidades mencionadas ontologia geológica dependências sintáticas dependências universais universal dependencies corpus padrão ouro corpus
topic	named entities geology ontology syntactic dependencies universal dependencies gold standard portuguese corpus corpus entidades mencionadas ontologia geológica dependências sintáticas dependências universais universal dependencies corpus padrão ouro corpus
description	Many organizations struggle with retrieving and extracting information from their repositories of technical documents, particularly oil and gas operators with decades of accumulated geoscientific reports and documents. However, the majority of linguistic resources for natural language processing are derived from internet pages in English. In this article, we present the linguistic resources developed throughout the Petrolês project, with an emphasis on PetroNer, a gold standard corpus annotated with domain entities, syntactic  dependencies, and aligned with an ontology of geological concepts. We report the construction process of PetroGold, a gold standard treebank used in generating a customized model for syntactic dependency annotation, and we detail the entity annotation process in PetroNer, carried out through the creation of linguistic rules. We also conduct a study on the application of rules in the corpus, and finally, we describe linguistic characteristics of the material comprising Petrolês, comparing it with a corpus of journalistic texts.
publishDate	2023
dc.date.none.fl_str_mv	2023-12-30
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/article
format	article
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://doi.org/10.21814/lm.15.2.412 https://doi.org/10.21814/lm.15.2.412
url	https://doi.org/10.21814/lm.15.2.412
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://linguamatica.com/index.php/linguamatica/article/view/412 https://linguamatica.com/index.php/linguamatica/article/view/412/502
dc.rights.driver.fl_str_mv	http://creativecommons.org/licenses/by/4.0 info:eu-repo/semantics/openAccess
rights_invalid_str_mv	http://creativecommons.org/licenses/by/4.0
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
publisher.none.fl_str_mv	Universidade do Minho e Universidade de Vigo
dc.source.none.fl_str_mv	Linguamática; Vol. 15 No. 2; 51--68 Linguamática; v. 15 n. 2; 51--68 Linguamática; Vol. 15 Núm. 2; 51--68 1647-0818 reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799136784747069440

NLP resources for the oil & gas domain: Petrolês

Registros relacionados