Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras

Detalhes bibliográficos
Autor(a) principal: Amaral, Daniela Oliveira Ferreira do
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/8035
Resumo: The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure.
id P_RS_7b12915a2a0c7c761e407a950432f474
oai_identifier_str oai:tede2.pucrs.br:tede/8035
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Vieira, Renatahttp://lattes.cnpq.br/6218967777630412http://lattes.cnpq.br/9264512686430709Amaral, Daniela Oliveira Ferreira do2018-05-14T19:35:09Z2017-09-14http://tede2.pucrs.br/tede2/handle/tede/8035The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure.O tratamento da informação textual torna-se cada vez mais relevante para muitos domínios. Nesse sentido, uma das primeira tarefas para Extração de Informações a partir de textos é o Reconhecimento de Entidades Nomeadas (REN), que consiste na identificação de referências feitas a determinadas entidades e sua classificação. REN compreende muitos domínios, entre eles os mais usuais são medicina e biologia. Um dos domínios desafiadores no reconhecimento de EN é o de Geologia, sendo essa uma área carente de recursos linguísticos computacionais. A presente tese propõe um método para o reconhecimento de EN relevantes no domínio da Geologia, subárea Bacia Sedimentar Brasileira, em textos da língua portuguesa. Definiram-se features genéricas e geológicas para a geração do modelo de aprendizado. Entre as abordagens automáticas para classificação de EN, a mais proeminente é o modelo probabilístico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de referência para REN Geológicas, anotado por especialistas. Avaliações experimentais foram realizadas com o objetivo de comparar o método proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcançou 76,78% e 54,33% em Precisão e Medida-F.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Previous issue date: 2017-09-14application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/171974/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaReconhecimento de Entidades NomeadasGeologiaBacia Sedimentar BrasileiraConditional Random FieldsCorpusNamed Entity RecognitionGeologyBrazilian Sedimentary BasinCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOReconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileirasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho não apresenta restrição para publicação1974996533081274470500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpgDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpgimage/jpeg5715http://tede2.pucrs.br/tede2/bitstream/tede/8035/4/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpge32f5b9d629c348c9590193864955fe7MD54TEXTDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txtDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txttext/plain211964http://tede2.pucrs.br/tede2/bitstream/tede/8035/3/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txte5a1a4183bcf0c9b281602e1d8ddaad6MD53ORIGINALDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfapplication/pdf6343384http://tede2.pucrs.br/tede2/bitstream/tede/8035/2/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfa1d91fe5b12fa5cfdedb20ec1baf5042MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/8035/1/license.txt5a9d6006225b368ef605ba16b4f6d1beMD51tede/80352018-05-14 20:00:57.073oai:tede2.pucrs.br:tede/8035QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2018-05-14T23:00:57Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
title Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
spellingShingle Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
Amaral, Daniela Oliveira Ferreira do
Reconhecimento de Entidades Nomeadas
Geologia
Bacia Sedimentar Brasileira
Conditional Random Fields
Corpus
Named Entity Recognition
Geology
Brazilian Sedimentary Basin
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
title_full Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
title_fullStr Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
title_full_unstemmed Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
title_sort Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
author Amaral, Daniela Oliveira Ferreira do
author_facet Amaral, Daniela Oliveira Ferreira do
author_role author
dc.contributor.advisor1.fl_str_mv Vieira, Renata
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6218967777630412
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/9264512686430709
dc.contributor.author.fl_str_mv Amaral, Daniela Oliveira Ferreira do
contributor_str_mv Vieira, Renata
dc.subject.por.fl_str_mv Reconhecimento de Entidades Nomeadas
Geologia
Bacia Sedimentar Brasileira
topic Reconhecimento de Entidades Nomeadas
Geologia
Bacia Sedimentar Brasileira
Conditional Random Fields
Corpus
Named Entity Recognition
Geology
Brazilian Sedimentary Basin
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Conditional Random Fields
Corpus
Named Entity Recognition
Geology
Brazilian Sedimentary Basin
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure.
publishDate 2017
dc.date.issued.fl_str_mv 2017-09-14
dc.date.accessioned.fl_str_mv 2018-05-14T19:35:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/8035
url http://tede2.pucrs.br/tede2/handle/tede/8035
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 1974996533081274470
dc.relation.confidence.fl_str_mv 500
500
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/8035/4/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/8035/3/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/8035/2/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf
http://tede2.pucrs.br/tede2/bitstream/tede/8035/1/license.txt
bitstream.checksum.fl_str_mv e32f5b9d629c348c9590193864955fe7
e5a1a4183bcf0c9b281602e1d8ddaad6
a1d91fe5b12fa5cfdedb20ec1baf5042
5a9d6006225b368ef605ba16b4f6d1be
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765332823375872