Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/8035 |
Resumo: | The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. |
id |
P_RS_7b12915a2a0c7c761e407a950432f474 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/8035 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Vieira, Renatahttp://lattes.cnpq.br/6218967777630412http://lattes.cnpq.br/9264512686430709Amaral, Daniela Oliveira Ferreira do2018-05-14T19:35:09Z2017-09-14http://tede2.pucrs.br/tede2/handle/tede/8035The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure.O tratamento da informação textual torna-se cada vez mais relevante para muitos domínios. Nesse sentido, uma das primeira tarefas para Extração de Informações a partir de textos é o Reconhecimento de Entidades Nomeadas (REN), que consiste na identificação de referências feitas a determinadas entidades e sua classificação. REN compreende muitos domínios, entre eles os mais usuais são medicina e biologia. Um dos domínios desafiadores no reconhecimento de EN é o de Geologia, sendo essa uma área carente de recursos linguísticos computacionais. A presente tese propõe um método para o reconhecimento de EN relevantes no domínio da Geologia, subárea Bacia Sedimentar Brasileira, em textos da língua portuguesa. Definiram-se features genéricas e geológicas para a geração do modelo de aprendizado. Entre as abordagens automáticas para classificação de EN, a mais proeminente é o modelo probabilístico Conditional Random Fields (CRF). O CRF tem sido utilizado eficazmente no processamento de textos em linguagem natural. A fim de gerar um modelo de aprendizado foi criado o GeoCorpus, um corpus de referência para REN Geológicas, anotado por especialistas. Avaliações experimentais foram realizadas com o objetivo de comparar o método proposto com outros classificadores. Destacam-se os melhores resultados para o CRF, o qual alcançou 76,78% e 54,33% em Precisão e Medida-F.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2018-05-03T18:01:24Z No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-05-14T19:20:24Z (GMT) No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5)Made available in DSpace on 2018-05-14T19:35:09Z (GMT). No. of bitstreams: 1 DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf: 6343384 bytes, checksum: a1d91fe5b12fa5cfdedb20ec1baf5042 (MD5) Previous issue date: 2017-09-14application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/171974/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaReconhecimento de Entidades NomeadasGeologiaBacia Sedimentar BrasileiraConditional Random FieldsCorpusNamed Entity RecognitionGeologyBrazilian Sedimentary BasinCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOReconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileirasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho não apresenta restrição para publicação1974996533081274470500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpgDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpgimage/jpeg5715http://tede2.pucrs.br/tede2/bitstream/tede/8035/4/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpge32f5b9d629c348c9590193864955fe7MD54TEXTDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txtDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txttext/plain211964http://tede2.pucrs.br/tede2/bitstream/tede/8035/3/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txte5a1a4183bcf0c9b281602e1d8ddaad6MD53ORIGINALDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfDANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfapplication/pdf6343384http://tede2.pucrs.br/tede2/bitstream/tede/8035/2/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdfa1d91fe5b12fa5cfdedb20ec1baf5042MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/8035/1/license.txt5a9d6006225b368ef605ba16b4f6d1beMD51tede/80352018-05-14 20:00:57.073oai:tede2.pucrs.br:tede/8035QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2018-05-14T23:00:57Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
title |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
spellingShingle |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras Amaral, Daniela Oliveira Ferreira do Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
title_short |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
title_full |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
title_fullStr |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
title_full_unstemmed |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
title_sort |
Reconhecimento de entidades nomeadas na área da geologia : bacias sedimentares brasileiras |
author |
Amaral, Daniela Oliveira Ferreira do |
author_facet |
Amaral, Daniela Oliveira Ferreira do |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Vieira, Renata |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6218967777630412 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9264512686430709 |
dc.contributor.author.fl_str_mv |
Amaral, Daniela Oliveira Ferreira do |
contributor_str_mv |
Vieira, Renata |
dc.subject.por.fl_str_mv |
Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira |
topic |
Reconhecimento de Entidades Nomeadas Geologia Bacia Sedimentar Brasileira Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Conditional Random Fields Corpus Named Entity Recognition Geology Brazilian Sedimentary Basin |
dc.subject.cnpq.fl_str_mv |
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO |
description |
The treatment of textual information has been increasingly relevant in many do- mains. One of the first tasks for extracting information from texts is the Named Entities Recognition (NER), which consists of identifying references to certain entities and finding out their classification. There are many NER domains, among them the most usual are medicine and biology. One of the challenging domains in the recognition of Named Entities (NE) is the Geology domain, which is an area lacking computational linguistic resources. This thesis proposes a method for the recognition of relevant NE in the field of Geology, specifically to the subarea of Brazilian Sedimentary Basin, in Portuguese texts. Generic and geological features were defined for the generation of a machine learning model. Among the automatic approaches to NE classification, the most prominent is the Conditional Ran- dom Fields (CRF) probabilistic model. CRF has been effectively used for word processing in natural language. To generate our model, we created GeoCorpus, a reference corpus for Geological NER, annotated by specialists. Experimental evaluations were performed to compare the proposed method with other classifiers. The best results were achieved by CRF, which shows 76,78% of Precision and 54,33% of F-Measure. |
publishDate |
2017 |
dc.date.issued.fl_str_mv |
2017-09-14 |
dc.date.accessioned.fl_str_mv |
2018-05-14T19:35:09Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/8035 |
url |
http://tede2.pucrs.br/tede2/handle/tede/8035 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
1974996533081274470 |
dc.relation.confidence.fl_str_mv |
500 500 |
dc.relation.cnpq.fl_str_mv |
-862078257083325301 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola Politécnica |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/8035/4/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/8035/3/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/8035/2/DANIELA_OLIVEIRA_FERREIRA_DO_AMARAL_TES.pdf http://tede2.pucrs.br/tede2/bitstream/tede/8035/1/license.txt |
bitstream.checksum.fl_str_mv |
e32f5b9d629c348c9590193864955fe7 e5a1a4183bcf0c9b281602e1d8ddaad6 a1d91fe5b12fa5cfdedb20ec1baf5042 5a9d6006225b368ef605ba16b4f6d1be |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765332823375872 |