Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UEFS |
Texto Completo: | http://localhost:8080/tede/handle/tede/554 |
Resumo: | The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora. |
id |
UEFS_e4c5e2260c55957ee192bbc5dbab96e6 |
---|---|
oai_identifier_str |
oai:tede2.uefs.br:8080:tede/554 |
network_acronym_str |
UEFS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UEFS |
repository_id_str |
|
spelling |
Rocha Júnior, João Batista da02778818464http://lattes.cnpq.br/630437754910179205274276598http://lattes.cnpq.br/7921666581215863Santos, Jadson da Silva2018-01-24T22:42:26Z2016-09-09SANTOS, Jadson da Silva. Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas. 2016. 81 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, 2016.http://localhost:8080/tede/handle/tede/554The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora.O processo de Reconhecimento de Entidades Nomeadas (REN) é a tarefa de iden- tificar termos relevantes em textos e atribuí-los um rótulo. Tais palavras podem referenciar nomes de pessoas, organizações e locais. A variedade de técnicas que podem ser usadas no processo de reconhecimento de entidades nomeadas é grande. As técnicas podem ser classificadas em três abordagens distintas: baseadas em regras, baseadas em aprendizagem de máquina e híbridas. No que diz respeito as abordagens de aprendizagem de máquina, diversos fatores podem influenciar sua exatidaõ, incluindo o classificador selecionado, o conjunto de features extraídas dos termos, as características das bases textuais e o número de rótulos de entidades. Neste trabalho, comparamos classificadores que utilizam aprendizagem de máquina aplicadas a tarefa do REN. O estudo comparativo inclui classificadores baseados no CRF (Condicional Random Fields), MEMM (Maximum Entropy Markov Model) e HMM (Hidden Markov Model), os quais são comparados em dois corporas em português derivados do WikiNer, e HAREM, e dois corporas em inglês derivados doCoNLL-03 e WikiNer. A comparação dos classificadores demonstra que o CRF é superior aos demais classificadores, tanto com textos em português, quanto inglês. Este estudo também inclui a comparação da contribuição, individual e em conjunto de features, incluindo features de contexto, além da comparação do REN por r´otulos de entidades nomeadas, entre os classificadores e os corpora.Submitted by Jadson Francisco de Jesus SILVA (jadson@uefs.br) on 2018-01-24T22:42:26Z No. of bitstreams: 1 JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5)Made available in DSpace on 2018-01-24T22:42:26Z (GMT). No. of bitstreams: 1 JadsonDisst.pdf: 3499973 bytes, checksum: 5deaf9020f758e9c07f86e9e62890129 (MD5) Previous issue date: 2016-09-09application/pdfporUniversidade Estadual de Feira de SantanaMestrado em Computação AplicadaUEFSBrasilDEPARTAMENTO DE TECNOLOGIAReconhecimento de Entidades NomeadasAprendizagem de MáquinaExtração de InformaçãoProcessamento de Linguagem NaturalNamed Entity RecognitionMachine LearningInformation ExtractionNatural Linguage ProcessMETODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOEstudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis3033172823111442046006006004335108523020347051-651669516009542875info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UEFSinstname:Universidade Estadual de Feira de Santana (UEFS)instacron:UEFSORIGINALJadsonDisst.pdfJadsonDisst.pdfapplication/pdf3499973http://tede2.uefs.br:8080/bitstream/tede/554/2/JadsonDisst.pdf5deaf9020f758e9c07f86e9e62890129MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82089http://tede2.uefs.br:8080/bitstream/tede/554/1/license.txt7b5ba3d2445355f386edab96125d42b7MD51tede/5542018-01-24 19:42:26.286oai:tede2.uefs.br:8080:tede/554Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSP1BSSUEgTElDRU4/QQpFc3RhIGxpY2VuP2EgZGUgZXhlbXBsbyA/IGZvcm5lY2lkYSBhcGVuYXMgcGFyYSBmaW5zIGluZm9ybWF0aXZvcy4KCkxJQ0VOP0EgREUgRElTVFJJQlVJPz9PIE4/Ty1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YT8/byBkZXN0YSBsaWNlbj9hLCB2b2M/IChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSA/IFVuaXZlcnNpZGFkZSAKWFhYIChTaWdsYSBkYSBVbml2ZXJzaWRhZGUpIG8gZGlyZWl0byBuP28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdSAKZGlzdHJpYnVpciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhPz9vIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyP25pY28gZSAKZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zID91ZGlvIG91IHY/ZGVvLgoKVm9jPyBjb25jb3JkYSBxdWUgYSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZT9kbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YT8/byAKcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhPz9vLgoKVm9jPyB0YW1iP20gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGM/cGlhIGEgc3VhIHRlc2Ugb3UgCmRpc3NlcnRhPz9vIHBhcmEgZmlucyBkZSBzZWd1cmFuP2EsIGJhY2stdXAgZSBwcmVzZXJ2YT8/by4KClZvYz8gZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YT8/byA/IG9yaWdpbmFsIGUgcXVlIHZvYz8gdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgCm5lc3RhIGxpY2VuP2EuIFZvYz8gdGFtYj9tIGRlY2xhcmEgcXVlIG8gZGVwP3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGE/P28gbj9vLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3U/bS4KCkNhc28gYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YT8/byBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jPyBuP28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jPyAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzcz9vIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgPyBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgCm9zIGRpcmVpdG9zIGFwcmVzZW50YWRvcyBuZXN0YSBsaWNlbj9hLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3Q/IGNsYXJhbWVudGUgCmlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91IG5vIGNvbnRlP2RvIGRhIHRlc2Ugb3UgZGlzc2VydGE/P28gb3JhIGRlcG9zaXRhZGEuCgpDQVNPIEEgVEVTRSBPVSBESVNTRVJUQT8/TyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0M/TklPIE9VIApBUE9JTyBERSBVTUEgQUc/TkNJQSBERSBGT01FTlRPIE9VIE9VVFJPIE9SR0FOSVNNTyBRVUUgTj9PIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0M/IERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJUz9PIENPTU8gClRBTUI/TSBBUyBERU1BSVMgT0JSSUdBPz9FUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBTaWdsYSBkZSBVbml2ZXJzaWRhZGUgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGE/P28sIGUgbj9vIGZhcj8gcXVhbHF1ZXIgYWx0ZXJhPz9vLCBhbD9tIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2VuP2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.uefs.br:8080/PUBhttp://tede2.uefs.br:8080/oai/requestbcuefs@uefs.br|| bcref@uefs.br||bcuefs@uefs.bropendoar:2018-01-24T22:42:26Biblioteca Digital de Teses e Dissertações da UEFS - Universidade Estadual de Feira de Santana (UEFS)false |
dc.title.por.fl_str_mv |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
title |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
spellingShingle |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas Santos, Jadson da Silva Reconhecimento de Entidades Nomeadas Aprendizagem de Máquina Extração de Informação Processamento de Linguagem Natural Named Entity Recognition Machine Learning Information Extraction Natural Linguage Process METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
title_short |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
title_full |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
title_fullStr |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
title_full_unstemmed |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
title_sort |
Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas |
author |
Santos, Jadson da Silva |
author_facet |
Santos, Jadson da Silva |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Rocha Júnior, João Batista da |
dc.contributor.advisor1ID.fl_str_mv |
02778818464 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6304377549101792 |
dc.contributor.authorID.fl_str_mv |
05274276598 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/7921666581215863 |
dc.contributor.author.fl_str_mv |
Santos, Jadson da Silva |
contributor_str_mv |
Rocha Júnior, João Batista da |
dc.subject.por.fl_str_mv |
Reconhecimento de Entidades Nomeadas Aprendizagem de Máquina Extração de Informação Processamento de Linguagem Natural |
topic |
Reconhecimento de Entidades Nomeadas Aprendizagem de Máquina Extração de Informação Processamento de Linguagem Natural Named Entity Recognition Machine Learning Information Extraction Natural Linguage Process METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
dc.subject.eng.fl_str_mv |
Named Entity Recognition Machine Learning Information Extraction Natural Linguage Process |
dc.subject.cnpq.fl_str_mv |
METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO |
description |
The Named Entity Recognition (NER) process is the task of identifying relevant termsintextsandassigningthemalabel.Suchwordscanreferencenamesofpeople, organizations, and places. The variety of techniques that can be used in the named entityrecognitionprocessislarge.Thetechniquescanbeclassifiedintothreedistinct approaches: rule-based, machine learning and hybrid. Concerning to the machine learningapproaches,severalfactorsmayinfluenceitsaccuracy,includingtheselected classifier, the set of features extracted from the terms, the characteristics of the textual bases, and the number of entity labels. In this work, we compared classifiers that use machine learning applied to the NER task. The comparative study includes classifiers based on CRF (Conditional Random Fields), MEMM (MaximumEntropy Markov Model) and HMM (Hidden Markov Model), which are compared in two corpora in Portuguese derived from WikiNer, and HAREM, and two corporas in English derived from CoNLL-03 and WikiNer. The comparison of the classifiers shows that the CRF is superior to the other classifiers, both with Portuguese and English texts. This study also includes the comparison of the individual and joint contribution of features, including contextual features, besides the comparison ofthe NER per named entity labels, between classifiers andcorpora. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016-09-09 |
dc.date.accessioned.fl_str_mv |
2018-01-24T22:42:26Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SANTOS, Jadson da Silva. Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas. 2016. 81 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, 2016. |
dc.identifier.uri.fl_str_mv |
http://localhost:8080/tede/handle/tede/554 |
identifier_str_mv |
SANTOS, Jadson da Silva. Estudo comparativo de diferentes classificadores baseados em aprendizagem de máquina para o processo de Reconhecimento de Entidades Nomeadas. 2016. 81 f. Dissertação (Mestrado em Computação Aplicada) - Universidade Estadual de Feira de Santana, Feira de Santana, 2016. |
url |
http://localhost:8080/tede/handle/tede/554 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
303317282311144204 |
dc.relation.confidence.fl_str_mv |
600 600 600 |
dc.relation.department.fl_str_mv |
4335108523020347051 |
dc.relation.cnpq.fl_str_mv |
-651669516009542875 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual de Feira de Santana |
dc.publisher.program.fl_str_mv |
Mestrado em Computação Aplicada |
dc.publisher.initials.fl_str_mv |
UEFS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
DEPARTAMENTO DE TECNOLOGIA |
publisher.none.fl_str_mv |
Universidade Estadual de Feira de Santana |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UEFS instname:Universidade Estadual de Feira de Santana (UEFS) instacron:UEFS |
instname_str |
Universidade Estadual de Feira de Santana (UEFS) |
instacron_str |
UEFS |
institution |
UEFS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UEFS |
collection |
Biblioteca Digital de Teses e Dissertações da UEFS |
bitstream.url.fl_str_mv |
http://tede2.uefs.br:8080/bitstream/tede/554/2/JadsonDisst.pdf http://tede2.uefs.br:8080/bitstream/tede/554/1/license.txt |
bitstream.checksum.fl_str_mv |
5deaf9020f758e9c07f86e9e62890129 7b5ba3d2445355f386edab96125d42b7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UEFS - Universidade Estadual de Feira de Santana (UEFS) |
repository.mail.fl_str_mv |
bcuefs@uefs.br|| bcref@uefs.br||bcuefs@uefs.br |
_version_ |
1809288773661360128 |