Reconhecimento de entidades nomeadas para o português usando redes neurais

Detalhes bibliográficos
Autor(a) principal: Santos Neto, Joaquim Francisco dos
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/9050
Resumo: Modern approaches to Named Entity Recognition (NER) use Neural Networks to automatically extract text features and incorporate them into the classification process. Word Embeddings, a type of Language Model (LM), are a key ingredient for improving the perfor- mance of NER systems. More recently, Contextualized LM, which adapt according to the context in which the word appears, have also proved indispensable. This master’s thesis shows how different combinations of Word Embeddings and Contextualized LM impact the NER task in Portuguese. The impact of textual diversity and size of the training corpus used in the construction of LMs were explored by the results of this task. Also, a compar- ative study of 16 combinations of different LMs, contextualized and Word Embeddings, is presented. Evaluations were performed in the Mini-HAREM corpus, widely adopted in the Portuguese NER task. The best result achieved in this research surpasses the state-of- the-art approach by 5.99% in a five-category scenario and 4.31% when considering the ten HAREM categories. In addition to the HAREM assessments, specific domains of this task were also studied. The results in these cases were evaluated in Clinical, Police and Geolog- ical context corpora. Superior or competitive results were obtained for all corpora in relation to other approaches.
id P_RS_1b91fd4b9f21dc929e9a4b9bbc950db4
oai_identifier_str oai:tede2.pucrs.br:tede/9051
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Vieira, Renatahttp://lattes.cnpq.br/6511667784239144Santos Neto, Joaquim Francisco dos2019-12-03T17:20:58Z2019-11-25http://tede2.pucrs.br/tede2/handle/tede/9050Modern approaches to Named Entity Recognition (NER) use Neural Networks to automatically extract text features and incorporate them into the classification process. Word Embeddings, a type of Language Model (LM), are a key ingredient for improving the perfor- mance of NER systems. More recently, Contextualized LM, which adapt according to the context in which the word appears, have also proved indispensable. This master’s thesis shows how different combinations of Word Embeddings and Contextualized LM impact the NER task in Portuguese. The impact of textual diversity and size of the training corpus used in the construction of LMs were explored by the results of this task. Also, a compar- ative study of 16 combinations of different LMs, contextualized and Word Embeddings, is presented. Evaluations were performed in the Mini-HAREM corpus, widely adopted in the Portuguese NER task. The best result achieved in this research surpasses the state-of- the-art approach by 5.99% in a five-category scenario and 4.31% when considering the ten HAREM categories. In addition to the HAREM assessments, specific domains of this task were also studied. The results in these cases were evaluated in Clinical, Police and Geolog- ical context corpora. Superior or competitive results were obtained for all corpora in relation to other approaches.Abordagens modernas para o Reconhecimento de Entidades Nomeadas (REN) utilizam Redes Neurais para automaticamente extrair features de textos e as incorporar no processo de classificação. Word Embeddings, que é um tipo de Modelo de Linguagem (ML), é um ingrediente chave para melhorar a performance dos sistemas de REN. Mais recentemente, ML Contextualizados, que se adaptam de acordo com o contexto em que a palavra aparece, também se mostraram indispensáveis. Nessa dissertação, mostra-se como diferentes combinações de Word Embeddings e ML Contextualizados impactam na tarefa de REN em língua portuguesa. Foi explorado como a diversidade textual e o tama- nho do corpus de treino usado nos ML impactam nos resultados dessa tarefa. Também, é apresentado um estudo comparativo de 16 combinações de diferentes ML entre contextua- lizados e Word Embeddings. As avaliações foram realizadas no corpus Mini-HAREM, am- plamente adotado neste tema. O melhor resultado alcançado nesta pesquisa, ultrapassa a abordagem estado-da-arte em 5,99%, em um cenário de cinco categorias, e 4,31% quando são consideradas as dez categorias do HAREM. Além das avaliações no HAREM, também foram estudados domínios específicos dessa tarefa. Os resultados nestes casos, foram avaliados nos corpora de contexto Clínico, Policial e Geológico. Em todos, foram obtidos resultados superiores ou competitivos em relação a outras abordagens.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2019-12-02T13:13:08Z No. of bitstreams: 1 JOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf: 1999007 bytes, checksum: 3083cf51cdef6f9fdd9a575d561b1e3f (MD5)Approved for entry into archive by Sarajane Pan (sarajane.pan@pucrs.br) on 2019-12-03T17:09:23Z (GMT) No. of bitstreams: 1 JOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf: 1999007 bytes, checksum: 3083cf51cdef6f9fdd9a575d561b1e3f (MD5)Made available in DSpace on 2019-12-03T17:20:58Z (GMT). No. of bitstreams: 1 JOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf: 1999007 bytes, checksum: 3083cf51cdef6f9fdd9a575d561b1e3f (MD5) Previous issue date: 2019-11-25application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/177359/JOAQUIM%20FRANCISCO%20DOS%20SANTOS%20NETO_DIS.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaReconhecimento de Entidades NomeadasModelos de LinguagemRedes NeuraisNamed Entity RecognitionLanguage ModelsNeural NetworksCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOReconhecimento de entidades nomeadas para o português usando redes neuraisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILJOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf.jpgJOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf.jpgimage/jpeg5676http://tede2.pucrs.br/tede2/bitstream/tede/9051/4/JOAQUIM+FRANCISCO+DOS+SANTOS+NETO_DIS.pdf.jpgb639c1caa9f38181f957872781babf82MD54TEXTJOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf.txtJOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdf.txttext/plain137000http://tede2.pucrs.br/tede2/bitstream/tede/9051/3/JOAQUIM+FRANCISCO+DOS+SANTOS+NETO_DIS.pdf.txt671644d340bec3b79950054f514afc0dMD53ORIGINALJOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdfJOAQUIM FRANCISCO DOS SANTOS NETO_DIS.pdfapplication/pdf1999007http://tede2.pucrs.br/tede2/bitstream/tede/9051/2/JOAQUIM+FRANCISCO+DOS+SANTOS+NETO_DIS.pdf3083cf51cdef6f9fdd9a575d561b1e3fMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9051/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/90512019-12-03 20:00:27.089oai:tede2.pucrs.br:tede/9051QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2019-12-03T22:00:27Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Reconhecimento de entidades nomeadas para o português usando redes neurais
title Reconhecimento de entidades nomeadas para o português usando redes neurais
spellingShingle Reconhecimento de entidades nomeadas para o português usando redes neurais
Santos Neto, Joaquim Francisco dos
Reconhecimento de Entidades Nomeadas
Modelos de Linguagem
Redes Neurais
Named Entity Recognition
Language Models
Neural Networks
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Reconhecimento de entidades nomeadas para o português usando redes neurais
title_full Reconhecimento de entidades nomeadas para o português usando redes neurais
title_fullStr Reconhecimento de entidades nomeadas para o português usando redes neurais
title_full_unstemmed Reconhecimento de entidades nomeadas para o português usando redes neurais
title_sort Reconhecimento de entidades nomeadas para o português usando redes neurais
author Santos Neto, Joaquim Francisco dos
author_facet Santos Neto, Joaquim Francisco dos
author_role author
dc.contributor.advisor1.fl_str_mv Vieira, Renata
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6511667784239144
dc.contributor.author.fl_str_mv Santos Neto, Joaquim Francisco dos
contributor_str_mv Vieira, Renata
dc.subject.por.fl_str_mv Reconhecimento de Entidades Nomeadas
Modelos de Linguagem
Redes Neurais
topic Reconhecimento de Entidades Nomeadas
Modelos de Linguagem
Redes Neurais
Named Entity Recognition
Language Models
Neural Networks
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Named Entity Recognition
Language Models
Neural Networks
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Modern approaches to Named Entity Recognition (NER) use Neural Networks to automatically extract text features and incorporate them into the classification process. Word Embeddings, a type of Language Model (LM), are a key ingredient for improving the perfor- mance of NER systems. More recently, Contextualized LM, which adapt according to the context in which the word appears, have also proved indispensable. This master’s thesis shows how different combinations of Word Embeddings and Contextualized LM impact the NER task in Portuguese. The impact of textual diversity and size of the training corpus used in the construction of LMs were explored by the results of this task. Also, a compar- ative study of 16 combinations of different LMs, contextualized and Word Embeddings, is presented. Evaluations were performed in the Mini-HAREM corpus, widely adopted in the Portuguese NER task. The best result achieved in this research surpasses the state-of- the-art approach by 5.99% in a five-category scenario and 4.31% when considering the ten HAREM categories. In addition to the HAREM assessments, specific domains of this task were also studied. The results in these cases were evaluated in Clinical, Police and Geolog- ical context corpora. Superior or competitive results were obtained for all corpora in relation to other approaches.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-12-03T17:20:58Z
dc.date.issued.fl_str_mv 2019-11-25
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/9050
url http://tede2.pucrs.br/tede2/handle/tede/9050
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/9051/4/JOAQUIM+FRANCISCO+DOS+SANTOS+NETO_DIS.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/9051/3/JOAQUIM+FRANCISCO+DOS+SANTOS+NETO_DIS.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/9051/2/JOAQUIM+FRANCISCO+DOS+SANTOS+NETO_DIS.pdf
http://tede2.pucrs.br/tede2/bitstream/tede/9051/1/license.txt
bitstream.checksum.fl_str_mv b639c1caa9f38181f957872781babf82
671644d340bec3b79950054f514afc0d
3083cf51cdef6f9fdd9a575d561b1e3f
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765343555551232