Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa

Detalhes bibliográficos
Autor(a) principal: Môro, Diefferson Koderer
Data de Publicação: 2018
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/191926
Resumo: TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e Comunicação
id UFSC_16f5aadedc2494627b09a3bbdd663889
oai_identifier_str oai:repositorio.ufsc.br:123456789/191926
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaMôro, Diefferson KodererRamos, Vinicius Faria Culmant2018-12-05T22:27:18Z2018-12-05T22:27:18Z2018-11-29https://repositorio.ufsc.br/handle/123456789/191926TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e ComunicaçãoAtualmente existe um grande volume de documentos pessoais e oficias, que trafegam na internet em diversos formatos, tais como doc, pdf, txt, que podem ter seus conteúdos analisados computacionalmente e assim agilizar em diversos processos executados com tais informações. Desta forma faz-se necessário a existência de procedimentos para realizar a análise destes documentos, e uma das ferramentas para esta tarefa é o Reconhecimento de Entidades Nomeadas (REN). Este trabalho tem como objetivo realizar um estudo sobre a aplicação e resultados que se pode obter em documentos redigidos de acordo com a norma culta da língua portuguesa. Para tal estudou-se os conceitos fundamentais relacionados ao Processamento de Linguagem Natural (PLN) e o tratamento de documentos em formato PDF. Foi feito um estudo de algumas ferramentas e corpus existentes, para textos escritos em português. Utilizou-se o framework spaCy, juntamente com o corpus HAREM e alguns documentos oficiais. A automatização na detecção de entidades nomeadas e seus vínculos em documentos escritos em língua portuguesa, pode ser viável utilizando-se as ferramentas e bases de dados já existentes. Entretanto, a dificuldade ainda são grandes e resultados que podem ser melhorados, visto que a identificação correta dessas entidades ainda não superou os 90% de acurácia.Currently there is a large volume of personal and official documents, which circulate in internet in several formats, such as doc, pdf, txt, which can have their contents analyzed computationally and thus streamline in several processes executed with such information. In this way it is necessary to have procedures to perform the analysis of these documents, and one of the tools for this task is the Named Entities Recognition (NER). This task aims to conduct a study on the application and results that can be obtained in documents drafted according to the cultured norm of the Portuguese language. For that, we studied the fundamental concepts related to the Natural Language Processing (NLP) and the treatment of documents in PDF format. There was a study of some existing tools and corporations, for texts written in Portuguese. We used the spaCy framework, along with the HAREM corpus and some official documents. The automation in the detection of named entities and their links in documents written in Portuguese language can be viable using existing tools and databases. However, the difficulty is still great and results can be improved, since the correct identification of these entities hasn't yet exceeded 90% accuracy.38Araranguá, SCReconhecimento de Entidades NomeadasLíngua PortuguesaProcessamento de Linguagem NaturalAprendizado de MáquinaReconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCLICENSElicense.txtlicense.txttext/plain; charset=utf-81383https://repositorio.ufsc.br/bitstream/123456789/191926/2/license.txt11ee89cd31d893362820eab7c4d46734MD52ORIGINALtcc_diefferson_koderer_moro.pdftcc_diefferson_koderer_moro.pdfapplication/pdf905731https://repositorio.ufsc.br/bitstream/123456789/191926/1/tcc_diefferson_koderer_moro.pdf4a258be905a2d3397a2ae616c1a56ca2MD51123456789/1919262018-12-05 20:27:18.848oai:repositorio.ufsc.br:123456789/191926Vm9jw6ogdGVtIGEgbGliZXJkYWRlIGRlOiBDb21wYXJ0aWxoYXIg4oCUIGNvcGlhciwgZGlzdHJpYnVpciBlIHRyYW5zbWl0aXIgYSBvYnJhLiBSZW1peGFyIOKAlCBjcmlhciBvYnJhcyBkZXJpdmFkYXMuClNvYiBhcyBzZWd1aW50ZXMgY29uZGnDp8O1ZXM6IEF0cmlidWnDp8OjbyDigJQgVm9jw6ogZGV2ZSBjcmVkaXRhciBhIG9icmEgZGEgZm9ybWEgZXNwZWNpZmljYWRhIHBlbG8gYXV0b3Igb3UgbGljZW5jaWFudGUgKG1hcyBuw6NvIGRlIG1hbmVpcmEgcXVlIHN1Z2lyYSBxdWUgZXN0ZXMgY29uY2VkZW0gcXVhbHF1ZXIgYXZhbCBhIHZvY8OqIG91IGFvIHNldSB1c28gZGEgb2JyYSkuIFVzbyBuw6NvLWNvbWVyY2lhbCDigJQgVm9jw6ogbsOjbyBwb2RlIHVzYXIgZXN0YSBvYnJhIHBhcmEgZmlucyBjb21lcmNpYWlzLgpGaWNhbmRvIGNsYXJvIHF1ZTogUmVuw7puY2lhIOKAlCBRdWFscXVlciBkYXMgY29uZGnDp8O1ZXMgYWNpbWEgcG9kZSBzZXIgcmVudW5jaWFkYSBzZSB2b2PDqiBvYnRpdmVyIHBlcm1pc3PDo28gZG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMuIERvbcOtbmlvIFDDumJsaWNvIOKAlCBPbmRlIGEgb2JyYSBvdSBxdWFscXVlciBkZSBzZXVzIGVsZW1lbnRvcyBlc3RpdmVyIGVtIGRvbcOtbmlvIHDDumJsaWNvIHNvYiBvIGRpcmVpdG8gYXBsaWPDoXZlbCwgZXN0YSBjb25kacOnw6NvIG7Do28gw6ksIGRlIG1hbmVpcmEgYWxndW1hLCBhZmV0YWRhIHBlbGEgbGljZW7Dp2EuIE91dHJvcyBEaXJlaXRvcyDigJQgT3Mgc2VndWludGVzIGRpcmVpdG9zIG7Do28gc8OjbywgZGUgbWFuZWlyYSBhbGd1bWEsIGFmZXRhZG9zIHBlbGEgbGljZW7Dp2E6IExpbWl0YcOnw7VlcyBlIGV4Y2XDp8O1ZXMgYW9zIGRpcmVpdG9zIGF1dG9yYWlzIG91IHF1YWlzcXVlciB1c29zIGxpdnJlcyBhcGxpY8OhdmVpczsgT3MgZGlyZWl0b3MgbW9yYWlzIGRvIGF1dG9yOyBEaXJlaXRvcyBxdWUgb3V0cmFzIHBlc3NvYXMgcG9kZW0gdGVyIHNvYnJlIGEgb2JyYSBvdSBzb2JyZSBhIHV0aWxpemHDp8OjbyBkYSBvYnJhLCB0YWlzIGNvbW8gZGlyZWl0b3MgZGUgaW1hZ2VtIG91IHByaXZhY2lkYWRlLiBBdmlzbyDigJQgUGFyYSBxdWFscXVlciByZXV0aWxpemHDp8OjbyBvdSBkaXN0cmlidWnDp8Ojbywgdm9jw6ogZGV2ZSBkZWl4YXIgY2xhcm8gYSB0ZXJjZWlyb3Mgb3MgdGVybW9zIGRhIGxpY2Vuw6dhIGEgcXVlIHNlIGVuY29udHJhIHN1Ym1ldGlkYSBlc3RhIG9icmEuIEEgbWVsaG9yIG1hbmVpcmEgZGUgZmF6ZXIgaXNzbyDDqSBjb20gdW0gbGluayBwYXJhIGVzdGEgcMOhZ2luYS4KTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyAtIGh0dHA6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLzMuMC9ici8KRepositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732018-12-05T22:27:18Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
title Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
spellingShingle Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
Môro, Diefferson Koderer
Reconhecimento de Entidades Nomeadas
Língua Portuguesa
Processamento de Linguagem Natural
Aprendizado de Máquina
title_short Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
title_full Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
title_fullStr Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
title_full_unstemmed Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
title_sort Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
author Môro, Diefferson Koderer
author_facet Môro, Diefferson Koderer
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Môro, Diefferson Koderer
dc.contributor.advisor1.fl_str_mv Ramos, Vinicius Faria Culmant
contributor_str_mv Ramos, Vinicius Faria Culmant
dc.subject.por.fl_str_mv Reconhecimento de Entidades Nomeadas
Língua Portuguesa
Processamento de Linguagem Natural
Aprendizado de Máquina
topic Reconhecimento de Entidades Nomeadas
Língua Portuguesa
Processamento de Linguagem Natural
Aprendizado de Máquina
description TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e Comunicação
publishDate 2018
dc.date.accessioned.fl_str_mv 2018-12-05T22:27:18Z
dc.date.available.fl_str_mv 2018-12-05T22:27:18Z
dc.date.issued.fl_str_mv 2018-11-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/191926
url https://repositorio.ufsc.br/handle/123456789/191926
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 38
dc.publisher.none.fl_str_mv Araranguá, SC
publisher.none.fl_str_mv Araranguá, SC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/191926/2/license.txt
https://repositorio.ufsc.br/bitstream/123456789/191926/1/tcc_diefferson_koderer_moro.pdf
bitstream.checksum.fl_str_mv 11ee89cd31d893362820eab7c4d46734
4a258be905a2d3397a2ae616c1a56ca2
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766805476926816256