Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSC |
Texto Completo: | https://repositorio.ufsc.br/handle/123456789/191926 |
Resumo: | TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e Comunicação |
id |
UFSC_16f5aadedc2494627b09a3bbdd663889 |
---|---|
oai_identifier_str |
oai:repositorio.ufsc.br:123456789/191926 |
network_acronym_str |
UFSC |
network_name_str |
Repositório Institucional da UFSC |
repository_id_str |
2373 |
spelling |
Reconhecimento de Entidades Nomeadas em Documentos de Língua PortuguesaReconhecimento de Entidades NomeadasLíngua PortuguesaProcessamento de Linguagem NaturalAprendizado de MáquinaTCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e ComunicaçãoAtualmente existe um grande volume de documentos pessoais e oficias, que trafegam na internet em diversos formatos, tais como doc, pdf, txt, que podem ter seus conteúdos analisados computacionalmente e assim agilizar em diversos processos executados com tais informações. Desta forma faz-se necessário a existência de procedimentos para realizar a análise destes documentos, e uma das ferramentas para esta tarefa é o Reconhecimento de Entidades Nomeadas (REN). Este trabalho tem como objetivo realizar um estudo sobre a aplicação e resultados que se pode obter em documentos redigidos de acordo com a norma culta da língua portuguesa. Para tal estudou-se os conceitos fundamentais relacionados ao Processamento de Linguagem Natural (PLN) e o tratamento de documentos em formato PDF. Foi feito um estudo de algumas ferramentas e corpus existentes, para textos escritos em português. Utilizou-se o framework spaCy, juntamente com o corpus HAREM e alguns documentos oficiais. A automatização na detecção de entidades nomeadas e seus vínculos em documentos escritos em língua portuguesa, pode ser viável utilizando-se as ferramentas e bases de dados já existentes. Entretanto, a dificuldade ainda são grandes e resultados que podem ser melhorados, visto que a identificação correta dessas entidades ainda não superou os 90% de acurácia.Currently there is a large volume of personal and official documents, which circulate in internet in several formats, such as doc, pdf, txt, which can have their contents analyzed computationally and thus streamline in several processes executed with such information. In this way it is necessary to have procedures to perform the analysis of these documents, and one of the tools for this task is the Named Entities Recognition (NER). This task aims to conduct a study on the application and results that can be obtained in documents drafted according to the cultured norm of the Portuguese language. For that, we studied the fundamental concepts related to the Natural Language Processing (NLP) and the treatment of documents in PDF format. There was a study of some existing tools and corporations, for texts written in Portuguese. We used the spaCy framework, along with the HAREM corpus and some official documents. The automation in the detection of named entities and their links in documents written in Portuguese language can be viable using existing tools and databases. However, the difficulty is still great and results can be improved, since the correct identification of these entities hasn't yet exceeded 90% accuracy.Araranguá, SCRamos, Vinicius Faria CulmantUniversidade Federal de Santa CatarinaMôro, Diefferson Koderer2018-12-05T22:27:18Z2018-12-05T22:27:18Z2018-11-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis38application/pdfhttps://repositorio.ufsc.br/handle/123456789/191926info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2018-12-05T22:27:18Zoai:repositorio.ufsc.br:123456789/191926Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732018-12-05T22:27:18Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false |
dc.title.none.fl_str_mv |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
title |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
spellingShingle |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa Môro, Diefferson Koderer Reconhecimento de Entidades Nomeadas Língua Portuguesa Processamento de Linguagem Natural Aprendizado de Máquina |
title_short |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
title_full |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
title_fullStr |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
title_full_unstemmed |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
title_sort |
Reconhecimento de Entidades Nomeadas em Documentos de Língua Portuguesa |
author |
Môro, Diefferson Koderer |
author_facet |
Môro, Diefferson Koderer |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ramos, Vinicius Faria Culmant Universidade Federal de Santa Catarina |
dc.contributor.author.fl_str_mv |
Môro, Diefferson Koderer |
dc.subject.por.fl_str_mv |
Reconhecimento de Entidades Nomeadas Língua Portuguesa Processamento de Linguagem Natural Aprendizado de Máquina |
topic |
Reconhecimento de Entidades Nomeadas Língua Portuguesa Processamento de Linguagem Natural Aprendizado de Máquina |
description |
TCC (graduação) - Universidade Federal de Santa Catarina. Campus Araranguá. Tecnologias da Informação e Comunicação |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-12-05T22:27:18Z 2018-12-05T22:27:18Z 2018-11-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufsc.br/handle/123456789/191926 |
url |
https://repositorio.ufsc.br/handle/123456789/191926 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
38 application/pdf |
dc.publisher.none.fl_str_mv |
Araranguá, SC |
publisher.none.fl_str_mv |
Araranguá, SC |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC |
instname_str |
Universidade Federal de Santa Catarina (UFSC) |
instacron_str |
UFSC |
institution |
UFSC |
reponame_str |
Repositório Institucional da UFSC |
collection |
Repositório Institucional da UFSC |
repository.name.fl_str_mv |
Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC) |
repository.mail.fl_str_mv |
|
_version_ |
1808652404726431744 |