Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado

Detalhes bibliográficos
Autor(a) principal: Alles, Vanderlei Jandir
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/34901
Resumo: Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018.
id UNB_6289ae52c38dda7432798b14a80aa8f1
oai_identifier_str oai:repositorio.unb.br:10482/34901
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionadoConstruction of a corpus to extract named entities of the Union Official Diary using supervised learningLinguística - processamento de dadosAprendizagem de máquinaEntidades nomeadas - reconhecimentoEntidades nomeadas - extraçãoDissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018.O entendimento da estrutura gramatical de uma frase é um passo importante para que os computadores sejam capazes de compreender o significado pretendido em um texto. Esta dissertação faz um estudo de quatro ferramentas que realizam processamento de linguagem natural. O trabalho explora conceitos envolvendo ferramentas que realizam PLN e utiliza uma metodologia de construção de um corpus específico que auxilie o reconhecimento de entidades da fonte de dados textual (DOU), processando o entendimento linguístico das palavras em um texto e depois comparando a quantidade e qualidade das entidades que foram reconhecidas nos textos processados. Assim, a OpenNLP foi escolhida e construiu-se um novo corpus, utilizando o aprendizado supervisionado, para que fosse elaborada uma proposta de construção de um corpus específico para extrair Entidades Nomeadas com melhor qualidade em comparação com os resultados obtidos com os corpus disponíveis. Uma arquitetura foi desenvolvida para compreender um conjunto de atividades a serem executadas na extração de Entidades Nomeadas, identificando e descrevendo a organização dos módulos, visando a codificação e especificação de cada um deles.Understanding the grammatical structure of a sentence is an important step for computers to be able to understand the meaning intended in a text. This dissertation makes a study of four tools that perform natural language processing. The work explores concepts involving tools that perform PLN and uses a methodology of construction of a specific corpus that helps the recognition of entities of the textual data source (DOU), processing the linguistic understanding of the words in a text and then comparing the quantity and quality of the entities that were recognized in the texts processed. Thus, OpenNLP was chosen and a new corpus was constructed, using supervised learning, to elaborate a proposal to build a specific corpus to extract named entities with better quality in comparison to the results obtained with the available corpus. An architecture was developed to understand a set of activities to be performed in the extraction of named entities, identifying and describing the organization of the modules, aiming at the coding and specification of each one of them.Faculdade de Tecnologia (FT)Departamento de Engenharia Elétrica (FT ENE)Programa de Pós-Graduação em Engenharia ElétricaGiozza, William FerreiraAlbuquerque, Robson de OliveiraAlles, Vanderlei Jandir2019-06-17T21:53:27Z2019-06-17T21:53:27Z2019-06-172018-12-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfALLES, Vanderlei Jandir. Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado. 2018. ix, 60 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2018.http://repositorio.unb.br/handle/10482/34901A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-03-01T16:01:12Zoai:repositorio.unb.br:10482/34901Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-03-01T16:01:12Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
Construction of a corpus to extract named entities of the Union Official Diary using supervised learning
title Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
spellingShingle Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
Alles, Vanderlei Jandir
Linguística - processamento de dados
Aprendizagem de máquina
Entidades nomeadas - reconhecimento
Entidades nomeadas - extração
title_short Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
title_full Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
title_fullStr Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
title_full_unstemmed Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
title_sort Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
author Alles, Vanderlei Jandir
author_facet Alles, Vanderlei Jandir
author_role author
dc.contributor.none.fl_str_mv Giozza, William Ferreira
Albuquerque, Robson de Oliveira
dc.contributor.author.fl_str_mv Alles, Vanderlei Jandir
dc.subject.por.fl_str_mv Linguística - processamento de dados
Aprendizagem de máquina
Entidades nomeadas - reconhecimento
Entidades nomeadas - extração
topic Linguística - processamento de dados
Aprendizagem de máquina
Entidades nomeadas - reconhecimento
Entidades nomeadas - extração
description Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018.
publishDate 2018
dc.date.none.fl_str_mv 2018-12-17
2019-06-17T21:53:27Z
2019-06-17T21:53:27Z
2019-06-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ALLES, Vanderlei Jandir. Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado. 2018. ix, 60 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2018.
http://repositorio.unb.br/handle/10482/34901
identifier_str_mv ALLES, Vanderlei Jandir. Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado. 2018. ix, 60 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2018.
url http://repositorio.unb.br/handle/10482/34901
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1814508386966831104