Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UnB |
Texto Completo: | http://repositorio.unb.br/handle/10482/34901 |
Resumo: | Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018. |
id |
UNB_6289ae52c38dda7432798b14a80aa8f1 |
---|---|
oai_identifier_str |
oai:repositorio.unb.br:10482/34901 |
network_acronym_str |
UNB |
network_name_str |
Repositório Institucional da UnB |
repository_id_str |
|
spelling |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionadoConstruction of a corpus to extract named entities of the Union Official Diary using supervised learningLinguística - processamento de dadosAprendizagem de máquinaEntidades nomeadas - reconhecimentoEntidades nomeadas - extraçãoDissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018.O entendimento da estrutura gramatical de uma frase é um passo importante para que os computadores sejam capazes de compreender o significado pretendido em um texto. Esta dissertação faz um estudo de quatro ferramentas que realizam processamento de linguagem natural. O trabalho explora conceitos envolvendo ferramentas que realizam PLN e utiliza uma metodologia de construção de um corpus específico que auxilie o reconhecimento de entidades da fonte de dados textual (DOU), processando o entendimento linguístico das palavras em um texto e depois comparando a quantidade e qualidade das entidades que foram reconhecidas nos textos processados. Assim, a OpenNLP foi escolhida e construiu-se um novo corpus, utilizando o aprendizado supervisionado, para que fosse elaborada uma proposta de construção de um corpus específico para extrair Entidades Nomeadas com melhor qualidade em comparação com os resultados obtidos com os corpus disponíveis. Uma arquitetura foi desenvolvida para compreender um conjunto de atividades a serem executadas na extração de Entidades Nomeadas, identificando e descrevendo a organização dos módulos, visando a codificação e especificação de cada um deles.Understanding the grammatical structure of a sentence is an important step for computers to be able to understand the meaning intended in a text. This dissertation makes a study of four tools that perform natural language processing. The work explores concepts involving tools that perform PLN and uses a methodology of construction of a specific corpus that helps the recognition of entities of the textual data source (DOU), processing the linguistic understanding of the words in a text and then comparing the quantity and quality of the entities that were recognized in the texts processed. Thus, OpenNLP was chosen and a new corpus was constructed, using supervised learning, to elaborate a proposal to build a specific corpus to extract named entities with better quality in comparison to the results obtained with the available corpus. An architecture was developed to understand a set of activities to be performed in the extraction of named entities, identifying and describing the organization of the modules, aiming at the coding and specification of each one of them.Faculdade de Tecnologia (FT)Departamento de Engenharia Elétrica (FT ENE)Programa de Pós-Graduação em Engenharia ElétricaGiozza, William FerreiraAlbuquerque, Robson de OliveiraAlles, Vanderlei Jandir2019-06-17T21:53:27Z2019-06-17T21:53:27Z2019-06-172018-12-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfALLES, Vanderlei Jandir. Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado. 2018. ix, 60 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2018.http://repositorio.unb.br/handle/10482/34901A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-03-01T16:01:12Zoai:repositorio.unb.br:10482/34901Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-03-01T16:01:12Repositório Institucional da UnB - Universidade de Brasília (UnB)false |
dc.title.none.fl_str_mv |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado Construction of a corpus to extract named entities of the Union Official Diary using supervised learning |
title |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado |
spellingShingle |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado Alles, Vanderlei Jandir Linguística - processamento de dados Aprendizagem de máquina Entidades nomeadas - reconhecimento Entidades nomeadas - extração |
title_short |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado |
title_full |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado |
title_fullStr |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado |
title_full_unstemmed |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado |
title_sort |
Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado |
author |
Alles, Vanderlei Jandir |
author_facet |
Alles, Vanderlei Jandir |
author_role |
author |
dc.contributor.none.fl_str_mv |
Giozza, William Ferreira Albuquerque, Robson de Oliveira |
dc.contributor.author.fl_str_mv |
Alles, Vanderlei Jandir |
dc.subject.por.fl_str_mv |
Linguística - processamento de dados Aprendizagem de máquina Entidades nomeadas - reconhecimento Entidades nomeadas - extração |
topic |
Linguística - processamento de dados Aprendizagem de máquina Entidades nomeadas - reconhecimento Entidades nomeadas - extração |
description |
Dissertação (mestrado)—Universidade de Brasília, Faculdade de Tecnologia, Departamento de Engenharia Elétrica, 2018. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-12-17 2019-06-17T21:53:27Z 2019-06-17T21:53:27Z 2019-06-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
ALLES, Vanderlei Jandir. Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado. 2018. ix, 60 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2018. http://repositorio.unb.br/handle/10482/34901 |
identifier_str_mv |
ALLES, Vanderlei Jandir. Construção de um corpus para extrair entidades nomeadas do Diário Oficial da União utilizando aprendizado supervisionado. 2018. ix, 60 f., il. Dissertação (Mestrado em Engenharia Elétrica)—Universidade de Brasília, Brasília, 2018. |
url |
http://repositorio.unb.br/handle/10482/34901 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Repositório Institucional da UnB |
collection |
Repositório Institucional da UnB |
repository.name.fl_str_mv |
Repositório Institucional da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
repositorio@unb.br |
_version_ |
1814508386966831104 |