ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/218605 |
Resumo: | Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros. |
id |
UFRGS-2_b52b515cf21f346583998562043898e5 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/218605 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Schmitz, ChristianGalante, Renata de MatosManica, Edimar2021-03-11T04:23:38Z2020http://hdl.handle.net/10183/218605001123333Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros.Portarias are documents issued by federal institutional organizations that contain, among others, information regarding the staff of institutions. These documents are accessible through public repositories from each institution that, in general, do not allow any type of filter or advanced search on documents’ contents. Through the ACERPI approach developed in this work, the creation of a document oriented database (MongoDB) is carried out for advanced queries regarding the documents related to an institution’s employee, as well as which employees are referenced in a given published document. In order to do this, techniques are used to discover, obtain, convert and structure documents, extract information and link entities (employees, in the context of this work). Experiments with data from the Federal University of Rio Grande do Sul and the Federal Institute of Rio Grande do Sul, Campus Ibirubá, demonstrate and explain the main challenges encountered when applying the approach to two data sources. Finally, improvement points and future work are discussed.application/pdfengInformáticaDocuments retrievalInformation extractionEntity resolutionACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionaisACERPI: an approach for document collection, information extraction and entity resolution in federal institutions’ documents from Brazil info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2020Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001123333.pdf.txt001123333.pdf.txtExtracted Texttext/plain94062http://www.lume.ufrgs.br/bitstream/10183/218605/2/001123333.pdf.txtcf47a261ec6fd2d0e5988497a46757cfMD52ORIGINAL001123333.pdfTexto completoapplication/pdf812133http://www.lume.ufrgs.br/bitstream/10183/218605/1/001123333.pdfd1c70817bd4afe513f4e7d88c7034f92MD5110183/2186052021-05-07 04:48:02.360918oai:www.lume.ufrgs.br:10183/218605Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-05-07T07:48:02Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
dc.title.alternative.en.fl_str_mv |
ACERPI: an approach for document collection, information extraction and entity resolution in federal institutions’ documents from Brazil |
title |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
spellingShingle |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais Schmitz, Christian Informática Documents retrieval Information extraction Entity resolution |
title_short |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
title_full |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
title_fullStr |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
title_full_unstemmed |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
title_sort |
ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais |
author |
Schmitz, Christian |
author_facet |
Schmitz, Christian |
author_role |
author |
dc.contributor.author.fl_str_mv |
Schmitz, Christian |
dc.contributor.advisor1.fl_str_mv |
Galante, Renata de Matos |
dc.contributor.advisor-co1.fl_str_mv |
Manica, Edimar |
contributor_str_mv |
Galante, Renata de Matos Manica, Edimar |
dc.subject.por.fl_str_mv |
Informática |
topic |
Informática Documents retrieval Information extraction Entity resolution |
dc.subject.eng.fl_str_mv |
Documents retrieval Information extraction Entity resolution |
description |
Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020 |
dc.date.accessioned.fl_str_mv |
2021-03-11T04:23:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/218605 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001123333 |
url |
http://hdl.handle.net/10183/218605 |
identifier_str_mv |
001123333 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/218605/2/001123333.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/218605/1/001123333.pdf |
bitstream.checksum.fl_str_mv |
cf47a261ec6fd2d0e5988497a46757cf d1c70817bd4afe513f4e7d88c7034f92 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224603631091712 |