ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais

Detalhes bibliográficos
Autor(a) principal: Schmitz, Christian
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/218605
Resumo: Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros.
id UFRGS-2_b52b515cf21f346583998562043898e5
oai_identifier_str oai:www.lume.ufrgs.br:10183/218605
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Schmitz, ChristianGalante, Renata de MatosManica, Edimar2021-03-11T04:23:38Z2020http://hdl.handle.net/10183/218605001123333Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros.Portarias are documents issued by federal institutional organizations that contain, among others, information regarding the staff of institutions. These documents are accessible through public repositories from each institution that, in general, do not allow any type of filter or advanced search on documents’ contents. Through the ACERPI approach developed in this work, the creation of a document oriented database (MongoDB) is carried out for advanced queries regarding the documents related to an institution’s employee, as well as which employees are referenced in a given published document. In order to do this, techniques are used to discover, obtain, convert and structure documents, extract information and link entities (employees, in the context of this work). Experiments with data from the Federal University of Rio Grande do Sul and the Federal Institute of Rio Grande do Sul, Campus Ibirubá, demonstrate and explain the main challenges encountered when applying the approach to two data sources. Finally, improvement points and future work are discussed.application/pdfengInformáticaDocuments retrievalInformation extractionEntity resolutionACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionaisACERPI: an approach for document collection, information extraction and entity resolution in federal institutions’ documents from Brazil info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2020Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001123333.pdf.txt001123333.pdf.txtExtracted Texttext/plain94062http://www.lume.ufrgs.br/bitstream/10183/218605/2/001123333.pdf.txtcf47a261ec6fd2d0e5988497a46757cfMD52ORIGINAL001123333.pdfTexto completoapplication/pdf812133http://www.lume.ufrgs.br/bitstream/10183/218605/1/001123333.pdfd1c70817bd4afe513f4e7d88c7034f92MD5110183/2186052021-05-07 04:48:02.360918oai:www.lume.ufrgs.br:10183/218605Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2021-05-07T07:48:02Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
dc.title.alternative.en.fl_str_mv ACERPI: an approach for document collection, information extraction and entity resolution in federal institutions’ documents from Brazil
title ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
spellingShingle ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
Schmitz, Christian
Informática
Documents retrieval
Information extraction
Entity resolution
title_short ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
title_full ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
title_fullStr ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
title_full_unstemmed ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
title_sort ACERPI : uma abordagem para coleta de documentos, extração de informação e resolução de entidades em portarias institucionais
author Schmitz, Christian
author_facet Schmitz, Christian
author_role author
dc.contributor.author.fl_str_mv Schmitz, Christian
dc.contributor.advisor1.fl_str_mv Galante, Renata de Matos
dc.contributor.advisor-co1.fl_str_mv Manica, Edimar
contributor_str_mv Galante, Renata de Matos
Manica, Edimar
dc.subject.por.fl_str_mv Informática
topic Informática
Documents retrieval
Information extraction
Entity resolution
dc.subject.eng.fl_str_mv Documents retrieval
Information extraction
Entity resolution
description Portarias são documentos emitidos por órgãos institucionais federais que contém, dentre outras, informações a respeito de servidores de Instituições. Esses documentos estão acessíveis através de repositórios públicos de cada instituição que, em geral, não permitem nenhum tipo de filtro ou busca avançada sobre o conteúdo dos documentos. Através da abordagem ACERPI (Abordagem para Coleta de documentos, Extração de informação e Resolução de entidades em Portarias Institucionais) desenvolvida neste trabalho, é realizada a criação de um banco de dados orientado a documentos (MongoDB) para consultas avançadas a respeito dos documentos relacionados a um servidor de uma Instituição, bem como quais servidores são referenciados em um dado documento publicado. Para isso, são usadas técnicas de descoberta, obtenção, conversão e estruturação de arquivos, extração de informação e resolução de entidades (servidores, no contexto deste trabalho). Experimentos com dados reais da Universidade Federal do Rio Grande do Sul e do Instituto Federal do Rio Grande do Sul, Campus Ibirubá, demonstram e explicam os principais desafios encontrados ao aplicar a abordagem em duas fontes de dados. Por fim, são mencionados pontos de melhoria e continuidade de desenvolvimento da abordagem, considerados possíveis trabalhos futuros.
publishDate 2020
dc.date.issued.fl_str_mv 2020
dc.date.accessioned.fl_str_mv 2021-03-11T04:23:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/218605
dc.identifier.nrb.pt_BR.fl_str_mv 001123333
url http://hdl.handle.net/10183/218605
identifier_str_mv 001123333
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/218605/2/001123333.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/218605/1/001123333.pdf
bitstream.checksum.fl_str_mv cf47a261ec6fd2d0e5988497a46757cf
d1c70817bd4afe513f4e7d88c7034f92
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224603631091712