Uma ferramenta para experimentação em deduplicação de dados pessoais

Detalhes bibliográficos
Autor(a) principal: Dadalt, Diogo Rigolli
Data de Publicação: 2014
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/143737
Resumo: Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa.
id UFRGS-2_e35baa5415a7fcddb954f83443748e20
oai_identifier_str oai:www.lume.ufrgs.br:10183/143737
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Dadalt, Diogo RigolliHeuser, Carlos Alberto2016-07-20T02:18:42Z2014http://hdl.handle.net/10183/143737000931698Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa.A recurrent problem found by people that work with genealogy databases are duplicates. In the context of genealogy databases, usually these duplicates describe the same record in a different way and sometimes wrongly. Therefore it is important to find and eliminate these records. To this process is given the name deduplication. This is a task known to be difficult to automate. The tool proposed by this work takes the first step towards the automation of this process. It receives as input a GEDCOM (genealogy database format) along with a list of evidences, providing as output a suggestion of the records that refer to the same individual. These suggestions are obtained with the help of machine learning concepts provided by the WEKA library. Besides that, the tool is available over the internet, thus letting it be accessed by anyone, anywhere.application/pdfporBanco : DadosRecuperacao : InformacaoDeduplicationGenealogy databasesGEDCOMUma ferramenta para experimentação em deduplicação de dados pessoaisA tool for experimenting in deduplication of personal data info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2014Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000931698.pdf000931698.pdfTexto completoapplication/pdf1372017http://www.lume.ufrgs.br/bitstream/10183/143737/1/000931698.pdf473de99d00036fd9b043f5c6187242cbMD51TEXT000931698.pdf.txt000931698.pdf.txtExtracted Texttext/plain59477http://www.lume.ufrgs.br/bitstream/10183/143737/2/000931698.pdf.txtb62f3715a277c055eeb460c7e2efcf1aMD52THUMBNAIL000931698.pdf.jpg000931698.pdf.jpgGenerated Thumbnailimage/jpeg1064http://www.lume.ufrgs.br/bitstream/10183/143737/3/000931698.pdf.jpgf5b3acaf4354419f0bd296d8a6dd90bfMD5310183/1437372018-10-29 07:44:32.157oai:www.lume.ufrgs.br:10183/143737Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-29T10:44:32Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Uma ferramenta para experimentação em deduplicação de dados pessoais
dc.title.alternative.en.fl_str_mv A tool for experimenting in deduplication of personal data
title Uma ferramenta para experimentação em deduplicação de dados pessoais
spellingShingle Uma ferramenta para experimentação em deduplicação de dados pessoais
Dadalt, Diogo Rigolli
Banco : Dados
Recuperacao : Informacao
Deduplication
Genealogy databases
GEDCOM
title_short Uma ferramenta para experimentação em deduplicação de dados pessoais
title_full Uma ferramenta para experimentação em deduplicação de dados pessoais
title_fullStr Uma ferramenta para experimentação em deduplicação de dados pessoais
title_full_unstemmed Uma ferramenta para experimentação em deduplicação de dados pessoais
title_sort Uma ferramenta para experimentação em deduplicação de dados pessoais
author Dadalt, Diogo Rigolli
author_facet Dadalt, Diogo Rigolli
author_role author
dc.contributor.author.fl_str_mv Dadalt, Diogo Rigolli
dc.contributor.advisor1.fl_str_mv Heuser, Carlos Alberto
contributor_str_mv Heuser, Carlos Alberto
dc.subject.por.fl_str_mv Banco : Dados
Recuperacao : Informacao
topic Banco : Dados
Recuperacao : Informacao
Deduplication
Genealogy databases
GEDCOM
dc.subject.eng.fl_str_mv Deduplication
Genealogy databases
GEDCOM
description Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa.
publishDate 2014
dc.date.issued.fl_str_mv 2014
dc.date.accessioned.fl_str_mv 2016-07-20T02:18:42Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/143737
dc.identifier.nrb.pt_BR.fl_str_mv 000931698
url http://hdl.handle.net/10183/143737
identifier_str_mv 000931698
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/143737/1/000931698.pdf
http://www.lume.ufrgs.br/bitstream/10183/143737/2/000931698.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/143737/3/000931698.pdf.jpg
bitstream.checksum.fl_str_mv 473de99d00036fd9b043f5c6187242cb
b62f3715a277c055eeb460c7e2efcf1a
f5b3acaf4354419f0bd296d8a6dd90bf
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224513358135296