Uma ferramenta para experimentação em deduplicação de dados pessoais
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/143737 |
Resumo: | Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa. |
id |
UFRGS-2_e35baa5415a7fcddb954f83443748e20 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/143737 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Dadalt, Diogo RigolliHeuser, Carlos Alberto2016-07-20T02:18:42Z2014http://hdl.handle.net/10183/143737000931698Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa.A recurrent problem found by people that work with genealogy databases are duplicates. In the context of genealogy databases, usually these duplicates describe the same record in a different way and sometimes wrongly. Therefore it is important to find and eliminate these records. To this process is given the name deduplication. This is a task known to be difficult to automate. The tool proposed by this work takes the first step towards the automation of this process. It receives as input a GEDCOM (genealogy database format) along with a list of evidences, providing as output a suggestion of the records that refer to the same individual. These suggestions are obtained with the help of machine learning concepts provided by the WEKA library. Besides that, the tool is available over the internet, thus letting it be accessed by anyone, anywhere.application/pdfporBanco : DadosRecuperacao : InformacaoDeduplicationGenealogy databasesGEDCOMUma ferramenta para experimentação em deduplicação de dados pessoaisA tool for experimenting in deduplication of personal data info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2014Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000931698.pdf000931698.pdfTexto completoapplication/pdf1372017http://www.lume.ufrgs.br/bitstream/10183/143737/1/000931698.pdf473de99d00036fd9b043f5c6187242cbMD51TEXT000931698.pdf.txt000931698.pdf.txtExtracted Texttext/plain59477http://www.lume.ufrgs.br/bitstream/10183/143737/2/000931698.pdf.txtb62f3715a277c055eeb460c7e2efcf1aMD52THUMBNAIL000931698.pdf.jpg000931698.pdf.jpgGenerated Thumbnailimage/jpeg1064http://www.lume.ufrgs.br/bitstream/10183/143737/3/000931698.pdf.jpgf5b3acaf4354419f0bd296d8a6dd90bfMD5310183/1437372018-10-29 07:44:32.157oai:www.lume.ufrgs.br:10183/143737Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2018-10-29T10:44:32Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
dc.title.alternative.en.fl_str_mv |
A tool for experimenting in deduplication of personal data |
title |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
spellingShingle |
Uma ferramenta para experimentação em deduplicação de dados pessoais Dadalt, Diogo Rigolli Banco : Dados Recuperacao : Informacao Deduplication Genealogy databases GEDCOM |
title_short |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
title_full |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
title_fullStr |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
title_full_unstemmed |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
title_sort |
Uma ferramenta para experimentação em deduplicação de dados pessoais |
author |
Dadalt, Diogo Rigolli |
author_facet |
Dadalt, Diogo Rigolli |
author_role |
author |
dc.contributor.author.fl_str_mv |
Dadalt, Diogo Rigolli |
dc.contributor.advisor1.fl_str_mv |
Heuser, Carlos Alberto |
contributor_str_mv |
Heuser, Carlos Alberto |
dc.subject.por.fl_str_mv |
Banco : Dados Recuperacao : Informacao |
topic |
Banco : Dados Recuperacao : Informacao Deduplication Genealogy databases GEDCOM |
dc.subject.eng.fl_str_mv |
Deduplication Genealogy databases GEDCOM |
description |
Um problema recorrente encontrado por pessoas que trabalham com bases de dados genealógicas são as duplicatas. No contexto de bases de dados genealógicas, estas duplicatas usualmente descrevem o mesmo registro de forma diferente e muitas vezes incorreta. Por isto é importante encontrar e eliminar estes registros. A este processo se dá o nome de deduplicação. Esta é uma tarefa conhecida por ser difícil de automatizar. A ferramenta proposta por este trabalho dá o primeiro passo na direção da automatização. Ela recebe como entrada uma base de dados GEDCOM (formato de bases genealógicas) juntamente com uma lista de evidências, sugerindo ao usuário os registros que se referem a um mesmo indivíduo. Estas sugestões são obtidas com o auxílio de conceitos de aprendizado de máquina providos pela biblioteca WEKA. Além disso, a ferramenta está disponível através da internet, o que permite que ela seja acessada de qualquer lugar do mundo e por qualquer pessoa. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014 |
dc.date.accessioned.fl_str_mv |
2016-07-20T02:18:42Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/143737 |
dc.identifier.nrb.pt_BR.fl_str_mv |
000931698 |
url |
http://hdl.handle.net/10183/143737 |
identifier_str_mv |
000931698 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/143737/1/000931698.pdf http://www.lume.ufrgs.br/bitstream/10183/143737/2/000931698.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/143737/3/000931698.pdf.jpg |
bitstream.checksum.fl_str_mv |
473de99d00036fd9b043f5c6187242cb b62f3715a277c055eeb460c7e2efcf1a f5b3acaf4354419f0bd296d8a6dd90bf |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br |
_version_ |
1817724607402082304 |