3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados

Levy de Souza Silva

3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados

Detalhes bibliográficos
Autor(a) principal:	Levy de Souza Silva
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/ESBF-B44K2E
Resumo:	Deduplicação é a tarefa de encontrar e remover registros duplicados em bancos de dados. Registros duplicados são instâncias que representam o mesmo objeto no mundo real. Via de regra, a deduplicação é composta por três etapas: indexação (que atribui uma chave de bloco a cada registro), clusterização (que agrupa os registros de acordo com as chaves) e classificação (que compara os registros dentro de cada grupo). Nosso estudo foca na indexação, a qual cria estruturas de chaves de bloco para agrupar registros similares. Atualmente, os atributos de indexação são escolhidos por usuários especialistas sobre o domínio dos dados, o que requer tempo, além de aumentar o custo total do processo. Por isso, nós apresentamos o método 3DR-Indexing, que seleciona automaticamente os melhores atributos de indexação. Por fim, nossas avaliações experimentais indicam que o 3DR-Indexing tem resultados significantes, pois ele identifica o melhor atributo em 10 dos 13 conjuntos de dados utilizados.

Metadados do item

id	UFMG_0fa6c1c26d1742632a94a6907d54df88
oai_identifier_str	oai:repositorio.ufmg.br:1843/ESBF-B44K2E
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Mirella Moura MoroAna Carolina Brandão SalgadoAna Paula Couto da SilvaMichele Amaral Brand?oMichele Amaral BrandaoLevy de Souza Silva2019-08-14T12:43:37Z2019-08-14T12:43:37Z2018-06-15http://hdl.handle.net/1843/ESBF-B44K2EDeduplicação é a tarefa de encontrar e remover registros duplicados em bancos de dados. Registros duplicados são instâncias que representam o mesmo objeto no mundo real. Via de regra, a deduplicação é composta por três etapas: indexação (que atribui uma chave de bloco a cada registro), clusterização (que agrupa os registros de acordo com as chaves) e classificação (que compara os registros dentro de cada grupo). Nosso estudo foca na indexação, a qual cria estruturas de chaves de bloco para agrupar registros similares. Atualmente, os atributos de indexação são escolhidos por usuários especialistas sobre o domínio dos dados, o que requer tempo, além de aumentar o custo total do processo. Por isso, nós apresentamos o método 3DR-Indexing, que seleciona automaticamente os melhores atributos de indexação. Por fim, nossas avaliações experimentais indicam que o 3DR-Indexing tem resultados significantes, pois ele identifica o melhor atributo em 10 dos 13 conjuntos de dados utilizados.Data deduplication aims to find and remove duplicate records in databases. Duplicate records are data instances that represent the same object in the real world. Usually, the deduplication has three steps: indexing (which assigns a block key value for each record), clustering (which groups the records with similar block key) and classification (which compares the records within the same group). Our study focuses on the indexing step, which creates block key structures to group similar records. Indexing must be effective (as to better distinguish the values) and efficient (as to allow faster deduplication runtime). Thus, in this step, an attribute is chosen and its value is encoded by a function to produce the block key value. Currently, the indexing attributes are chosen by expert users, which takes time and increases the process total cost. Therefore, we present the method 3DR-Indexing, which automatically selects the best attributes for the indexing step. Furthermore, we analyze the impact of the indexing attribute over data deduplication steps. Finally, we evaluate the indexing attribute and the proposed method over 13 distinct datasets, that is, with different domains, number of duplicate records and the total of instances. Our results indicate the indexing attribute has highest impact over deduplication process. For instance, the best indexing attribute differs from the worst one by an average of 44% in terms of F-Measure (considering all datasets). Moreover, the 3DR Indexing has significant results, because it identifies the best indexing attribute in 10 out of 13 datasets.Universidade Federal de Minas GeraisUFMGComputaçãoDeduplicação de dadosSeleção de atributosResolução de entidadesIndexaçãoDeduplicação de DadosResolução de EntidadesIndexação3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALlevydesouza.pdfapplication/pdf2191563https://repositorio.ufmg.br/bitstream/1843/ESBF-B44K2E/1/levydesouza.pdf903f76f415e22aced4deef529b5228f0MD51TEXTlevydesouza.pdf.txtlevydesouza.pdf.txtExtracted texttext/plain197309https://repositorio.ufmg.br/bitstream/1843/ESBF-B44K2E/2/levydesouza.pdf.txtf1e849b06c3e4026f6b1d45fadea4a3aMD521843/ESBF-B44K2E2019-11-14 13:28:14.758oai:repositorio.ufmg.br:1843/ESBF-B44K2ERepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T16:28:14Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
title	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
spellingShingle	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados Levy de Souza Silva Deduplicação de Dados Resolução de Entidades Indexação Computação Deduplicação de dados Seleção de atributos Resolução de entidades Indexação
title_short	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
title_full	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
title_fullStr	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
title_full_unstemmed	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
title_sort	3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados
author	Levy de Souza Silva
author_facet	Levy de Souza Silva
author_role	author
dc.contributor.advisor1.fl_str_mv	Mirella Moura Moro
dc.contributor.referee1.fl_str_mv	Ana Carolina Brandão Salgado
dc.contributor.referee2.fl_str_mv	Ana Paula Couto da Silva
dc.contributor.referee3.fl_str_mv	Michele Amaral Brand?o
dc.contributor.referee4.fl_str_mv	Michele Amaral Brandao
dc.contributor.author.fl_str_mv	Levy de Souza Silva
contributor_str_mv	Mirella Moura Moro Ana Carolina Brandão Salgado Ana Paula Couto da Silva Michele Amaral Brand?o Michele Amaral Brandao
dc.subject.por.fl_str_mv	Deduplicação de Dados Resolução de Entidades Indexação
topic	Deduplicação de Dados Resolução de Entidades Indexação Computação Deduplicação de dados Seleção de atributos Resolução de entidades Indexação
dc.subject.other.pt_BR.fl_str_mv	Computação Deduplicação de dados Seleção de atributos Resolução de entidades Indexação
description	Deduplicação é a tarefa de encontrar e remover registros duplicados em bancos de dados. Registros duplicados são instâncias que representam o mesmo objeto no mundo real. Via de regra, a deduplicação é composta por três etapas: indexação (que atribui uma chave de bloco a cada registro), clusterização (que agrupa os registros de acordo com as chaves) e classificação (que compara os registros dentro de cada grupo). Nosso estudo foca na indexação, a qual cria estruturas de chaves de bloco para agrupar registros similares. Atualmente, os atributos de indexação são escolhidos por usuários especialistas sobre o domínio dos dados, o que requer tempo, além de aumentar o custo total do processo. Por isso, nós apresentamos o método 3DR-Indexing, que seleciona automaticamente os melhores atributos de indexação. Por fim, nossas avaliações experimentais indicam que o 3DR-Indexing tem resultados significantes, pois ele identifica o melhor atributo em 10 dos 13 conjuntos de dados utilizados.
publishDate	2018
dc.date.issued.fl_str_mv	2018-06-15
dc.date.accessioned.fl_str_mv	2019-08-14T12:43:37Z
dc.date.available.fl_str_mv	2019-08-14T12:43:37Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/ESBF-B44K2E
url	http://hdl.handle.net/1843/ESBF-B44K2E
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/ESBF-B44K2E/1/levydesouza.pdf https://repositorio.ufmg.br/bitstream/1843/ESBF-B44K2E/2/levydesouza.pdf.txt
bitstream.checksum.fl_str_mv	903f76f415e22aced4deef529b5228f0 f1e849b06c3e4026f6b1d45fadea4a3a
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589386598612992

3DR-Indexing: um método para identificação automática dos melhores atributos de indexação em deduplicação de dados

Registros relacionados