Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/BUBD-9JWQAQ |
Resumo: | O grande volume de informação disponível em meios digitais tem preocupado administradores de grandes repositórios de dados, tais como bibliotecas digitais e bancos de dados de grandes corporações. Atualmente, é possível estabelecer uma relação entre a qualidade dos dados presentes nos sistemas de uma organização e a capacidade damesma prover serviços de qualidade a seus clientes, resultando em um grande investimento por parte de empresas e instituições governamentais no desenvolvimento de métodos eficientes para a identificação e remoção de réplicas. Por ser uma tarefa queexige muito tempo e poder de processamento, os métodos propostos devem obter bons resultados da forma mais eficiente possível.Recentemente, técnicas de aprendizado de máquina vêm sendo utilizadas para lidar com o problema de deduplicação de registros. No entanto, elas exigem exemplos, normalmente gerados manualmente, para a realização da etapa de treino necessária para o aprendizado dos padrões de duplicação do repositório de dados. Isto dificulta autilização dessas técnicas em diversos casos, devido ao custo exigido para a criação do conjunto de exemplos de treino. Esta dissertação propõe uma abordagem que utiliza uma técnica determinísticapara sugerir automaticamente exemplos de treino para um método de deduplicação de registros baseado em programação genética (PG). Experimentos utilizando dados sintéticos mostram que é possível utilizar conjuntos de treino bastante reduzidos para se gerar mais rapidamente as funções de deduplicação, sem uma redução significativana qualidade das soluções geradas, mesmo em repositórios de dados com elevados níveis de dificuldade para deduplicação. Além disso, foi realizado um projeto fatorial para mensurar o grau de dificuldade para se deduplicar repositórios de dados, identificando as características que podem afetar a utilização do método de seleção de exemplos detreino para a deduplicação de registros baseada em PG. |
id |
UFMG_a5b2182dde99bc03d3c32d5d46735182 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/BUBD-9JWQAQ |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Alberto Henrique Frade LaenderMarcos Andre GoncalvesAntonio de Padua BragaGisele Lobo PappaGabriel Silva Goncalves2019-08-11T06:30:15Z2019-08-11T06:30:15Z2010-04-30http://hdl.handle.net/1843/BUBD-9JWQAQO grande volume de informação disponível em meios digitais tem preocupado administradores de grandes repositórios de dados, tais como bibliotecas digitais e bancos de dados de grandes corporações. Atualmente, é possível estabelecer uma relação entre a qualidade dos dados presentes nos sistemas de uma organização e a capacidade damesma prover serviços de qualidade a seus clientes, resultando em um grande investimento por parte de empresas e instituições governamentais no desenvolvimento de métodos eficientes para a identificação e remoção de réplicas. Por ser uma tarefa queexige muito tempo e poder de processamento, os métodos propostos devem obter bons resultados da forma mais eficiente possível.Recentemente, técnicas de aprendizado de máquina vêm sendo utilizadas para lidar com o problema de deduplicação de registros. No entanto, elas exigem exemplos, normalmente gerados manualmente, para a realização da etapa de treino necessária para o aprendizado dos padrões de duplicação do repositório de dados. Isto dificulta autilização dessas técnicas em diversos casos, devido ao custo exigido para a criação do conjunto de exemplos de treino. Esta dissertação propõe uma abordagem que utiliza uma técnica determinísticapara sugerir automaticamente exemplos de treino para um método de deduplicação de registros baseado em programação genética (PG). Experimentos utilizando dados sintéticos mostram que é possível utilizar conjuntos de treino bastante reduzidos para se gerar mais rapidamente as funções de deduplicação, sem uma redução significativana qualidade das soluções geradas, mesmo em repositórios de dados com elevados níveis de dificuldade para deduplicação. Além disso, foi realizado um projeto fatorial para mensurar o grau de dificuldade para se deduplicar repositórios de dados, identificando as características que podem afetar a utilização do método de seleção de exemplos detreino para a deduplicação de registros baseada em PG.The increasing volume of information available in digital media is becoming a challenge for administrators of large data repositories such as digital libraries and databases of large corporations. Nowadays, it is possible to say that the quality of the data used by an organization is proportional to its capacity of providing useful services to their users.Thus, companies and government institutions are investing a lot of money in developing efficient methods to identify and remove duplicates in large data repositories. Because record deduplication is a task that demands a lot of time and processing power, the proposed methods should be able to get good results as efficiently as possible.Recently, machine learning techniques have been used to deal with the record deduplication problem. However, these techniques require examples - usually generated manually - to perform a training phase necessary to learn duplication patterns from existing data, what may restrict the use of such techniques due to the cost required tocreate the training set. This MSc thesis proposes an approach that uses a deterministic technique to automatically suggest training examples for a record deduplication method based on genetic programming (GP). Experiments using synthetic data show that it is possible to use reduced training sets to faster generate deduplication functions withoutsignificantly reducing the quality of the solutions generated, even in data repositories with high levels of difficulty for deduplication. In addition, a factorial design was performed to measure the difficulty levels to deduplicate data repositories, identifying the characteristics that may affect the use of our approach to selecting training examples for the record deduphcation method based on GP.Universidade Federal de Minas GeraisUFMGProgramação genética (Computação)ComputaçãogenéticaInteligência artificialIdentificação de duplicatasProgramaçãoSeleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genéticainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertacao_gabrielsilvagoncalves.pdfapplication/pdf2500698https://repositorio.ufmg.br/bitstream/1843/BUBD-9JWQAQ/1/dissertacao_gabrielsilvagoncalves.pdf319d523c9e12d7518588064fbea999c1MD51TEXTdissertacao_gabrielsilvagoncalves.pdf.txtdissertacao_gabrielsilvagoncalves.pdf.txtExtracted texttext/plain167356https://repositorio.ufmg.br/bitstream/1843/BUBD-9JWQAQ/2/dissertacao_gabrielsilvagoncalves.pdf.txtc3809f8ae45619289a9567be931f9c16MD521843/BUBD-9JWQAQ2019-11-14 07:13:26.773oai:repositorio.ufmg.br:1843/BUBD-9JWQAQRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T10:13:26Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
title |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
spellingShingle |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética Gabriel Silva Goncalves genética Inteligência artificial Identificação de duplicatas Programação Programação genética (Computação) Computação |
title_short |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
title_full |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
title_fullStr |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
title_full_unstemmed |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
title_sort |
Seleção automática de exemplos de treino para um método de deduplicação de registros baseado em programação genética |
author |
Gabriel Silva Goncalves |
author_facet |
Gabriel Silva Goncalves |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Alberto Henrique Frade Laender |
dc.contributor.advisor-co1.fl_str_mv |
Marcos Andre Goncalves |
dc.contributor.referee1.fl_str_mv |
Antonio de Padua Braga |
dc.contributor.referee2.fl_str_mv |
Gisele Lobo Pappa |
dc.contributor.author.fl_str_mv |
Gabriel Silva Goncalves |
contributor_str_mv |
Alberto Henrique Frade Laender Marcos Andre Goncalves Antonio de Padua Braga Gisele Lobo Pappa |
dc.subject.por.fl_str_mv |
genética Inteligência artificial Identificação de duplicatas Programação |
topic |
genética Inteligência artificial Identificação de duplicatas Programação Programação genética (Computação) Computação |
dc.subject.other.pt_BR.fl_str_mv |
Programação genética (Computação) Computação |
description |
O grande volume de informação disponível em meios digitais tem preocupado administradores de grandes repositórios de dados, tais como bibliotecas digitais e bancos de dados de grandes corporações. Atualmente, é possível estabelecer uma relação entre a qualidade dos dados presentes nos sistemas de uma organização e a capacidade damesma prover serviços de qualidade a seus clientes, resultando em um grande investimento por parte de empresas e instituições governamentais no desenvolvimento de métodos eficientes para a identificação e remoção de réplicas. Por ser uma tarefa queexige muito tempo e poder de processamento, os métodos propostos devem obter bons resultados da forma mais eficiente possível.Recentemente, técnicas de aprendizado de máquina vêm sendo utilizadas para lidar com o problema de deduplicação de registros. No entanto, elas exigem exemplos, normalmente gerados manualmente, para a realização da etapa de treino necessária para o aprendizado dos padrões de duplicação do repositório de dados. Isto dificulta autilização dessas técnicas em diversos casos, devido ao custo exigido para a criação do conjunto de exemplos de treino. Esta dissertação propõe uma abordagem que utiliza uma técnica determinísticapara sugerir automaticamente exemplos de treino para um método de deduplicação de registros baseado em programação genética (PG). Experimentos utilizando dados sintéticos mostram que é possível utilizar conjuntos de treino bastante reduzidos para se gerar mais rapidamente as funções de deduplicação, sem uma redução significativana qualidade das soluções geradas, mesmo em repositórios de dados com elevados níveis de dificuldade para deduplicação. Além disso, foi realizado um projeto fatorial para mensurar o grau de dificuldade para se deduplicar repositórios de dados, identificando as características que podem afetar a utilização do método de seleção de exemplos detreino para a deduplicação de registros baseada em PG. |
publishDate |
2010 |
dc.date.issued.fl_str_mv |
2010-04-30 |
dc.date.accessioned.fl_str_mv |
2019-08-11T06:30:15Z |
dc.date.available.fl_str_mv |
2019-08-11T06:30:15Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/BUBD-9JWQAQ |
url |
http://hdl.handle.net/1843/BUBD-9JWQAQ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.initials.fl_str_mv |
UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/BUBD-9JWQAQ/1/dissertacao_gabrielsilvagoncalves.pdf https://repositorio.ufmg.br/bitstream/1843/BUBD-9JWQAQ/2/dissertacao_gabrielsilvagoncalves.pdf.txt |
bitstream.checksum.fl_str_mv |
319d523c9e12d7518588064fbea999c1 c3809f8ae45619289a9567be931f9c16 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1803589186277605376 |