Algoritmo paralelo e eficiente para o problema de pareamento de dados

Walter dos Santos Filho

Algoritmo paralelo e eficiente para o problema de pareamento de dados

Detalhes bibliográficos
Autor(a) principal:	Walter dos Santos Filho
Data de Publicação:	2008
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/RVMR-7L3Q3V
Resumo:	Em um mundo onde cada vez mais a informação se torna importante, contar com bases de dados confiáveis e consistentes é requisito essencial para tomada de decisão, análise de tendências, detecção de fraudes, mineração de dados, suporte a clientes, inteligência de negócio entre outros. Uma das formas de melhorar a qualidade dos dados é eliminar réplicas e consolidar a informação. Neste trabalho, apresentamos a ferramenta chamada FERAPARDA (FERramenta de Apoio ao PAReamento de DAdos). Ela permite combinar informação de várias bases de dados por meio do pareamento probabilístico de registros. O processo de pareamento se baseia na construção e comparação de pares registros, comparando nomes, endereços e outros atributos que geralmente não serviriam como identicadores individuais e na classificação probabilística do resultado. Não é raro encontrarmos bases com milhares senão milhões de registros, onde os dados podem apresentar problemas como ausência, inconsistência, erros de entrada ou mesmo duplicidade de informação. Tais problemas e a quantidade de registros obrigam a comparação de muitos pares (no pior caso, quadrático em relação ao tamanho da base), algo que torna o processo muito demorado para ser executado em um único computador. Geralmente, o processo de pareamento de registros é executado mais de uma vez com seus parâmetros sendo a justados a cada execução, uma vez que características da base de dados podem tornar difícil a decisão sobre o resultado. Um exemplo são bases de dados onde nomes de pessoas ocorrem com grande freqüência ou ainda situações onde é muito difícil diferenciar se dois registros dizem respeito à mesma pessoa, como é o caso de gêmeos. Existem muitas ferramentas que realizam o pareamento probabilístico de registros. No entanto, poucos trabalhos discutem a paralelização do processo, que se torna ainda mais necessária quando lidamos com bases de dados reais. Para diminuir o tempo de processamento, estudamos neste trabalho formas de paralelizar o algoritmo de pareamento de registro. Apresentamos e discutimos cada etapa do processo de pareamento e como ele foi paralelizado. Conseguimos com sucesso implementar uma solução capaz de escalar bem quando executada em um cluster de computadores. Neste trabalho também discutimos diferentes aspectos do paralelismo aplicados ao problema e também como a localidade de referência pode ser explorada a fim de maximizar o desempenho e escala da implementação, sem no entanto demandar uma grande quantidade de recursos, especialmente memória principal. Mostramos como o uso de cache de comunicação é fundamental para a escalabilidade e como uma das etapas - a blocagem - tem importância direta neste resultado. Esperamos que a ferramenta FERAPARDA possa ser usada em diferentes bases de dados, desde bases comerciais até bases da saúde e de programas sociais a fim de melhorar a qualidade da informação e melhorar a qualidade dos serviços que se baseiam em tal informação.

Metadados do item

id	UFMG_0bf6edc39bca9421b1f17e5c9c4728e8
oai_identifier_str	oai:repositorio.ufmg.br:1843/RVMR-7L3Q3V
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Wagner Meira JuniorCarla Jorge MachadoPhilippe Olivier Alexandre NavauxDorgival Olavo Guedes NetoMarcos Andre GoncalvesWalter dos Santos Filho2019-08-10T06:49:33Z2019-08-10T06:49:33Z2008-04-22http://hdl.handle.net/1843/RVMR-7L3Q3VEm um mundo onde cada vez mais a informação se torna importante, contar com bases de dados confiáveis e consistentes é requisito essencial para tomada de decisão, análise de tendências, detecção de fraudes, mineração de dados, suporte a clientes, inteligência de negócio entre outros. Uma das formas de melhorar a qualidade dos dados é eliminar réplicas e consolidar a informação. Neste trabalho, apresentamos a ferramenta chamada FERAPARDA (FERramenta de Apoio ao PAReamento de DAdos). Ela permite combinar informação de várias bases de dados por meio do pareamento probabilístico de registros. O processo de pareamento se baseia na construção e comparação de pares registros, comparando nomes, endereços e outros atributos que geralmente não serviriam como identicadores individuais e na classificação probabilística do resultado. Não é raro encontrarmos bases com milhares senão milhões de registros, onde os dados podem apresentar problemas como ausência, inconsistência, erros de entrada ou mesmo duplicidade de informação. Tais problemas e a quantidade de registros obrigam a comparação de muitos pares (no pior caso, quadrático em relação ao tamanho da base), algo que torna o processo muito demorado para ser executado em um único computador. Geralmente, o processo de pareamento de registros é executado mais de uma vez com seus parâmetros sendo a justados a cada execução, uma vez que características da base de dados podem tornar difícil a decisão sobre o resultado. Um exemplo são bases de dados onde nomes de pessoas ocorrem com grande freqüência ou ainda situações onde é muito difícil diferenciar se dois registros dizem respeito à mesma pessoa, como é o caso de gêmeos. Existem muitas ferramentas que realizam o pareamento probabilístico de registros. No entanto, poucos trabalhos discutem a paralelização do processo, que se torna ainda mais necessária quando lidamos com bases de dados reais. Para diminuir o tempo de processamento, estudamos neste trabalho formas de paralelizar o algoritmo de pareamento de registro. Apresentamos e discutimos cada etapa do processo de pareamento e como ele foi paralelizado. Conseguimos com sucesso implementar uma solução capaz de escalar bem quando executada em um cluster de computadores. Neste trabalho também discutimos diferentes aspectos do paralelismo aplicados ao problema e também como a localidade de referência pode ser explorada a fim de maximizar o desempenho e escala da implementação, sem no entanto demandar uma grande quantidade de recursos, especialmente memória principal. Mostramos como o uso de cache de comunicação é fundamental para a escalabilidade e como uma das etapas - a blocagem - tem importância direta neste resultado. Esperamos que a ferramenta FERAPARDA possa ser usada em diferentes bases de dados, desde bases comerciais até bases da saúde e de programas sociais a fim de melhorar a qualidade da informação e melhorar a qualidade dos serviços que se baseiam em tal informação.In a world where the information is becoming more important each day, the availability of reliable and consistent databases is essential for decision-making, trend analysis, fraud detection, data mining, customer support, and business intelligence, among other data-intensive applications. In order to sustain data quality standards, it is frequentlynecessary to discard replicas and consolidate the information.In this work we introduce a tool named FERAPARDA (from the Portuguese acronym for \tool for record linkage"). It allows the combination of information from several sources through probabilistic record linkage. The linkage process is based on building and comparing pairs of records in a per attribute basis, that is, matching names, addresses and other attributes that are not unique identiers, and nding replicas probabilistically. Large databases containing thousands and even millions of records are quite common, and they usually present several problems such as missing and inconsistent data, input errors or even replicated information. These problems and the database size result in a need for comparing a large number of pairs of records (presenting a quadratic complexity in the worst case), making the process laborious and time-consuming for the execution in a single machine. Generally, the linkage process is calibrated iteratively,as a consequence of database characteristics, such as very frequent names or challenging pseudo-replicas, such as records from twins.There are several tools that perform probabilistic linkage of records. However, few eorts discuss the process parallelization, what is even more importante for real datasets. In order to reduce the execution time, we discuss parallelization strategies of the record linkage algorithm. We present and d1iscuss each step in the linkage process and how it was parallelized. We were succesful in the sense that our solution scaleswell in computing clusters. This work also discusses various parallelization issues applied to the problem and how the reference locality may be exploited towards maximizing performance withoutrequiring a large amount of resources, in particular memory. We show that the usage of a communication cache is key for the scalability of the algorithm and how one of the linkage steps, blocking, is fundamental in this work. We believe that FERAPARDA is capable of performing the linkage of various databases, from commercial to health records, enhancing the quality of the data and the services that are based on that information.Universidade Federal de Minas GeraisUFMGAlgoritmos de computadorComputaçãoAlgoritmos paralelosAlgoritmo paralelo e eficiente para o problema de pareamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALwalterdossantosffilho.pdfapplication/pdf2489862https://repositorio.ufmg.br/bitstream/1843/RVMR-7L3Q3V/1/walterdossantosffilho.pdfd2db0e74d27a2f6b45a7041e2fd805e2MD51TEXTwalterdossantosffilho.pdf.txtwalterdossantosffilho.pdf.txtExtracted texttext/plain149919https://repositorio.ufmg.br/bitstream/1843/RVMR-7L3Q3V/2/walterdossantosffilho.pdf.txtf30e85a7ccc73d910396ca9bee9789beMD521843/RVMR-7L3Q3V2019-11-14 11:20:42.44oai:repositorio.ufmg.br:1843/RVMR-7L3Q3VRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T14:20:42Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Algoritmo paralelo e eficiente para o problema de pareamento de dados
title	Algoritmo paralelo e eficiente para o problema de pareamento de dados
spellingShingle	Algoritmo paralelo e eficiente para o problema de pareamento de dados Walter dos Santos Filho Algoritmos de computador Computação Algoritmos paralelos
title_short	Algoritmo paralelo e eficiente para o problema de pareamento de dados
title_full	Algoritmo paralelo e eficiente para o problema de pareamento de dados
title_fullStr	Algoritmo paralelo e eficiente para o problema de pareamento de dados
title_full_unstemmed	Algoritmo paralelo e eficiente para o problema de pareamento de dados
title_sort	Algoritmo paralelo e eficiente para o problema de pareamento de dados
author	Walter dos Santos Filho
author_facet	Walter dos Santos Filho
author_role	author
dc.contributor.advisor1.fl_str_mv	Wagner Meira Junior
dc.contributor.advisor-co1.fl_str_mv	Carla Jorge Machado
dc.contributor.referee1.fl_str_mv	Philippe Olivier Alexandre Navaux
dc.contributor.referee2.fl_str_mv	Dorgival Olavo Guedes Neto
dc.contributor.referee3.fl_str_mv	Marcos Andre Goncalves
dc.contributor.author.fl_str_mv	Walter dos Santos Filho
contributor_str_mv	Wagner Meira Junior Carla Jorge Machado Philippe Olivier Alexandre Navaux Dorgival Olavo Guedes Neto Marcos Andre Goncalves
dc.subject.other.pt_BR.fl_str_mv	Algoritmos de computador Computação Algoritmos paralelos
topic	Algoritmos de computador Computação Algoritmos paralelos
description	Em um mundo onde cada vez mais a informação se torna importante, contar com bases de dados confiáveis e consistentes é requisito essencial para tomada de decisão, análise de tendências, detecção de fraudes, mineração de dados, suporte a clientes, inteligência de negócio entre outros. Uma das formas de melhorar a qualidade dos dados é eliminar réplicas e consolidar a informação. Neste trabalho, apresentamos a ferramenta chamada FERAPARDA (FERramenta de Apoio ao PAReamento de DAdos). Ela permite combinar informação de várias bases de dados por meio do pareamento probabilístico de registros. O processo de pareamento se baseia na construção e comparação de pares registros, comparando nomes, endereços e outros atributos que geralmente não serviriam como identicadores individuais e na classificação probabilística do resultado. Não é raro encontrarmos bases com milhares senão milhões de registros, onde os dados podem apresentar problemas como ausência, inconsistência, erros de entrada ou mesmo duplicidade de informação. Tais problemas e a quantidade de registros obrigam a comparação de muitos pares (no pior caso, quadrático em relação ao tamanho da base), algo que torna o processo muito demorado para ser executado em um único computador. Geralmente, o processo de pareamento de registros é executado mais de uma vez com seus parâmetros sendo a justados a cada execução, uma vez que características da base de dados podem tornar difícil a decisão sobre o resultado. Um exemplo são bases de dados onde nomes de pessoas ocorrem com grande freqüência ou ainda situações onde é muito difícil diferenciar se dois registros dizem respeito à mesma pessoa, como é o caso de gêmeos. Existem muitas ferramentas que realizam o pareamento probabilístico de registros. No entanto, poucos trabalhos discutem a paralelização do processo, que se torna ainda mais necessária quando lidamos com bases de dados reais. Para diminuir o tempo de processamento, estudamos neste trabalho formas de paralelizar o algoritmo de pareamento de registro. Apresentamos e discutimos cada etapa do processo de pareamento e como ele foi paralelizado. Conseguimos com sucesso implementar uma solução capaz de escalar bem quando executada em um cluster de computadores. Neste trabalho também discutimos diferentes aspectos do paralelismo aplicados ao problema e também como a localidade de referência pode ser explorada a fim de maximizar o desempenho e escala da implementação, sem no entanto demandar uma grande quantidade de recursos, especialmente memória principal. Mostramos como o uso de cache de comunicação é fundamental para a escalabilidade e como uma das etapas - a blocagem - tem importância direta neste resultado. Esperamos que a ferramenta FERAPARDA possa ser usada em diferentes bases de dados, desde bases comerciais até bases da saúde e de programas sociais a fim de melhorar a qualidade da informação e melhorar a qualidade dos serviços que se baseiam em tal informação.
publishDate	2008
dc.date.issued.fl_str_mv	2008-04-22
dc.date.accessioned.fl_str_mv	2019-08-10T06:49:33Z
dc.date.available.fl_str_mv	2019-08-10T06:49:33Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/RVMR-7L3Q3V
url	http://hdl.handle.net/1843/RVMR-7L3Q3V
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/RVMR-7L3Q3V/1/walterdossantosffilho.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-7L3Q3V/2/walterdossantosffilho.pdf.txt
bitstream.checksum.fl_str_mv	d2db0e74d27a2f6b45a7041e2fd805e2 f30e85a7ccc73d910396ca9bee9789be
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589169058938880

Algoritmo paralelo e eficiente para o problema de pareamento de dados

Registros relacionados