A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs

Kepe, Tiago Rodrigo

A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs

Detalhes bibliográficos
Autor(a) principal:	Kepe, Tiago Rodrigo
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	https://hdl.handle.net/1884/36783
Resumo:	Orientador : Prof. Dr. Eduardo C. de Almeida

Metadados do item

id	UFPR_60f36c4a0be9657ace56beaaa2a43070
oai_identifier_str	oai:acervodigital.ufpr.br:1884/36783
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaAlmeida, Eduardo Cunha de, 1977-Kepe, Tiago Rodrigo2024-08-06T18:08:59Z2024-08-06T18:08:59Z2013https://hdl.handle.net/1884/36783Orientador : Prof. Dr. Eduardo C. de AlmeidaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 25/08/2014Inclui referênciasResumo: O software de processamento de dados Apache Hadoop está introduzido em um ambiente complexo composto de enormes cluster de máquinas, grandes conjuntos de dados e vários programas de processamento. Administrar tal ambiente demanda tempo, é dispendioso e requer usuários experts. Por isso, falta de conhecimento pode ocasionar falhas de configurações degradando a performance do cluster de processamento. Realmente, usuários gastam muito tempo configurando o ambiente em vez de focar na análise dos dados. Para resolver questões de má configuração nós propomos uma solução, cujo objetivo é ajustar parâmetros de desempenho de programas executados sobre o Hadoop em ambientes Big Data. Para alcançar isto, nosso mecanismo de ajuste de desempenho inspira-se em duas ideias-chave: (1) um algoritmo evolucionário para gerar e testar novas configurações de jobs, e (2) amostragem de dados para reduzir o custo do processo de ajuste de desempenho. A partir dessas ideias desenvolvemos um framework para testar configurações usuais de programas e obter uma nova configuração mais ajustada ao estado atual do ambiente. Resultados experimentais mostram ganho na performance de jobs comparado com as configurações padrão e _regras de ouro_ do Hadoop. Além disso, os experimentos comprovam a acurácia da nossa solução no que se refere ao custo para obter uma melhor configuração e a qualidade da configuração alcançada. Palavras chaves: Big Data, MapReduce, Hadoop, AjusteAbstract: The Apache Hadoop data processing software is immersed in a complex environment composed of huge machine clusters, large data sets, and several processing jobs. Managing a Hadoop environment is time consuming, toilsome and requires expert users. Thus, lack of knowledge may entail miscongurations degrading the cluster performance. Indeed, users spend a lot of time tuning the system instead of focusing on data analysis. To address misconguration issues we propose a solution implemented on top of Hadoop. The goal is presenting a tuning mechanism for Hadoop jobs on Big Data environments. To achieve this, our tuning mechanism is inspired by two key ideas: (1) an evolutionary algorithm to generate and test new job congurations, and (2) data sampling to reduce the cost of the tuning process. From these ideas we developed a framework for testing usual job congurations and get a new conguration suitable to the current state of the environment. Experimental results show gains in job performance against the Hadoop's default conguration and the rules of thumb. Besides, the experiments prove the accuracy of our solution which is the relation between the cost to obtain a better conguration and the quality of the conguration reached. Keywords: Big Data, MapReduce, Hadoop, Tuning51f. : il., tabs., grafs.application/pdfDisponível em formato digitalSistemas de reconhecimento de padrõesCiência da computaçãoBanco de dadosProcessamento eletronico de dados - ProcessamentoA tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessTHUMBNAILR - D - TIAGO RODRIGO KEPE.pdf.jpgGenerated Thumbnailimage/jpeg1159https://acervodigital.ufpr.br/bitstream/1884/36783/1/R%20-%20D%20-%20TIAGO%20RODRIGO%20KEPE.pdf.jpg076aa82f280f56e5840cfd7492dde0a2MD51open accessTEXTR - D - TIAGO RODRIGO KEPE.pdf.txtExtracted Texttext/plain86402https://acervodigital.ufpr.br/bitstream/1884/36783/2/R%20-%20D%20-%20TIAGO%20RODRIGO%20KEPE.pdf.txtc391be1bddfcdcd6e187d8bc7576aa4bMD52open accessORIGINALR - D - TIAGO RODRIGO KEPE.pdfapplication/pdf995486https://acervodigital.ufpr.br/bitstream/1884/36783/3/R%20-%20D%20-%20TIAGO%20RODRIGO%20KEPE.pdf8c7346baaa18926cf27b2ea81a8c1744MD53open access1884/367832024-08-06 15:09:00.027open accessoai:acervodigital.ufpr.br:1884/36783Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082024-08-06T18:09Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
title	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
spellingShingle	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs Kepe, Tiago Rodrigo Sistemas de reconhecimento de padrões Ciência da computação Banco de dados Processamento eletronico de dados - Processamento
title_short	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
title_full	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
title_fullStr	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
title_full_unstemmed	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
title_sort	A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs
author	Kepe, Tiago Rodrigo
author_facet	Kepe, Tiago Rodrigo
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.advisor1.fl_str_mv	Almeida, Eduardo Cunha de, 1977-
dc.contributor.author.fl_str_mv	Kepe, Tiago Rodrigo
contributor_str_mv	Almeida, Eduardo Cunha de, 1977-
dc.subject.por.fl_str_mv	Sistemas de reconhecimento de padrões Ciência da computação Banco de dados Processamento eletronico de dados - Processamento
topic	Sistemas de reconhecimento de padrões Ciência da computação Banco de dados Processamento eletronico de dados - Processamento
description	Orientador : Prof. Dr. Eduardo C. de Almeida
publishDate	2013
dc.date.issued.fl_str_mv	2013
dc.date.accessioned.fl_str_mv	2024-08-06T18:08:59Z
dc.date.available.fl_str_mv	2024-08-06T18:08:59Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1884/36783
url	https://hdl.handle.net/1884/36783
dc.language.iso.fl_str_mv	por
language	por
dc.relation.pt_BR.fl_str_mv	Disponível em formato digital
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	51f. : il., tabs., grafs. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/36783/1/R%20-%20D%20-%20TIAGO%20RODRIGO%20KEPE.pdf.jpg https://acervodigital.ufpr.br/bitstream/1884/36783/2/R%20-%20D%20-%20TIAGO%20RODRIGO%20KEPE.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/36783/3/R%20-%20D%20-%20TIAGO%20RODRIGO%20KEPE.pdf
bitstream.checksum.fl_str_mv	076aa82f280f56e5840cfd7492dde0a2 c391be1bddfcdcd6e187d8bc7576aa4b 8c7346baaa18926cf27b2ea81a8c1744
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1823526863991996416

A tuning approach based on evolutionary algorithm and data sampling for boosting performance of mapreduce programs

Registros relacionados