Hiveql self-tuning

Lucas Filho, Edson Ramiro, 1986-

Hiveql self-tuning

Detalhes bibliográficos
Autor(a) principal:	Lucas Filho, Edson Ramiro, 1986-
Data de Publicação:	2013
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	https://hdl.handle.net/1884/32427
Resumo:	Orientador: Prof. Dr. Eduardo Cunha de Almeida

Metadados do item

id	UFPR_6a06c7c2d4a80510575da16b349a4062
oai_identifier_str	oai:acervodigital.ufpr.br:1884/32427
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Lucas Filho, Edson Ramiro, 1986-Oliveira, Luis Eduardo de SoaresAlmeida, Eduardo Cunha de, 1977-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática2021-06-07T16:59:22Z2021-06-07T16:59:22Z2013https://hdl.handle.net/1884/32427Orientador: Prof. Dr. Eduardo Cunha de AlmeidaCoorientador: Prof. Dr. Luis Eduardo S. OliveiraDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Pós-Graduaçao em Informática. Defesa: Curitiba, 27/08/2013Bibliografia: fls. 41-44Resumo: Bancos de dados construídos sobre MapReduce, tais como o Hive e Pig, traduzem suas consultas para um ou mais programas MapReduce. Tais programas sao organizados em um Grafo Acíclico Dirigido (GAD) e sao executados seguindo sua ordem de dependencia no GAD. O desempenho dos programas MapReduce depende diretamente da otimizacao (i.e., sintonia) dos parâmetros de configuracao definidos no codigo-fonte. Sistemas como Hive e Pig traduzem consultas para programas sem otimizar estes parâmetros. Existem solucoes que buscam a melhor configuraçao para programas MapReduce, entretanto, tais soluções precisam coletar informação de suporte durante a execuçao ou simulacão das consultas para realizar a prediçao de melhor configuracão. Coletar informacao de suporte pode adicionar uma sobrecarga no processo de otimizaçcãao do programa, mesmo quando o tamanho do dado de entrada e muito grande, ou quando usando apenas uma fraçao. Nossa hipótese e que pode-se evitar a coleta de informaçao de suporte por agrupar consultas que tenham a mesma assinatura de código para, entao, otimizar seus parâmetros com uma mesma configuração. Nesta dissertacao nos apresentamos uma abordagem de auto-sintonia para sistemas de data warehouse construídos sobre MapReduce. Nossa abordagem analisa em tempo de execuçao as consultas, extraindo as assinaturas de codigo (i.e., operadores de consulta como GroupBy e Select) e agrupando as consultas que exibem as mesmas assinaturas de codigo. Ao agrupar os programas MapReduce, nossa soluçao aplica uma configuracão unica para cada assinatura de código, baseando-se nas regras-de-ouro. Durante os experimentos nos observamos a existencia de um limite no qual a otimizacao realizada com as regras-de-ouro, ou mesmo com a nossa abordagem, nãao íe eficaz para consultas abaixo deste certo limite. Nos validamos a nossa abordagem por meio de ex- perimentaçao executando o TPC-H Benchmark.Abstract: In MapReduce, performance of the programs directly depends on tuning parameters manually set within their source-code by programmers. In the database context, MapReduce query front-ends, including Hive and Pig, automatically translate MapReduce programs from SQL-like queries written in HiveQL. However, these front-ends only care about translating queries and do not care about including tuning parameters. Different solutions seek for the appropriated setup for MapReduce queries, but they need to collect support information after execution or simulation. In the one hand, if there is no tuning of MapReduce queries, their response time increase due to waste of computer resources. In the other hand, collecting support information may add a costly overhead whether the size of the input data grows large, or even when using a fraction of the input data. Our hypothesis is that we can avoid collecting support information by finding queries with the same code signature and tuning them with similar configuration setup. In this dissertation, we present a HiveQL self-tuning approach for MapReduce data warehouse systems based on clustering queries that exhibit the same characteristics in terms of query operators. Our approach uses dynamic analysis to extract characteristics from running queries to build similarity clusters. By clustering the queries, our mechanism leverages tuning information gathered in advance, such as the rules-of-thumb, to allow on-the-fly adaptation of queries setup. During our experimentation we observed the existence of a threshold at which tuning with the rules-of-thumb is not effective. We validated our approach through experimentation running the TPC-H benchmark.44f. : il. , grafs., tabs.application/pdfDisponível em formato digitalDissertaçõesTesesControle automaticoSistemas de controle ajustavelBanco de dadosCiência da ComputaçãoHiveql self-tuninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - EDSON RAMIRO LUCAS FILHO.pdfapplication/pdf3839205https://acervodigital.ufpr.br/bitstream/1884/32427/1/R%20-%20D%20-%20EDSON%20RAMIRO%20LUCAS%20FILHO.pdf1ff264b43770f04fbb892de659950619MD51open access1884/324272021-06-07 13:59:22.926open accessoai:acervodigital.ufpr.br:1884/32427Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082021-06-07T16:59:22Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Hiveql self-tuning
title	Hiveql self-tuning
spellingShingle	Hiveql self-tuning Lucas Filho, Edson Ramiro, 1986- Dissertações Teses Controle automatico Sistemas de controle ajustavel Banco de dados Ciência da Computação
title_short	Hiveql self-tuning
title_full	Hiveql self-tuning
title_fullStr	Hiveql self-tuning
title_full_unstemmed	Hiveql self-tuning
title_sort	Hiveql self-tuning
author	Lucas Filho, Edson Ramiro, 1986-
author_facet	Lucas Filho, Edson Ramiro, 1986-
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Oliveira, Luis Eduardo de Soares Almeida, Eduardo Cunha de, 1977- Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv	Lucas Filho, Edson Ramiro, 1986-
dc.subject.por.fl_str_mv	Dissertações Teses Controle automatico Sistemas de controle ajustavel Banco de dados Ciência da Computação
topic	Dissertações Teses Controle automatico Sistemas de controle ajustavel Banco de dados Ciência da Computação
description	Orientador: Prof. Dr. Eduardo Cunha de Almeida
publishDate	2013
dc.date.issued.fl_str_mv	2013
dc.date.accessioned.fl_str_mv	2021-06-07T16:59:22Z
dc.date.available.fl_str_mv	2021-06-07T16:59:22Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1884/32427
url	https://hdl.handle.net/1884/32427
dc.language.iso.fl_str_mv	por
language	por
dc.relation.pt_BR.fl_str_mv	Disponível em formato digital
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	44f. : il. , grafs., tabs. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/32427/1/R%20-%20D%20-%20EDSON%20RAMIRO%20LUCAS%20FILHO.pdf
bitstream.checksum.fl_str_mv	1ff264b43770f04fbb892de659950619
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1801860321680293888

Hiveql self-tuning

Registros relacionados