Hiveql self-tuning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2013 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/32427 |
Resumo: | Orientador: Prof. Dr. Eduardo Cunha de Almeida |
id |
UFPR_6a06c7c2d4a80510575da16b349a4062 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/32427 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Lucas Filho, Edson Ramiro, 1986-Oliveira, Luis Eduardo de SoaresAlmeida, Eduardo Cunha de, 1977-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática2021-06-07T16:59:22Z2021-06-07T16:59:22Z2013https://hdl.handle.net/1884/32427Orientador: Prof. Dr. Eduardo Cunha de AlmeidaCoorientador: Prof. Dr. Luis Eduardo S. OliveiraDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Pós-Graduaçao em Informática. Defesa: Curitiba, 27/08/2013Bibliografia: fls. 41-44Resumo: Bancos de dados construídos sobre MapReduce, tais como o Hive e Pig, traduzem suas consultas para um ou mais programas MapReduce. Tais programas sao organizados em um Grafo Acíclico Dirigido (GAD) e sao executados seguindo sua ordem de dependencia no GAD. O desempenho dos programas MapReduce depende diretamente da otimizacao (i.e., sintonia) dos parâmetros de configuracao definidos no codigo-fonte. Sistemas como Hive e Pig traduzem consultas para programas sem otimizar estes parâmetros. Existem solucoes que buscam a melhor configuraçao para programas MapReduce, entretanto, tais soluções precisam coletar informação de suporte durante a execuçao ou simulacão das consultas para realizar a prediçao de melhor configuracão. Coletar informacao de suporte pode adicionar uma sobrecarga no processo de otimizaçcãao do programa, mesmo quando o tamanho do dado de entrada e muito grande, ou quando usando apenas uma fraçao. Nossa hipótese e que pode-se evitar a coleta de informaçao de suporte por agrupar consultas que tenham a mesma assinatura de código para, entao, otimizar seus parâmetros com uma mesma configuração. Nesta dissertacao nos apresentamos uma abordagem de auto-sintonia para sistemas de data warehouse construídos sobre MapReduce. Nossa abordagem analisa em tempo de execuçao as consultas, extraindo as assinaturas de codigo (i.e., operadores de consulta como GroupBy e Select) e agrupando as consultas que exibem as mesmas assinaturas de codigo. Ao agrupar os programas MapReduce, nossa soluçao aplica uma configuracão unica para cada assinatura de código, baseando-se nas regras-de-ouro. Durante os experimentos nos observamos a existencia de um limite no qual a otimizacao realizada com as regras-de-ouro, ou mesmo com a nossa abordagem, nãao íe eficaz para consultas abaixo deste certo limite. Nos validamos a nossa abordagem por meio de ex- perimentaçao executando o TPC-H Benchmark.Abstract: In MapReduce, performance of the programs directly depends on tuning parameters manually set within their source-code by programmers. In the database context, MapReduce query front-ends, including Hive and Pig, automatically translate MapReduce programs from SQL-like queries written in HiveQL. However, these front-ends only care about translating queries and do not care about including tuning parameters. Different solutions seek for the appropriated setup for MapReduce queries, but they need to collect support information after execution or simulation. In the one hand, if there is no tuning of MapReduce queries, their response time increase due to waste of computer resources. In the other hand, collecting support information may add a costly overhead whether the size of the input data grows large, or even when using a fraction of the input data. Our hypothesis is that we can avoid collecting support information by finding queries with the same code signature and tuning them with similar configuration setup. In this dissertation, we present a HiveQL self-tuning approach for MapReduce data warehouse systems based on clustering queries that exhibit the same characteristics in terms of query operators. Our approach uses dynamic analysis to extract characteristics from running queries to build similarity clusters. By clustering the queries, our mechanism leverages tuning information gathered in advance, such as the rules-of-thumb, to allow on-the-fly adaptation of queries setup. During our experimentation we observed the existence of a threshold at which tuning with the rules-of-thumb is not effective. We validated our approach through experimentation running the TPC-H benchmark.44f. : il. , grafs., tabs.application/pdfDisponível em formato digitalDissertaçõesTesesControle automaticoSistemas de controle ajustavelBanco de dadosCiência da ComputaçãoHiveql self-tuninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - EDSON RAMIRO LUCAS FILHO.pdfapplication/pdf3839205https://acervodigital.ufpr.br/bitstream/1884/32427/1/R%20-%20D%20-%20EDSON%20RAMIRO%20LUCAS%20FILHO.pdf1ff264b43770f04fbb892de659950619MD51open access1884/324272021-06-07 13:59:22.926open accessoai:acervodigital.ufpr.br:1884/32427Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082021-06-07T16:59:22Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Hiveql self-tuning |
title |
Hiveql self-tuning |
spellingShingle |
Hiveql self-tuning Lucas Filho, Edson Ramiro, 1986- Dissertações Teses Controle automatico Sistemas de controle ajustavel Banco de dados Ciência da Computação |
title_short |
Hiveql self-tuning |
title_full |
Hiveql self-tuning |
title_fullStr |
Hiveql self-tuning |
title_full_unstemmed |
Hiveql self-tuning |
title_sort |
Hiveql self-tuning |
author |
Lucas Filho, Edson Ramiro, 1986- |
author_facet |
Lucas Filho, Edson Ramiro, 1986- |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Oliveira, Luis Eduardo de Soares Almeida, Eduardo Cunha de, 1977- Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática |
dc.contributor.author.fl_str_mv |
Lucas Filho, Edson Ramiro, 1986- |
dc.subject.por.fl_str_mv |
Dissertações Teses Controle automatico Sistemas de controle ajustavel Banco de dados Ciência da Computação |
topic |
Dissertações Teses Controle automatico Sistemas de controle ajustavel Banco de dados Ciência da Computação |
description |
Orientador: Prof. Dr. Eduardo Cunha de Almeida |
publishDate |
2013 |
dc.date.issued.fl_str_mv |
2013 |
dc.date.accessioned.fl_str_mv |
2021-06-07T16:59:22Z |
dc.date.available.fl_str_mv |
2021-06-07T16:59:22Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/32427 |
url |
https://hdl.handle.net/1884/32427 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.pt_BR.fl_str_mv |
Disponível em formato digital |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
44f. : il. , grafs., tabs. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/32427/1/R%20-%20D%20-%20EDSON%20RAMIRO%20LUCAS%20FILHO.pdf |
bitstream.checksum.fl_str_mv |
1ff264b43770f04fbb892de659950619 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1801860321680293888 |