Hiveql self-tuning

Detalhes bibliográficos
Autor(a) principal: Lucas Filho, Edson Ramiro, 1986-
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/32427
Resumo: Orientador: Prof. Dr. Eduardo Cunha de Almeida
id UFPR_6a06c7c2d4a80510575da16b349a4062
oai_identifier_str oai:acervodigital.ufpr.br:1884/32427
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Lucas Filho, Edson Ramiro, 1986-Oliveira, Luis Eduardo de SoaresAlmeida, Eduardo Cunha de, 1977-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática2021-06-07T16:59:22Z2021-06-07T16:59:22Z2013https://hdl.handle.net/1884/32427Orientador: Prof. Dr. Eduardo Cunha de AlmeidaCoorientador: Prof. Dr. Luis Eduardo S. OliveiraDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Curso de Pós-Graduaçao em Informática. Defesa: Curitiba, 27/08/2013Bibliografia: fls. 41-44Resumo: Bancos de dados construídos sobre MapReduce, tais como o Hive e Pig, traduzem suas consultas para um ou mais programas MapReduce. Tais programas sao organizados em um Grafo Acíclico Dirigido (GAD) e sao executados seguindo sua ordem de dependencia no GAD. O desempenho dos programas MapReduce depende diretamente da otimizacao (i.e., sintonia) dos parâmetros de configuracao definidos no codigo-fonte. Sistemas como Hive e Pig traduzem consultas para programas sem otimizar estes parâmetros. Existem solucoes que buscam a melhor configuraçao para programas MapReduce, entretanto, tais soluções precisam coletar informação de suporte durante a execuçao ou simulacão das consultas para realizar a prediçao de melhor configuracão. Coletar informacao de suporte pode adicionar uma sobrecarga no processo de otimizaçcãao do programa, mesmo quando o tamanho do dado de entrada e muito grande, ou quando usando apenas uma fraçao. Nossa hipótese e que pode-se evitar a coleta de informaçao de suporte por agrupar consultas que tenham a mesma assinatura de código para, entao, otimizar seus parâmetros com uma mesma configuração. Nesta dissertacao nos apresentamos uma abordagem de auto-sintonia para sistemas de data warehouse construídos sobre MapReduce. Nossa abordagem analisa em tempo de execuçao as consultas, extraindo as assinaturas de codigo (i.e., operadores de consulta como GroupBy e Select) e agrupando as consultas que exibem as mesmas assinaturas de codigo. Ao agrupar os programas MapReduce, nossa soluçao aplica uma configuracão unica para cada assinatura de código, baseando-se nas regras-de-ouro. Durante os experimentos nos observamos a existencia de um limite no qual a otimizacao realizada com as regras-de-ouro, ou mesmo com a nossa abordagem, nãao íe eficaz para consultas abaixo deste certo limite. Nos validamos a nossa abordagem por meio de ex- perimentaçao executando o TPC-H Benchmark.Abstract: In MapReduce, performance of the programs directly depends on tuning parameters manually set within their source-code by programmers. In the database context, MapReduce query front-ends, including Hive and Pig, automatically translate MapReduce programs from SQL-like queries written in HiveQL. However, these front-ends only care about translating queries and do not care about including tuning parameters. Different solutions seek for the appropriated setup for MapReduce queries, but they need to collect support information after execution or simulation. In the one hand, if there is no tuning of MapReduce queries, their response time increase due to waste of computer resources. In the other hand, collecting support information may add a costly overhead whether the size of the input data grows large, or even when using a fraction of the input data. Our hypothesis is that we can avoid collecting support information by finding queries with the same code signature and tuning them with similar configuration setup. In this dissertation, we present a HiveQL self-tuning approach for MapReduce data warehouse systems based on clustering queries that exhibit the same characteristics in terms of query operators. Our approach uses dynamic analysis to extract characteristics from running queries to build similarity clusters. By clustering the queries, our mechanism leverages tuning information gathered in advance, such as the rules-of-thumb, to allow on-the-fly adaptation of queries setup. During our experimentation we observed the existence of a threshold at which tuning with the rules-of-thumb is not effective. We validated our approach through experimentation running the TPC-H benchmark.44f. : il. , grafs., tabs.application/pdfDisponível em formato digitalDissertaçõesTesesControle automaticoSistemas de controle ajustavelBanco de dadosCiência da ComputaçãoHiveql self-tuninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - EDSON RAMIRO LUCAS FILHO.pdfapplication/pdf3839205https://acervodigital.ufpr.br/bitstream/1884/32427/1/R%20-%20D%20-%20EDSON%20RAMIRO%20LUCAS%20FILHO.pdf1ff264b43770f04fbb892de659950619MD51open access1884/324272021-06-07 13:59:22.926open accessoai:acervodigital.ufpr.br:1884/32427Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082021-06-07T16:59:22Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Hiveql self-tuning
title Hiveql self-tuning
spellingShingle Hiveql self-tuning
Lucas Filho, Edson Ramiro, 1986-
Dissertações
Teses
Controle automatico
Sistemas de controle ajustavel
Banco de dados
Ciência da Computação
title_short Hiveql self-tuning
title_full Hiveql self-tuning
title_fullStr Hiveql self-tuning
title_full_unstemmed Hiveql self-tuning
title_sort Hiveql self-tuning
author Lucas Filho, Edson Ramiro, 1986-
author_facet Lucas Filho, Edson Ramiro, 1986-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Oliveira, Luis Eduardo de Soares
Almeida, Eduardo Cunha de, 1977-
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Lucas Filho, Edson Ramiro, 1986-
dc.subject.por.fl_str_mv Dissertações
Teses
Controle automatico
Sistemas de controle ajustavel
Banco de dados
Ciência da Computação
topic Dissertações
Teses
Controle automatico
Sistemas de controle ajustavel
Banco de dados
Ciência da Computação
description Orientador: Prof. Dr. Eduardo Cunha de Almeida
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2021-06-07T16:59:22Z
dc.date.available.fl_str_mv 2021-06-07T16:59:22Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/32427
url https://hdl.handle.net/1884/32427
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 44f. : il. , grafs., tabs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/32427/1/R%20-%20D%20-%20EDSON%20RAMIRO%20LUCAS%20FILHO.pdf
bitstream.checksum.fl_str_mv 1ff264b43770f04fbb892de659950619
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860321680293888