Predição de desempenho para junções por similaridade baseadas em conjuntos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFLA |
Texto Completo: | http://repositorio.ufla.br/jspui/handle/1/4166 |
Resumo: | Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre. |
id |
UFLA_184e7c8d29f6cf498228d7b6798f84ef |
---|---|
oai_identifier_str |
oai:localhost:1/4166 |
network_acronym_str |
UFLA |
network_name_str |
Repositório Institucional da UFLA |
repository_id_str |
|
spelling |
Predição de desempenho para junções por similaridade baseadas em conjuntosJunção por similaridadeAprendizagem de máquinaPredição de desempenho para consultasIntegração de dadosLimpeza de dadosSimilarity joinCloud databasesMachine learningQuery performance predictionData integrationData cleaningCNPQ_NÃO_INFORMADODissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.Banco de Dados e Engenharia de SoftwarePrevisão do tempo de execução de consultas é essencial para muitas tarefas importantes relacionadas ao gerenciamento de banco de dados baseado em nuvem, incluindo provisionamento de recursos, controle de admissão e precificação de serviços. Recentemente, há grandes esforços na construção de modelos de previsão para estimar o tempo de execução de consultas SQL tradicionais. Embora adequadas para cargas de trabalho OLTP/OLAP, essas abordagens são insuficientes para modelar o desempenho de atividades envolvendo análises complexas de dados, como limpeza e integração de dados. Essas atividades são baseadas tipicamente em operações de similaridade, que, por sua vez, são radicalmente diferentes dos operadores relacionais regulares. Neste trabalho, consideramos modelos de previsão de tempo para junções por similaridade baseadas em conjuntos. Por meio do estudo de técnicas de otimização popularmente utilizadas em algoritmos de junção por similaridade, foram identificadas um conjunto de features relevantes, que são usadas na construção de modelos de previsão baseadas em aprendizagem de máquina estatística. Uma extensa avaliação experimental é apresentada para confirmar a precisão da nossa abordagem.Query performance prediction is essential for many important tasks related to cloud-based database management including resource provisioning, admission control, and pricing. Recently, there has been great interest in building prediction models to estimate execution time of traditional SQL queries. While suitable for typical OLTP/OLAP workloads, these existing approaches are insufficient to model performance of complex data processing activities for deep analytics such as cleaning and integration of data. These activities are largely based on similarity operations, which are radically different from regular relational operators. In this dissertation, we consider prediction models for set similarity joins. We exploit knowledge of optimization techniques and design details popularly found in set similarity join algorithms to identify relevant features, which are then used to construct prediction models based on statistical machine learning. We present an extensive experimental evaluation to confirm the accuracy of our approach.UNIVERSIDADE FEDERAL DE LAVRASDCC - Programa de Pós-graduaçãoUFLABRASILRibeiro, Leonardo AndradePereira, Denilson AlvesAndrade, RafaelZambalde, André LuizSidney, Christiane Faleiro2014-09-30T15:20:37Z2014-09-30T15:20:37Z20142014-02-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.http://repositorio.ufla.br/jspui/handle/1/4166info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2023-04-13T18:09:32Zoai:localhost:1/4166Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2023-04-13T18:09:32Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false |
dc.title.none.fl_str_mv |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
title |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
spellingShingle |
Predição de desempenho para junções por similaridade baseadas em conjuntos Sidney, Christiane Faleiro Junção por similaridade Aprendizagem de máquina Predição de desempenho para consultas Integração de dados Limpeza de dados Similarity join Cloud databases Machine learning Query performance prediction Data integration Data cleaning CNPQ_NÃO_INFORMADO |
title_short |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
title_full |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
title_fullStr |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
title_full_unstemmed |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
title_sort |
Predição de desempenho para junções por similaridade baseadas em conjuntos |
author |
Sidney, Christiane Faleiro |
author_facet |
Sidney, Christiane Faleiro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ribeiro, Leonardo Andrade Pereira, Denilson Alves Andrade, Rafael Zambalde, André Luiz |
dc.contributor.author.fl_str_mv |
Sidney, Christiane Faleiro |
dc.subject.por.fl_str_mv |
Junção por similaridade Aprendizagem de máquina Predição de desempenho para consultas Integração de dados Limpeza de dados Similarity join Cloud databases Machine learning Query performance prediction Data integration Data cleaning CNPQ_NÃO_INFORMADO |
topic |
Junção por similaridade Aprendizagem de máquina Predição de desempenho para consultas Integração de dados Limpeza de dados Similarity join Cloud databases Machine learning Query performance prediction Data integration Data cleaning CNPQ_NÃO_INFORMADO |
description |
Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre. |
publishDate |
2014 |
dc.date.none.fl_str_mv |
2014-09-30T15:20:37Z 2014-09-30T15:20:37Z 2014 2014-02-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014. http://repositorio.ufla.br/jspui/handle/1/4166 |
identifier_str_mv |
SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014. |
url |
http://repositorio.ufla.br/jspui/handle/1/4166 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
UNIVERSIDADE FEDERAL DE LAVRAS DCC - Programa de Pós-graduação UFLA BRASIL |
publisher.none.fl_str_mv |
UNIVERSIDADE FEDERAL DE LAVRAS DCC - Programa de Pós-graduação UFLA BRASIL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFLA instname:Universidade Federal de Lavras (UFLA) instacron:UFLA |
instname_str |
Universidade Federal de Lavras (UFLA) |
instacron_str |
UFLA |
institution |
UFLA |
reponame_str |
Repositório Institucional da UFLA |
collection |
Repositório Institucional da UFLA |
repository.name.fl_str_mv |
Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA) |
repository.mail.fl_str_mv |
nivaldo@ufla.br || repositorio.biblioteca@ufla.br |
_version_ |
1815439132897312768 |