Predição de desempenho para junções por similaridade baseadas em conjuntos

Detalhes bibliográficos
Autor(a) principal: Sidney, Christiane Faleiro
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFLA
Texto Completo: http://repositorio.ufla.br/jspui/handle/1/4166
Resumo: Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.
id UFLA_184e7c8d29f6cf498228d7b6798f84ef
oai_identifier_str oai:localhost:1/4166
network_acronym_str UFLA
network_name_str Repositório Institucional da UFLA
repository_id_str
spelling Predição de desempenho para junções por similaridade baseadas em conjuntosJunção por similaridadeAprendizagem de máquinaPredição de desempenho para consultasIntegração de dadosLimpeza de dadosSimilarity joinCloud databasesMachine learningQuery performance predictionData integrationData cleaningCNPQ_NÃO_INFORMADODissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.Banco de Dados e Engenharia de SoftwarePrevisão do tempo de execução de consultas é essencial para muitas tarefas importantes relacionadas ao gerenciamento de banco de dados baseado em nuvem, incluindo provisionamento de recursos, controle de admissão e precificação de serviços. Recentemente, há grandes esforços na construção de modelos de previsão para estimar o tempo de execução de consultas SQL tradicionais. Embora adequadas para cargas de trabalho OLTP/OLAP, essas abordagens são insuficientes para modelar o desempenho de atividades envolvendo análises complexas de dados, como limpeza e integração de dados. Essas atividades são baseadas tipicamente em operações de similaridade, que, por sua vez, são radicalmente diferentes dos operadores relacionais regulares. Neste trabalho, consideramos modelos de previsão de tempo para junções por similaridade baseadas em conjuntos. Por meio do estudo de técnicas de otimização popularmente utilizadas em algoritmos de junção por similaridade, foram identificadas um conjunto de features relevantes, que são usadas na construção de modelos de previsão baseadas em aprendizagem de máquina estatística. Uma extensa avaliação experimental é apresentada para confirmar a precisão da nossa abordagem.Query performance prediction is essential for many important tasks related to cloud-based database management including resource provisioning, admission control, and pricing. Recently, there has been great interest in building prediction models to estimate execution time of traditional SQL queries. While suitable for typical OLTP/OLAP workloads, these existing approaches are insufficient to model performance of complex data processing activities for deep analytics such as cleaning and integration of data. These activities are largely based on similarity operations, which are radically different from regular relational operators. In this dissertation, we consider prediction models for set similarity joins. We exploit knowledge of optimization techniques and design details popularly found in set similarity join algorithms to identify relevant features, which are then used to construct prediction models based on statistical machine learning. We present an extensive experimental evaluation to confirm the accuracy of our approach.UNIVERSIDADE FEDERAL DE LAVRASDCC - Programa de Pós-graduaçãoUFLABRASILRibeiro, Leonardo AndradePereira, Denilson AlvesAndrade, RafaelZambalde, André LuizSidney, Christiane Faleiro2014-09-30T15:20:37Z2014-09-30T15:20:37Z20142014-02-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.http://repositorio.ufla.br/jspui/handle/1/4166info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFLAinstname:Universidade Federal de Lavras (UFLA)instacron:UFLA2023-04-13T18:09:32Zoai:localhost:1/4166Repositório InstitucionalPUBhttp://repositorio.ufla.br/oai/requestnivaldo@ufla.br || repositorio.biblioteca@ufla.bropendoar:2023-04-13T18:09:32Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)false
dc.title.none.fl_str_mv Predição de desempenho para junções por similaridade baseadas em conjuntos
title Predição de desempenho para junções por similaridade baseadas em conjuntos
spellingShingle Predição de desempenho para junções por similaridade baseadas em conjuntos
Sidney, Christiane Faleiro
Junção por similaridade
Aprendizagem de máquina
Predição de desempenho para consultas
Integração de dados
Limpeza de dados
Similarity join
Cloud databases
Machine learning
Query performance prediction
Data integration
Data cleaning
CNPQ_NÃO_INFORMADO
title_short Predição de desempenho para junções por similaridade baseadas em conjuntos
title_full Predição de desempenho para junções por similaridade baseadas em conjuntos
title_fullStr Predição de desempenho para junções por similaridade baseadas em conjuntos
title_full_unstemmed Predição de desempenho para junções por similaridade baseadas em conjuntos
title_sort Predição de desempenho para junções por similaridade baseadas em conjuntos
author Sidney, Christiane Faleiro
author_facet Sidney, Christiane Faleiro
author_role author
dc.contributor.none.fl_str_mv Ribeiro, Leonardo Andrade
Pereira, Denilson Alves
Andrade, Rafael
Zambalde, André Luiz
dc.contributor.author.fl_str_mv Sidney, Christiane Faleiro
dc.subject.por.fl_str_mv Junção por similaridade
Aprendizagem de máquina
Predição de desempenho para consultas
Integração de dados
Limpeza de dados
Similarity join
Cloud databases
Machine learning
Query performance prediction
Data integration
Data cleaning
CNPQ_NÃO_INFORMADO
topic Junção por similaridade
Aprendizagem de máquina
Predição de desempenho para consultas
Integração de dados
Limpeza de dados
Similarity join
Cloud databases
Machine learning
Query performance prediction
Data integration
Data cleaning
CNPQ_NÃO_INFORMADO
description Dissertação apresentada à Universidade Federal de Lavras, como parte das exigências do Programa de Pós-Graduação em Ciência da Computação, área de concentração em Banco de Dados e Engenharia de Software, para a obtenção do título de Mestre.
publishDate 2014
dc.date.none.fl_str_mv 2014-09-30T15:20:37Z
2014-09-30T15:20:37Z
2014
2014-02-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.
http://repositorio.ufla.br/jspui/handle/1/4166
identifier_str_mv SIDNEY, C. F. Predição de desempenho para junções por similaridade baseadas em conjuntos. 2014. 91 p. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Lavras, Lavras, 2014.
url http://repositorio.ufla.br/jspui/handle/1/4166
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv UNIVERSIDADE FEDERAL DE LAVRAS
DCC - Programa de Pós-graduação
UFLA
BRASIL
publisher.none.fl_str_mv UNIVERSIDADE FEDERAL DE LAVRAS
DCC - Programa de Pós-graduação
UFLA
BRASIL
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFLA
instname:Universidade Federal de Lavras (UFLA)
instacron:UFLA
instname_str Universidade Federal de Lavras (UFLA)
instacron_str UFLA
institution UFLA
reponame_str Repositório Institucional da UFLA
collection Repositório Institucional da UFLA
repository.name.fl_str_mv Repositório Institucional da UFLA - Universidade Federal de Lavras (UFLA)
repository.mail.fl_str_mv nivaldo@ufla.br || repositorio.biblioteca@ufla.br
_version_ 1815439132897312768