On indexing highly dynamic multidimensional datasets for interactive analytics

Detalhes bibliográficos
Autor(a) principal: Pedreira, Pedro Eugênio Rocha
Data de Publicação: 2016
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/44470
Resumo: Orientador : Prof. Dr. Luis Carlos Erpen de Bona
id UFPR_25ecc29ab96507fcda98f31ddb6e1855
oai_identifier_str oai:acervodigital.ufpr.br:1884/44470
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaBona, Luis Carlos Erpen dePedreira, Pedro Eugênio Rocha2022-12-20T17:46:52Z2022-12-20T17:46:52Z2016https://hdl.handle.net/1884/44470Orientador : Prof. Dr. Luis Carlos Erpen de BonaTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 15/04/2016Inclui referências : f. 77-91Área de concentração : Ciência da computaçãoResumo: Indexação de dados multidimensionais tem sido extensivamente pesquisada nas últimas décadas. Neste trabalho, um novo workload OLAP identificado no Facebook é apresentado, caracterizado por (a) alta dinamicidade e dimensionalidade, (b) escala e (c) interatividade e simplicidade de consultas, inadequado para os SGBDs OLAP e técnicas de indexação de dados multidimensionais atuais. Baseado nesse caso de uso, uma nova estratégia de indexação e organização de dados multidimensionais para SGBDs em memória chamada Granular Partitioning é proposta. Essa técnica extende a visão tradicional de partitionamento em banco de dados, particionando por intervalo todas as dimensões do conjunto de dados e formando pequenos blocos que armazenam dados de forma não-coordenada e esparsa. Desta forma, é possível atingir altas taxas de ingestão de dados sem manter estrutura auxiliar alguma de indexação. Este trabalho também descreve como um SGBD OLAP capaz de suportar um modelo de dados composto por cubos, dimensões e métricas, além de operações como roll-ups, drill-downs e slice and dice (filtros) eficientes pode ser construído com base nessa nova técnica de organização de dados. Com objetivo de validar experimentalmente a técnica apresentada, este trabalho apresenta o Cubrick, um novo SGBD OLAP em memória distribuída e otimizada para a execução de consultas analíticas baseado em Granular Partitioning, escritas desde a primeira linha de código para este trabalho. Finalmente, os resultados de uma avaliação experimental extensiva contendo conjuntos de dados e consultas coletadas de projetos pilotos que utilizam Cubrick é apresentada; em seguida, é mostrado que a escala desejada pode ser alcançada caso os dados sejam organizados de acordo com o Granular Partitioning e o projeto seja focado em simplicidade, ingerindo milhões de registros por segundo continuamente de uxos de dados em tempo real, e concorrentemente executando consultas com latência inferior a 1 segundo.Abstrct: Indexing multidimensional data has been an active focus of research in the last few decades. In this work, we present a new type of OLAP workload found at Facebook and characterized by (a) high dynamicity and dimensionality, (b) scale and (c) interactivity and simplicity of queries, that is unsuited for most current OLAP DBMSs and multidimensional indexing techniques. To address this use case, we propose a novel multidimensional data organization and indexing strategy for in-memory DBMSs called Granular Partitioning. This technique extends the traditional view of database partitioning by range partitioning every dimension of the dataset and organizing the data within small containers in an unordered and sparse fashion, in such a way to provide high ingestion rates and indexed access through every dimension without maintaining any auxiliary data structures. We also describe how an OLAP DBMS able to support a multidimensional data model composed of cubes, dimensions and metrics and operations such as roll-up, drill-down as well as efficient slice and dice filtering) can be built on top of this new data organization technique. In order to experimentally validate the described technique we present Cubrick, a new in-memory distributed OLAP DBMS for interactive analytics based on Granular Partitioning we have written from the ground up at Facebook. Finally, we present results from a thorough experimental evaluation that leveraged datasets and queries collected from a few pilot Cubrick deployments. We show that by properly organizing the dataset according to Granular Partitioning and focusing the design on simplicity, we are able to achieve the target scale and store tens of terabytes of in-memory data, continuously ingest millions of records per second from realtime data streams and still execute sub-second queries.91 p. : il. algumas color.application/pdfDisponível em formato digitalCiência da computaçãoBanco de dadosSistemas de recuperação da informaçãoTesesOn indexing highly dynamic multidimensional datasets for interactive analyticsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - PEDRO EUGENIO ROCHA PEDREIRA.pdfapplication/pdf1153158https://acervodigital.ufpr.br/bitstream/1884/44470/1/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdfa5c3c9e6b441fce9a8b321c75fa01fcaMD51open accessTEXTR - T - PEDRO EUGENIO ROCHA PEDREIRA.pdf.txtExtracted Texttext/plain185255https://acervodigital.ufpr.br/bitstream/1884/44470/2/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.txt2681531f133e55d10ce121d20864e23aMD52open accessTHUMBNAILR - T - PEDRO EUGENIO ROCHA PEDREIRA.pdf.jpgGenerated Thumbnailimage/jpeg1121https://acervodigital.ufpr.br/bitstream/1884/44470/3/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.jpg6a76f728fd67ef8b915c44aebb0803c1MD53open access1884/444702022-12-20 14:46:52.816open accessoai:acervodigital.ufpr.br:1884/44470Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-12-20T17:46:52Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv On indexing highly dynamic multidimensional datasets for interactive analytics
title On indexing highly dynamic multidimensional datasets for interactive analytics
spellingShingle On indexing highly dynamic multidimensional datasets for interactive analytics
Pedreira, Pedro Eugênio Rocha
Ciência da computação
Banco de dados
Sistemas de recuperação da informação
Teses
title_short On indexing highly dynamic multidimensional datasets for interactive analytics
title_full On indexing highly dynamic multidimensional datasets for interactive analytics
title_fullStr On indexing highly dynamic multidimensional datasets for interactive analytics
title_full_unstemmed On indexing highly dynamic multidimensional datasets for interactive analytics
title_sort On indexing highly dynamic multidimensional datasets for interactive analytics
author Pedreira, Pedro Eugênio Rocha
author_facet Pedreira, Pedro Eugênio Rocha
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.advisor1.fl_str_mv Bona, Luis Carlos Erpen de
dc.contributor.author.fl_str_mv Pedreira, Pedro Eugênio Rocha
contributor_str_mv Bona, Luis Carlos Erpen de
dc.subject.por.fl_str_mv Ciência da computação
Banco de dados
Sistemas de recuperação da informação
Teses
topic Ciência da computação
Banco de dados
Sistemas de recuperação da informação
Teses
description Orientador : Prof. Dr. Luis Carlos Erpen de Bona
publishDate 2016
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2022-12-20T17:46:52Z
dc.date.available.fl_str_mv 2022-12-20T17:46:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/44470
url https://hdl.handle.net/1884/44470
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 91 p. : il. algumas color.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/44470/1/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf
https://acervodigital.ufpr.br/bitstream/1884/44470/2/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.txt
https://acervodigital.ufpr.br/bitstream/1884/44470/3/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.jpg
bitstream.checksum.fl_str_mv a5c3c9e6b441fce9a8b321c75fa01fca
2681531f133e55d10ce121d20864e23a
6a76f728fd67ef8b915c44aebb0803c1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1813898796033114112