On indexing highly dynamic multidimensional datasets for interactive analytics
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/44470 |
Resumo: | Orientador : Prof. Dr. Luis Carlos Erpen de Bona |
id |
UFPR_25ecc29ab96507fcda98f31ddb6e1855 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/44470 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaBona, Luis Carlos Erpen dePedreira, Pedro Eugênio Rocha2022-12-20T17:46:52Z2022-12-20T17:46:52Z2016https://hdl.handle.net/1884/44470Orientador : Prof. Dr. Luis Carlos Erpen de BonaTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 15/04/2016Inclui referências : f. 77-91Área de concentração : Ciência da computaçãoResumo: Indexação de dados multidimensionais tem sido extensivamente pesquisada nas últimas décadas. Neste trabalho, um novo workload OLAP identificado no Facebook é apresentado, caracterizado por (a) alta dinamicidade e dimensionalidade, (b) escala e (c) interatividade e simplicidade de consultas, inadequado para os SGBDs OLAP e técnicas de indexação de dados multidimensionais atuais. Baseado nesse caso de uso, uma nova estratégia de indexação e organização de dados multidimensionais para SGBDs em memória chamada Granular Partitioning é proposta. Essa técnica extende a visão tradicional de partitionamento em banco de dados, particionando por intervalo todas as dimensões do conjunto de dados e formando pequenos blocos que armazenam dados de forma não-coordenada e esparsa. Desta forma, é possível atingir altas taxas de ingestão de dados sem manter estrutura auxiliar alguma de indexação. Este trabalho também descreve como um SGBD OLAP capaz de suportar um modelo de dados composto por cubos, dimensões e métricas, além de operações como roll-ups, drill-downs e slice and dice (filtros) eficientes pode ser construído com base nessa nova técnica de organização de dados. Com objetivo de validar experimentalmente a técnica apresentada, este trabalho apresenta o Cubrick, um novo SGBD OLAP em memória distribuída e otimizada para a execução de consultas analíticas baseado em Granular Partitioning, escritas desde a primeira linha de código para este trabalho. Finalmente, os resultados de uma avaliação experimental extensiva contendo conjuntos de dados e consultas coletadas de projetos pilotos que utilizam Cubrick é apresentada; em seguida, é mostrado que a escala desejada pode ser alcançada caso os dados sejam organizados de acordo com o Granular Partitioning e o projeto seja focado em simplicidade, ingerindo milhões de registros por segundo continuamente de uxos de dados em tempo real, e concorrentemente executando consultas com latência inferior a 1 segundo.Abstrct: Indexing multidimensional data has been an active focus of research in the last few decades. In this work, we present a new type of OLAP workload found at Facebook and characterized by (a) high dynamicity and dimensionality, (b) scale and (c) interactivity and simplicity of queries, that is unsuited for most current OLAP DBMSs and multidimensional indexing techniques. To address this use case, we propose a novel multidimensional data organization and indexing strategy for in-memory DBMSs called Granular Partitioning. This technique extends the traditional view of database partitioning by range partitioning every dimension of the dataset and organizing the data within small containers in an unordered and sparse fashion, in such a way to provide high ingestion rates and indexed access through every dimension without maintaining any auxiliary data structures. We also describe how an OLAP DBMS able to support a multidimensional data model composed of cubes, dimensions and metrics and operations such as roll-up, drill-down as well as efficient slice and dice filtering) can be built on top of this new data organization technique. In order to experimentally validate the described technique we present Cubrick, a new in-memory distributed OLAP DBMS for interactive analytics based on Granular Partitioning we have written from the ground up at Facebook. Finally, we present results from a thorough experimental evaluation that leveraged datasets and queries collected from a few pilot Cubrick deployments. We show that by properly organizing the dataset according to Granular Partitioning and focusing the design on simplicity, we are able to achieve the target scale and store tens of terabytes of in-memory data, continuously ingest millions of records per second from realtime data streams and still execute sub-second queries.91 p. : il. algumas color.application/pdfDisponível em formato digitalCiência da computaçãoBanco de dadosSistemas de recuperação da informaçãoTesesOn indexing highly dynamic multidimensional datasets for interactive analyticsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - PEDRO EUGENIO ROCHA PEDREIRA.pdfapplication/pdf1153158https://acervodigital.ufpr.br/bitstream/1884/44470/1/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdfa5c3c9e6b441fce9a8b321c75fa01fcaMD51open accessTEXTR - T - PEDRO EUGENIO ROCHA PEDREIRA.pdf.txtExtracted Texttext/plain185255https://acervodigital.ufpr.br/bitstream/1884/44470/2/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.txt2681531f133e55d10ce121d20864e23aMD52open accessTHUMBNAILR - T - PEDRO EUGENIO ROCHA PEDREIRA.pdf.jpgGenerated Thumbnailimage/jpeg1121https://acervodigital.ufpr.br/bitstream/1884/44470/3/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.jpg6a76f728fd67ef8b915c44aebb0803c1MD53open access1884/444702022-12-20 14:46:52.816open accessoai:acervodigital.ufpr.br:1884/44470Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082022-12-20T17:46:52Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
On indexing highly dynamic multidimensional datasets for interactive analytics |
title |
On indexing highly dynamic multidimensional datasets for interactive analytics |
spellingShingle |
On indexing highly dynamic multidimensional datasets for interactive analytics Pedreira, Pedro Eugênio Rocha Ciência da computação Banco de dados Sistemas de recuperação da informação Teses |
title_short |
On indexing highly dynamic multidimensional datasets for interactive analytics |
title_full |
On indexing highly dynamic multidimensional datasets for interactive analytics |
title_fullStr |
On indexing highly dynamic multidimensional datasets for interactive analytics |
title_full_unstemmed |
On indexing highly dynamic multidimensional datasets for interactive analytics |
title_sort |
On indexing highly dynamic multidimensional datasets for interactive analytics |
author |
Pedreira, Pedro Eugênio Rocha |
author_facet |
Pedreira, Pedro Eugênio Rocha |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática |
dc.contributor.advisor1.fl_str_mv |
Bona, Luis Carlos Erpen de |
dc.contributor.author.fl_str_mv |
Pedreira, Pedro Eugênio Rocha |
contributor_str_mv |
Bona, Luis Carlos Erpen de |
dc.subject.por.fl_str_mv |
Ciência da computação Banco de dados Sistemas de recuperação da informação Teses |
topic |
Ciência da computação Banco de dados Sistemas de recuperação da informação Teses |
description |
Orientador : Prof. Dr. Luis Carlos Erpen de Bona |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016 |
dc.date.accessioned.fl_str_mv |
2022-12-20T17:46:52Z |
dc.date.available.fl_str_mv |
2022-12-20T17:46:52Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/44470 |
url |
https://hdl.handle.net/1884/44470 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.pt_BR.fl_str_mv |
Disponível em formato digital |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
91 p. : il. algumas color. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/44470/1/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf https://acervodigital.ufpr.br/bitstream/1884/44470/2/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/44470/3/R%20-%20T%20-%20PEDRO%20EUGENIO%20ROCHA%20PEDREIRA.pdf.jpg |
bitstream.checksum.fl_str_mv |
a5c3c9e6b441fce9a8b321c75fa01fca 2681531f133e55d10ce121d20864e23a 6a76f728fd67ef8b915c44aebb0803c1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1813898796033114112 |