Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição

Detalhes bibliográficos
Autor(a) principal: AZEVEDO, Alesanco Andrade
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPE
Texto Completo: https://repositorio.ufpe.br/handle/123456789/40912
Resumo: Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.
id UFPE_2e1667aeee6dc24183368e2196ea07e0
oai_identifier_str oai:repositorio.ufpe.br:123456789/40912
network_acronym_str UFPE
network_name_str Repositório Institucional da UFPE
repository_id_str 2221
spelling AZEVEDO, Alesanco Andradehttp://lattes.cnpq.br/7444646402261152http://lattes.cnpq.br/6390018491925933FIDALGO, Robson do Nascimento2021-08-10T13:44:25Z2021-08-10T13:44:25Z2021-02-26AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.https://repositorio.ufpe.br/handle/123456789/40912Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.Data Warehouses (DWs) are databases designed to favor the analytical processing of large volumes of data. In order to provide better storage performance and analytical processing in DWs, NewSQL database systems appear as a promising alternative. This class of database provides facilities to support scale-out, SQL language and main storage in RAM. There are studies that analyze the performance of NewSQL distributions in transactional and analytical data processing, however, as far as we know, there is no study that analyzes the impact of the use of different data schemes, distribution methods and forms of storage on the perfor- mance of a DW implemented in NewSQL. Thus, using different data volumes, we propose a performance analysis in NewSQL DWs comparing different data schemas (star schema and flat table), storage forms (rowstore and columnstore) and distribution methods (replication and partitioning by round-robin or hash). To achieve this goal, we performed an experimental performance evaluation on DWs, using the Star Schema Benchmark (SSB) and the MemSQL Database Manager System (SGBD), in a cluster structure of 3 computers. For the experi- mental evaluation, we used volume and time performance metrics in loading tasks and data queries. From the data collected, we verified that the use of flat tables, columnstore storage and hash key partitioning generated the best results in the average time of queries, presenting, however, disadvantages in the load time and in the volume of data stored. We also highlight that the use of columnstore, performed on disk, managed to obtain better results in query tasks, when compared to rowstore performed in RAM, given all the evaluated scenarios.porUniversidade Federal de PernambucoPrograma de Pos Graduacao em Ciencia da ComputacaoUFPEBrasilAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/embargoedAccessBanco de dadosData warehouseDesempenhoData warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuiçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesismestradoreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPELICENSElicense.txtlicense.txttext/plain; charset=utf-82310https://repositorio.ufpe.br/bitstream/123456789/40912/3/license.txtbd573a5ca8288eb7272482765f819534MD53TEXTDISSERTAÇÃO Alesanco Andrade Azevedo.pdf.txtDISSERTAÇÃO Alesanco Andrade Azevedo.pdf.txtExtracted texttext/plain162496https://repositorio.ufpe.br/bitstream/123456789/40912/4/DISSERTA%c3%87%c3%83O%20Alesanco%20Andrade%20Azevedo.pdf.txt28efb8b8e8aec91bd5a258ccea0bfd42MD54THUMBNAILDISSERTAÇÃO Alesanco Andrade Azevedo.pdf.jpgDISSERTAÇÃO Alesanco Andrade Azevedo.pdf.jpgGenerated Thumbnailimage/jpeg1237https://repositorio.ufpe.br/bitstream/123456789/40912/5/DISSERTA%c3%87%c3%83O%20Alesanco%20Andrade%20Azevedo.pdf.jpg87bdb0cfe98dd1231b6e9adf171799eaMD55ORIGINALDISSERTAÇÃO Alesanco Andrade Azevedo.pdfDISSERTAÇÃO Alesanco Andrade Azevedo.pdfapplication/pdf3036198https://repositorio.ufpe.br/bitstream/123456789/40912/1/DISSERTA%c3%87%c3%83O%20Alesanco%20Andrade%20Azevedo.pdf9f91d59404febdbb4f6e369fdfb1f0e2MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufpe.br/bitstream/123456789/40912/2/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD52123456789/409122021-08-11 02:13:59.819oai:repositorio.ufpe.br:123456789/40912TGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKClRvZG8gZGVwb3NpdGFudGUgZGUgbWF0ZXJpYWwgbm8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgKFJJKSBkZXZlIGNvbmNlZGVyLCDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBQZXJuYW1idWNvIChVRlBFKSwgdW1hIExpY2Vuw6dhIGRlIERpc3RyaWJ1acOnw6NvIE7Do28gRXhjbHVzaXZhIHBhcmEgbWFudGVyIGUgdG9ybmFyIGFjZXNzw612ZWlzIG9zIHNldXMgZG9jdW1lbnRvcywgZW0gZm9ybWF0byBkaWdpdGFsLCBuZXN0ZSByZXBvc2l0w7NyaW8uCgpDb20gYSBjb25jZXNzw6NvIGRlc3RhIGxpY2Vuw6dhIG7Do28gZXhjbHVzaXZhLCBvIGRlcG9zaXRhbnRlIG1hbnTDqW0gdG9kb3Mgb3MgZGlyZWl0b3MgZGUgYXV0b3IuCl9fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fX19fXwoKTGljZW7Dp2EgZGUgRGlzdHJpYnVpw6fDo28gTsOjbyBFeGNsdXNpdmEKCkFvIGNvbmNvcmRhciBjb20gZXN0YSBsaWNlbsOnYSBlIGFjZWl0w6EtbGEsIHZvY8OqIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMpOgoKYSkgRGVjbGFyYSBxdWUgY29uaGVjZSBhIHBvbMOtdGljYSBkZSBjb3B5cmlnaHQgZGEgZWRpdG9yYSBkbyBzZXUgZG9jdW1lbnRvOwpiKSBEZWNsYXJhIHF1ZSBjb25oZWNlIGUgYWNlaXRhIGFzIERpcmV0cml6ZXMgcGFyYSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGUEU7CmMpIENvbmNlZGUgw6AgVUZQRSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZGUgYXJxdWl2YXIsIHJlcHJvZHV6aXIsIGNvbnZlcnRlciAoY29tbyBkZWZpbmlkbyBhIHNlZ3VpciksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIsIG5vIFJJLCBvIGRvY3VtZW50byBlbnRyZWd1ZSAoaW5jbHVpbmRvIG8gcmVzdW1vL2Fic3RyYWN0KSBlbSBmb3JtYXRvIGRpZ2l0YWwgb3UgcG9yIG91dHJvIG1laW87CmQpIERlY2xhcmEgcXVlIGF1dG9yaXphIGEgVUZQRSBhIGFycXVpdmFyIG1haXMgZGUgdW1hIGPDs3BpYSBkZXN0ZSBkb2N1bWVudG8gZSBjb252ZXJ0w6otbG8sIHNlbSBhbHRlcmFyIG8gc2V1IGNvbnRlw7pkbywgcGFyYSBxdWFscXVlciBmb3JtYXRvIGRlIGZpY2hlaXJvLCBtZWlvIG91IHN1cG9ydGUsIHBhcmEgZWZlaXRvcyBkZSBzZWd1cmFuw6dhLCBwcmVzZXJ2YcOnw6NvIChiYWNrdXApIGUgYWNlc3NvOwplKSBEZWNsYXJhIHF1ZSBvIGRvY3VtZW50byBzdWJtZXRpZG8gw6kgbyBzZXUgdHJhYmFsaG8gb3JpZ2luYWwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBhIHRlcmNlaXJvcyBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2Ugb3MgZGlyZWl0b3MgZGUgb3V0cmEgcGVzc29hIG91IGVudGlkYWRlOwpmKSBEZWNsYXJhIHF1ZSwgbm8gY2FzbyBkbyBkb2N1bWVudG8gc3VibWV0aWRvIGNvbnRlciBtYXRlcmlhbCBkbyBxdWFsIG7Do28gZGV0w6ltIG9zIGRpcmVpdG9zIGRlCmF1dG9yLCBvYnRldmUgYSBhdXRvcml6YcOnw6NvIGlycmVzdHJpdGEgZG8gcmVzcGVjdGl2byBkZXRlbnRvciBkZXNzZXMgZGlyZWl0b3MgcGFyYSBjZWRlciDDoApVRlBFIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgTGljZW7Dp2EgZSBhdXRvcml6YXIgYSB1bml2ZXJzaWRhZGUgYSB1dGlsaXrDoS1sb3MgbGVnYWxtZW50ZS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBlc3NlIG1hdGVyaWFsIGN1am9zIGRpcmVpdG9zIHPDo28gZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3UgY29udGXDumRvIGRvIGRvY3VtZW50byBlbnRyZWd1ZTsKZykgU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVRlBFLCBkZWNsYXJhIHF1ZSBjdW1wcml1IHF1YWlzcXVlciBvYnJpZ2HDp8O1ZXMgZXhpZ2lkYXMgcGVsbyByZXNwZWN0aXZvIGNvbnRyYXRvIG91IGFjb3Jkby4KCkEgVUZQRSBpZGVudGlmaWNhcsOhIGNsYXJhbWVudGUgbyhzKSBub21lKHMpIGRvKHMpIGF1dG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50byBlbnRyZWd1ZSBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZG8gcHJldmlzdG8gbmEgYWzDrW5lYSBjKS4KRepositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212021-08-11T05:13:59Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false
dc.title.pt_BR.fl_str_mv Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
spellingShingle Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
AZEVEDO, Alesanco Andrade
Banco de dados
Data warehouse
Desempenho
title_short Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_full Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_fullStr Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_full_unstemmed Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
title_sort Data warehouse newSQL : uma análise de desempenho explorando estratégias de armazenamento e distribuição
author AZEVEDO, Alesanco Andrade
author_facet AZEVEDO, Alesanco Andrade
author_role author
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/7444646402261152
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/6390018491925933
dc.contributor.author.fl_str_mv AZEVEDO, Alesanco Andrade
dc.contributor.advisor1.fl_str_mv FIDALGO, Robson do Nascimento
contributor_str_mv FIDALGO, Robson do Nascimento
dc.subject.por.fl_str_mv Banco de dados
Data warehouse
Desempenho
topic Banco de dados
Data warehouse
Desempenho
description Data Warehouses (DWs) são bancos de dados projetados para favorecer o processamento ana- lítico de grandes volumes de dados. Com o intuito de prover melhor desempenho de armazena- mento e processamento analítico em DWs, sistemas de bancos de dados NewSQL surgem como uma alternativa promissora. Essa classe de banco de dados oferece facilidades para suportar es- calabilidade horizontal, linguagem SQL e armazenamento principal em memória RAM. Existem estudos que analisam o desempenho de distribuições NewSQL em processamento transacional e analítico de dados, contudo, até onde sabemos, não há estudo que analise o impacto do uso de diferentes esquemas de dados, métodos de distribuição e formas de armazenamento no desempenho de um DW implementado em NewSQL. Dessa forma, usando diferentes volumes de dados, propomos uma análise de desempenho em DWs NewSQL comparando diferentes esquemas de dados (esquema estrela e tabela flat), formas de armazenamento (rowstore e columnstore) e métodos de distribuição (replicação e particionamento por round-robin ou por hash). Para alcançar esse objetivo, realizamos uma avaliação experimental de desempenho em DWs, utilizando o Star Schema Benchmark (SSB) e o Sistema Gerenciador de Banco de Dados (SGBD) MemSQL, em estrutura de cluster de 3 computadores. Para a avaliação experimental, utilizamos métricas de volume e desempenho de tempo em tarefas de carga e consultas de dados. A partir dos dados coletados, verificamos que o uso de tabelas flat, armazenamento columnstore e particionamento por chave hash gerou os melhores resultados no tempo médio de consultas, apresentando, contudo, desvantagens no tempo de carga e no volume de dados armazenado. Destacamos ainda que o uso de columnstore, realizado em disco, conseguiu obter melhores resultados em tarefas de consulta, quando comparado rowstore realizado em RAM, diante todos os cenários avaliados.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-08-10T13:44:25Z
dc.date.available.fl_str_mv 2021-08-10T13:44:25Z
dc.date.issued.fl_str_mv 2021-02-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.ufpe.br/handle/123456789/40912
identifier_str_mv AZEVEDO, Alesanco Andrade. Data warehouse newSQL: uma análise de desempenho explorando estratégias de armazenamento e distribuição. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2021.
url https://repositorio.ufpe.br/handle/123456789/40912
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/embargoedAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv embargoedAccess
dc.publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.publisher.program.fl_str_mv Programa de Pos Graduacao em Ciencia da Computacao
dc.publisher.initials.fl_str_mv UFPE
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Pernambuco
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPE
instname:Universidade Federal de Pernambuco (UFPE)
instacron:UFPE
instname_str Universidade Federal de Pernambuco (UFPE)
instacron_str UFPE
institution UFPE
reponame_str Repositório Institucional da UFPE
collection Repositório Institucional da UFPE
bitstream.url.fl_str_mv https://repositorio.ufpe.br/bitstream/123456789/40912/3/license.txt
https://repositorio.ufpe.br/bitstream/123456789/40912/4/DISSERTA%c3%87%c3%83O%20Alesanco%20Andrade%20Azevedo.pdf.txt
https://repositorio.ufpe.br/bitstream/123456789/40912/5/DISSERTA%c3%87%c3%83O%20Alesanco%20Andrade%20Azevedo.pdf.jpg
https://repositorio.ufpe.br/bitstream/123456789/40912/1/DISSERTA%c3%87%c3%83O%20Alesanco%20Andrade%20Azevedo.pdf
https://repositorio.ufpe.br/bitstream/123456789/40912/2/license_rdf
bitstream.checksum.fl_str_mv bd573a5ca8288eb7272482765f819534
28efb8b8e8aec91bd5a258ccea0bfd42
87bdb0cfe98dd1231b6e9adf171799ea
9f91d59404febdbb4f6e369fdfb1f0e2
e39d27027a6cc9cb039ad269a5db8e34
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)
repository.mail.fl_str_mv attena@ufpe.br
_version_ 1802310598255443968