Organização e processamento de dados em Big Data Warehouses baseados em Hive

Detalhes bibliográficos
Autor(a) principal: Costa, Eduarda Alexandra Pinto da
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/53753
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_c178594feb89cbb958c00c97e77d93e6
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/53753
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Organização e processamento de dados em Big Data Warehouses baseados em HiveData storage and processing in Hive-based Big Data WarehousesBig Data WarehouseHivePartiçõesBucketsDesempenhoPartitionsPerformanceEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoA quantidade de dados que é produzida nos dias de hoje tem aumentado exponencialmente, como consequência da disponibilidade de novas fontes de dados e, também, devido aos avanços que vão surgindo na área de recolha e armazenamento de dados. Esta explosão de dados foi acompanhada pela popularização do conceito de Big Data, que pode ser definido como grandes volumes de dados, com diferentes graus de complexidade, muitas vezes sem estrutura e organização, que não podem ser processados ou analisados com processos ou ferramentas tradicionais. Os Data Warehouses surgem como uma peça central no armazenamento adequado dos dados, facilitando a análise dos dados sob várias perspetivas e permitindo a extração de informação que pode utilizada nos processos de tomada de decisão. No entanto, estes repositórios tradicionais, que se baseiam em bases de dados relacionais, já não conseguem responder às exigências desta nova realidade. Surge então a necessidade de seguir para o contexto de Big Data Warehouses, que trazem novos problemas e que implicam a adoção de novos modelos lógicos, usados nas bases de dados NoSQL ou nas tecnologias disponíveis no Hadoop, para obter maior flexibilidade na gestão de dados não estruturados, e a adoção de novas tecnologias que suportem grandes quantidades de dados. O Hive é uma ferramenta que permite a concretização de Data Warehouse para contextos de Big Data, que organiza os dados em tabelas, partições e buckets. Vários estudos têm sido conduzidos para compreender formas de otimizar o desempenho no armazenamento e no processamento de dados em Big Data Warehouses. No entanto, poucos destes estudos exploram se a forma como os dados são estruturados tem alguma influência na forma como o Hive responde a consultas. Assim, esta dissertação procura investigar o papel da modelação e organização de dados nos tempos de processamento de Big Data Warehouses, especificamente a definição de partições e buckets no Hive, de forma a definir um conjunto de boas práticas que auxiliem no processo de modelação dos dados e de definição da estrutura de dados a armazenar nestes repositórios. Os resultados obtidos com a aplicação de diversas estratégias de modelação e organização de dados no Hive, reforçam as vantagens associadas à implementação de Big Data Warehouses baseados em tabelas desnormalizadas e, ainda, o potencial benefício da utilização de técnicas de particionamento que, uma vez alinhadas com os filtros aplicados frequentemente nos dados, podem diminuir significativamente o tempo de processamento. As técnicas de bucketing não demonstraram grandes benefícios para o armazenamento e processamento de dados pelo que, na generalidade dos casos, é desaconselhada a sua utilização.The amount of data produced today has increased exponentially as a consequence of the availability of new data sources, such as social networks and sensors and, also, due to advances emerging in the area of collection and storage of data. This data explosion was accompanied by the popularization of the term Big Data that can be defined as large volumes of data, with varying degrees of complexity, often without structure and organization, that cannot be processed or analyzed using traditional processes or tools. Data Warehouses emerged as central pieces for adequate data storage, facilitating the analysis of data using different perspectives and allowing the extraction of valuable information that can be used in decision-making processes. Nevertheless, these traditional repositories, which are based on relational databases, can no longer answer to the demands of this new reality. There is a need to move to a Big Data Warehouses context, which brings new problems and imply the adoption of new logical models, used in the NoSQL databases or in the technologies available in Hadoop, in order to gain flexibility and to manage unstructured data, and to adopt new technologies that support large amounts of data. Hive is a tool that allows the implementation of Data Warehouses for Big Data contexts which organizes the data into tables, partitions and buckets. Several studies have been conducted to understand ways to optimize the performance in data storage and processing in Big Data Warehouses. However, few of these studies explore whether the way data is structured has any influence on how Hive responds to queries. Thus, this dissertation investigates the role of data organization and modelling in the processing times of Big Data Warehouses, specifically the definition of partitions and buckets on Hive, in order to identify a set of best practices that help in the process of data modelling and the definition of the data structures to be used to store data in these repositories. The results obtained with the application of several strategies of data modeling and organization in Hive reinforce the advantages associated to the implementation of Big Data Warehouses based on denormalized models and, also, the potential benefit of using partitioning techniques that, once aligned with the filters frequently applied on data, can significantly decrease the processing times. Bucketing techniques have not presented significant benefits for data storage and processing, therefore, in general, the use of such techniques is discouraged.This work was supported by: European Structural and Investment Funds in the FEDER component, through the Operational Competitiveness and Internationalization Programme (COMPETE 2020) [Project nº 002814; Funding Reference: POCI-01-0247-FEDER-002814]Santos, Maribel YasminaUniversidade do MinhoCosta, Eduarda Alexandra Pinto da20172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/53753por201890119info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:37:31Zoai:repositorium.sdum.uminho.pt:1822/53753Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:33:50.222470Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Organização e processamento de dados em Big Data Warehouses baseados em Hive
Data storage and processing in Hive-based Big Data Warehouses
title Organização e processamento de dados em Big Data Warehouses baseados em Hive
spellingShingle Organização e processamento de dados em Big Data Warehouses baseados em Hive
Costa, Eduarda Alexandra Pinto da
Big Data Warehouse
Hive
Partições
Buckets
Desempenho
Partitions
Performance
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_full Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_fullStr Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_full_unstemmed Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_sort Organização e processamento de dados em Big Data Warehouses baseados em Hive
author Costa, Eduarda Alexandra Pinto da
author_facet Costa, Eduarda Alexandra Pinto da
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Universidade do Minho
dc.contributor.author.fl_str_mv Costa, Eduarda Alexandra Pinto da
dc.subject.por.fl_str_mv Big Data Warehouse
Hive
Partições
Buckets
Desempenho
Partitions
Performance
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Big Data Warehouse
Hive
Partições
Buckets
Desempenho
Partitions
Performance
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2017
dc.date.none.fl_str_mv 2017
2017-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/53753
url http://hdl.handle.net/1822/53753
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 201890119
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132857463996416