Organização e processamento de dados em Big Data Warehouses baseados em Hive

Costa, Eduarda Alexandra Pinto da

Organização e processamento de dados em Big Data Warehouses baseados em Hive

Detalhes bibliográficos
Autor(a) principal:	Costa, Eduarda Alexandra Pinto da
Data de Publicação:	2017
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/1822/53753
Resumo:	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação

Metadados do item

id	RCAP_c178594feb89cbb958c00c97e77d93e6
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/53753
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Organização e processamento de dados em Big Data Warehouses baseados em HiveData storage and processing in Hive-based Big Data WarehousesBig Data WarehouseHivePartiçõesBucketsDesempenhoPartitionsPerformanceEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoA quantidade de dados que é produzida nos dias de hoje tem aumentado exponencialmente, como consequência da disponibilidade de novas fontes de dados e, também, devido aos avanços que vão surgindo na área de recolha e armazenamento de dados. Esta explosão de dados foi acompanhada pela popularização do conceito de Big Data, que pode ser definido como grandes volumes de dados, com diferentes graus de complexidade, muitas vezes sem estrutura e organização, que não podem ser processados ou analisados com processos ou ferramentas tradicionais. Os Data Warehouses surgem como uma peça central no armazenamento adequado dos dados, facilitando a análise dos dados sob várias perspetivas e permitindo a extração de informação que pode utilizada nos processos de tomada de decisão. No entanto, estes repositórios tradicionais, que se baseiam em bases de dados relacionais, já não conseguem responder às exigências desta nova realidade. Surge então a necessidade de seguir para o contexto de Big Data Warehouses, que trazem novos problemas e que implicam a adoção de novos modelos lógicos, usados nas bases de dados NoSQL ou nas tecnologias disponíveis no Hadoop, para obter maior flexibilidade na gestão de dados não estruturados, e a adoção de novas tecnologias que suportem grandes quantidades de dados. O Hive é uma ferramenta que permite a concretização de Data Warehouse para contextos de Big Data, que organiza os dados em tabelas, partições e buckets. Vários estudos têm sido conduzidos para compreender formas de otimizar o desempenho no armazenamento e no processamento de dados em Big Data Warehouses. No entanto, poucos destes estudos exploram se a forma como os dados são estruturados tem alguma influência na forma como o Hive responde a consultas. Assim, esta dissertação procura investigar o papel da modelação e organização de dados nos tempos de processamento de Big Data Warehouses, especificamente a definição de partições e buckets no Hive, de forma a definir um conjunto de boas práticas que auxiliem no processo de modelação dos dados e de definição da estrutura de dados a armazenar nestes repositórios. Os resultados obtidos com a aplicação de diversas estratégias de modelação e organização de dados no Hive, reforçam as vantagens associadas à implementação de Big Data Warehouses baseados em tabelas desnormalizadas e, ainda, o potencial benefício da utilização de técnicas de particionamento que, uma vez alinhadas com os filtros aplicados frequentemente nos dados, podem diminuir significativamente o tempo de processamento. As técnicas de bucketing não demonstraram grandes benefícios para o armazenamento e processamento de dados pelo que, na generalidade dos casos, é desaconselhada a sua utilização.The amount of data produced today has increased exponentially as a consequence of the availability of new data sources, such as social networks and sensors and, also, due to advances emerging in the area of collection and storage of data. This data explosion was accompanied by the popularization of the term Big Data that can be defined as large volumes of data, with varying degrees of complexity, often without structure and organization, that cannot be processed or analyzed using traditional processes or tools. Data Warehouses emerged as central pieces for adequate data storage, facilitating the analysis of data using different perspectives and allowing the extraction of valuable information that can be used in decision-making processes. Nevertheless, these traditional repositories, which are based on relational databases, can no longer answer to the demands of this new reality. There is a need to move to a Big Data Warehouses context, which brings new problems and imply the adoption of new logical models, used in the NoSQL databases or in the technologies available in Hadoop, in order to gain flexibility and to manage unstructured data, and to adopt new technologies that support large amounts of data. Hive is a tool that allows the implementation of Data Warehouses for Big Data contexts which organizes the data into tables, partitions and buckets. Several studies have been conducted to understand ways to optimize the performance in data storage and processing in Big Data Warehouses. However, few of these studies explore whether the way data is structured has any influence on how Hive responds to queries. Thus, this dissertation investigates the role of data organization and modelling in the processing times of Big Data Warehouses, specifically the definition of partitions and buckets on Hive, in order to identify a set of best practices that help in the process of data modelling and the definition of the data structures to be used to store data in these repositories. The results obtained with the application of several strategies of data modeling and organization in Hive reinforce the advantages associated to the implementation of Big Data Warehouses based on denormalized models and, also, the potential benefit of using partitioning techniques that, once aligned with the filters frequently applied on data, can significantly decrease the processing times. Bucketing techniques have not presented significant benefits for data storage and processing, therefore, in general, the use of such techniques is discouraged.This work was supported by: European Structural and Investment Funds in the FEDER component, through the Operational Competitiveness and Internationalization Programme (COMPETE 2020) [Project nº 002814; Funding Reference: POCI-01-0247-FEDER-002814]Santos, Maribel YasminaUniversidade do MinhoCosta, Eduarda Alexandra Pinto da20172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/53753por201890119info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:37:31Zoai:repositorium.sdum.uminho.pt:1822/53753Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:33:50.222470Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Organização e processamento de dados em Big Data Warehouses baseados em Hive Data storage and processing in Hive-based Big Data Warehouses
title	Organização e processamento de dados em Big Data Warehouses baseados em Hive
spellingShingle	Organização e processamento de dados em Big Data Warehouses baseados em Hive Costa, Eduarda Alexandra Pinto da Big Data Warehouse Hive Partições Buckets Desempenho Partitions Performance Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short	Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_full	Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_fullStr	Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_full_unstemmed	Organização e processamento de dados em Big Data Warehouses baseados em Hive
title_sort	Organização e processamento de dados em Big Data Warehouses baseados em Hive
author	Costa, Eduarda Alexandra Pinto da
author_facet	Costa, Eduarda Alexandra Pinto da
author_role	author
dc.contributor.none.fl_str_mv	Santos, Maribel Yasmina Universidade do Minho
dc.contributor.author.fl_str_mv	Costa, Eduarda Alexandra Pinto da
dc.subject.por.fl_str_mv	Big Data Warehouse Hive Partições Buckets Desempenho Partitions Performance Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic	Big Data Warehouse Hive Partições Buckets Desempenho Partitions Performance Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description	Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate	2017
dc.date.none.fl_str_mv	2017 2017-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1822/53753
url	http://hdl.handle.net/1822/53753
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	201890119
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799132857463996416

Organização e processamento de dados em Big Data Warehouses baseados em Hive

Registros relacionados