Big Data Warehousing em tempo real: da recolha ao processamento de dados

Detalhes bibliográficos
Autor(a) principal: Lima, Francisca Leitão Gonçalves do Vale
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/53679
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_0669a550ea9839953d5e40418712b065
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/53679
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str
spelling Big Data Warehousing em tempo real: da recolha ao processamento de dadosReal-time Big Data Warehousing: from collection to data processingBig dataBig data warehouseReal-timeHadoopHiveEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoA evolução tecnológica dos últimos anos tem captado o interesse das organizações na análise de dados, na extração de informação das grandes quantidades de dados geradas, surgindo o interesse em Business Intelligence e associado a este a componente de Big Data. Big Data veio assim revolucionar as tecnologias e técnicas tradicionais pela capacidade de lidar com o volume, velocidade e variedade dos dados. A utilização de Data Warehouses, em contexto de Big Data, os Big Data Warehouses, aumentam as perspetivas de obter os dados de forma rápida e atualizada, potenciando o acesso aos dados em tempo real. Assim, com a introdução de tecnologias em tempo real é possível capturar a mudança nos dados e obter uma análise com dados atualizados, cada vez mais importante na tomada de decisão. Nesta dissertação pretende-se compreender o papel dos diversos componentes e tecnologias na concretização de Big Data Warehouses, um conjunto de considerações para a implementação de Big Data Warehouses, pelo que são explorados os requisitos de tempo real para a concretização e avaliação de uma arquitetura para o processamento de dados. Vários trabalhos têm sido propostos na procura de soluções que permitam o fluxo de dados em tempo real, contudo esta dissertação distingue-se por permitir que a recolha, o processamento, o armazenamento e a análise de dados, tanto recolhidos em tempo real como armazenados numa componente histórica, possam ser feitos em poucos segundos recorrendo a um conjunto de tecnologias aqui testadas e validadas. Assim, neste trabalho é estudado o desempenho dos componentes que permitem a concretização do tempo real desejado, com dados em tempo real e históricos, os quais são concretizados num caso de demonstração que permite evidenciar as vantagens e desvantagens de cada tecnologia. Com dados do Twitter a fluir em tempo real, o comportamento das várias tecnologias em cenários distintos é avaliado de forma a estabelecer um conjunto de boas práticas que vão desde a recolha de dados com Kafka, o processamento de dados com Spark Streaming, ao armazenamento de dados com Hive e/ou Cassandra, sendo efetuadas consultas recorrendo ao Presto. O trabalho realizado permite analisar o comportamento do Kafka neste contexto, o desempenho do Spark Streaming com diferentes durações de pacotes de dados, o desempenho do Hive no armazenamento de dados em tempo real e no armazenamento de dados históricos, e do Cassandra no armazenamento de dados em tempo real. A análise dos resultados obtidos permite a uma organização compreender o papel de cada componente e tecnologia numa arquitetura para a concretização de Big Data Warehouses, sendo possível realizar consultas de dados que integram dados atuais, a fluir em tempo real, com dados históricos.The technological evolution of the last years has called the attention of organizations for the analysis of data, with the aim of extracting information from the large volumes of generated data, increasing the interest in Business Intelligence and, more specifically, in Big Data. Big Data has revolutionized the traditional technologies and techniques with the ability to handle the volume, velocity and variety of data. The use of Data Warehouses, in the context of Big Data, the Big Data Warehouses, increases the ability to get faster access to updated data, enhancing data analytics in real-time. Thus, the introduction of real-time technologies allows capturing changes in data and provides analyses with updated data, a factor that is increasingly important in decision making. In this dissertation, the role of the components and technologies is explored and a set of considerations is established for the implementation of Big Data Warehouses, thus exploring the real-time requirements for the concretization and evaluation of an architecture for data processing. Related works have been proposed mainly enhancing data flowing in real-time. However, this dissertation is innovative by allowing the collection, processing, storage and analysis of data, a workflow that can be done in only a few seconds using a set of technologies tested and validated in this work. Thus, in this work the performance of the components that allow the concretization of the aimed real-time, processing real-time and historical data, are studied. A demonstration case shows the advantages and disadvantages of each technology. With Twitter data flowing in real-time, the technologies performance in distinct scenarios is evaluated establishing a set of best practices that use data collection with Kafka, data processing with Spark Streaming, data storage with Hive and/or Cassandra, being data queried by Presto. The work carried out allows the analysis of the performance of Kafka in this context, the performance of Spark Streaming with different microbatches, the performance of Hive in real-time data storage and in historical data storage, and Cassandra in real-time data storage. The analysis of the results allows an organization to understand the role of each component and technology in an architecture for the implementation of Big Data Warehouses, being possible to perform data analytics that integrates current data, flowing in real-time, with historical data.This work is supported by European Structural and Investment Funds in the FEDER component, through the Operational Competitiveness and Internationalization Programme (COMPETE 2020) [Project nº 002814; Funding Reference: POCI-01-0247-FEDER-002814]Santos, Maribel YasminaUniversidade do MinhoLima, Francisca Leitão Gonçalves do Vale20172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/53679por201890100info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:12:46ZPortal AgregadorONG
dc.title.none.fl_str_mv Big Data Warehousing em tempo real: da recolha ao processamento de dados
Real-time Big Data Warehousing: from collection to data processing
title Big Data Warehousing em tempo real: da recolha ao processamento de dados
spellingShingle Big Data Warehousing em tempo real: da recolha ao processamento de dados
Lima, Francisca Leitão Gonçalves do Vale
Big data
Big data warehouse
Real-time
Hadoop
Hive
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Big Data Warehousing em tempo real: da recolha ao processamento de dados
title_full Big Data Warehousing em tempo real: da recolha ao processamento de dados
title_fullStr Big Data Warehousing em tempo real: da recolha ao processamento de dados
title_full_unstemmed Big Data Warehousing em tempo real: da recolha ao processamento de dados
title_sort Big Data Warehousing em tempo real: da recolha ao processamento de dados
author Lima, Francisca Leitão Gonçalves do Vale
author_facet Lima, Francisca Leitão Gonçalves do Vale
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Universidade do Minho
dc.contributor.author.fl_str_mv Lima, Francisca Leitão Gonçalves do Vale
dc.subject.por.fl_str_mv Big data
Big data warehouse
Real-time
Hadoop
Hive
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Big data
Big data warehouse
Real-time
Hadoop
Hive
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2017
dc.date.none.fl_str_mv 2017
2017-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/53679
url http://hdl.handle.net/1822/53679
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 201890100
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv
repository.mail.fl_str_mv
_version_ 1777303706359824384