Big Data Warehousing em tempo real: da recolha ao processamento de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/53679 |
Resumo: | Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação |
id |
RCAP_0669a550ea9839953d5e40418712b065 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/53679 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Big Data Warehousing em tempo real: da recolha ao processamento de dadosReal-time Big Data Warehousing: from collection to data processingBig dataBig data warehouseReal-timeHadoopHiveEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoA evolução tecnológica dos últimos anos tem captado o interesse das organizações na análise de dados, na extração de informação das grandes quantidades de dados geradas, surgindo o interesse em Business Intelligence e associado a este a componente de Big Data. Big Data veio assim revolucionar as tecnologias e técnicas tradicionais pela capacidade de lidar com o volume, velocidade e variedade dos dados. A utilização de Data Warehouses, em contexto de Big Data, os Big Data Warehouses, aumentam as perspetivas de obter os dados de forma rápida e atualizada, potenciando o acesso aos dados em tempo real. Assim, com a introdução de tecnologias em tempo real é possível capturar a mudança nos dados e obter uma análise com dados atualizados, cada vez mais importante na tomada de decisão. Nesta dissertação pretende-se compreender o papel dos diversos componentes e tecnologias na concretização de Big Data Warehouses, um conjunto de considerações para a implementação de Big Data Warehouses, pelo que são explorados os requisitos de tempo real para a concretização e avaliação de uma arquitetura para o processamento de dados. Vários trabalhos têm sido propostos na procura de soluções que permitam o fluxo de dados em tempo real, contudo esta dissertação distingue-se por permitir que a recolha, o processamento, o armazenamento e a análise de dados, tanto recolhidos em tempo real como armazenados numa componente histórica, possam ser feitos em poucos segundos recorrendo a um conjunto de tecnologias aqui testadas e validadas. Assim, neste trabalho é estudado o desempenho dos componentes que permitem a concretização do tempo real desejado, com dados em tempo real e históricos, os quais são concretizados num caso de demonstração que permite evidenciar as vantagens e desvantagens de cada tecnologia. Com dados do Twitter a fluir em tempo real, o comportamento das várias tecnologias em cenários distintos é avaliado de forma a estabelecer um conjunto de boas práticas que vão desde a recolha de dados com Kafka, o processamento de dados com Spark Streaming, ao armazenamento de dados com Hive e/ou Cassandra, sendo efetuadas consultas recorrendo ao Presto. O trabalho realizado permite analisar o comportamento do Kafka neste contexto, o desempenho do Spark Streaming com diferentes durações de pacotes de dados, o desempenho do Hive no armazenamento de dados em tempo real e no armazenamento de dados históricos, e do Cassandra no armazenamento de dados em tempo real. A análise dos resultados obtidos permite a uma organização compreender o papel de cada componente e tecnologia numa arquitetura para a concretização de Big Data Warehouses, sendo possível realizar consultas de dados que integram dados atuais, a fluir em tempo real, com dados históricos.The technological evolution of the last years has called the attention of organizations for the analysis of data, with the aim of extracting information from the large volumes of generated data, increasing the interest in Business Intelligence and, more specifically, in Big Data. Big Data has revolutionized the traditional technologies and techniques with the ability to handle the volume, velocity and variety of data. The use of Data Warehouses, in the context of Big Data, the Big Data Warehouses, increases the ability to get faster access to updated data, enhancing data analytics in real-time. Thus, the introduction of real-time technologies allows capturing changes in data and provides analyses with updated data, a factor that is increasingly important in decision making. In this dissertation, the role of the components and technologies is explored and a set of considerations is established for the implementation of Big Data Warehouses, thus exploring the real-time requirements for the concretization and evaluation of an architecture for data processing. Related works have been proposed mainly enhancing data flowing in real-time. However, this dissertation is innovative by allowing the collection, processing, storage and analysis of data, a workflow that can be done in only a few seconds using a set of technologies tested and validated in this work. Thus, in this work the performance of the components that allow the concretization of the aimed real-time, processing real-time and historical data, are studied. A demonstration case shows the advantages and disadvantages of each technology. With Twitter data flowing in real-time, the technologies performance in distinct scenarios is evaluated establishing a set of best practices that use data collection with Kafka, data processing with Spark Streaming, data storage with Hive and/or Cassandra, being data queried by Presto. The work carried out allows the analysis of the performance of Kafka in this context, the performance of Spark Streaming with different microbatches, the performance of Hive in real-time data storage and in historical data storage, and Cassandra in real-time data storage. The analysis of the results allows an organization to understand the role of each component and technology in an architecture for the implementation of Big Data Warehouses, being possible to perform data analytics that integrates current data, flowing in real-time, with historical data.This work is supported by European Structural and Investment Funds in the FEDER component, through the Operational Competitiveness and Internationalization Programme (COMPETE 2020) [Project nº 002814; Funding Reference: POCI-01-0247-FEDER-002814]Santos, Maribel YasminaUniversidade do MinhoLima, Francisca Leitão Gonçalves do Vale20172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/53679por201890100info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:12:46Zoai:repositorium.sdum.uminho.pt:1822/53679Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:04:43.139594Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Big Data Warehousing em tempo real: da recolha ao processamento de dados Real-time Big Data Warehousing: from collection to data processing |
title |
Big Data Warehousing em tempo real: da recolha ao processamento de dados |
spellingShingle |
Big Data Warehousing em tempo real: da recolha ao processamento de dados Lima, Francisca Leitão Gonçalves do Vale Big data Big data warehouse Real-time Hadoop Hive Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
title_short |
Big Data Warehousing em tempo real: da recolha ao processamento de dados |
title_full |
Big Data Warehousing em tempo real: da recolha ao processamento de dados |
title_fullStr |
Big Data Warehousing em tempo real: da recolha ao processamento de dados |
title_full_unstemmed |
Big Data Warehousing em tempo real: da recolha ao processamento de dados |
title_sort |
Big Data Warehousing em tempo real: da recolha ao processamento de dados |
author |
Lima, Francisca Leitão Gonçalves do Vale |
author_facet |
Lima, Francisca Leitão Gonçalves do Vale |
author_role |
author |
dc.contributor.none.fl_str_mv |
Santos, Maribel Yasmina Universidade do Minho |
dc.contributor.author.fl_str_mv |
Lima, Francisca Leitão Gonçalves do Vale |
dc.subject.por.fl_str_mv |
Big data Big data warehouse Real-time Hadoop Hive Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
topic |
Big data Big data warehouse Real-time Hadoop Hive Engenharia e Tecnologia::Outras Engenharias e Tecnologias |
description |
Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017 2017-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/53679 |
url |
http://hdl.handle.net/1822/53679 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
201890100 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132457128165376 |