Processamento em streaming: avaliação de frameworks em contexto Big Data

Detalhes bibliográficos
Autor(a) principal: Miranda, Cristiano José Ribeiro
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/59130
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_2d6dd5a266de92b59f5897dd0c3f1e91
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/59130
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Processamento em streaming: avaliação de frameworks em contexto Big DataBig DataStreamingReal-timeBenchmarkSpark streamingFlinkStreamEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoNos dias de hoje, o vasto volume de dados produzido é um dos focos de atenção da comunidade científica de Sistemas de Informação. As ferramentas de gestão de dados tradicionais existentes não conseguem processar estes dados em tempo útil, sendo por isso necessário utilizar tecnologias mais adequadas de forma a possibilitar o processamento de um volume de dados mais elevado. Neste contexto, surge o termo Big Data, que descreve conjuntos de dados de grandes dimensões, de diferentes tipos e com diferentes graus de complexidade. Big Data tem um papel de extrema importância seja qual for a área de negócio, auxiliando a tomada de decisão e perceção das tendências futuras, alavancando a vantagem competitiva das organizações. Apesar das reconhecidas vantagens de Big Data e das tecnologias associadas, as aplicações que requerem processamento em tempo real de grandes fluxos de dados têm levado ao limite estas tecnologias. Para colmatar estas limitações surgiram novas ferramentas de processamento de dados em streaming. Estas ferramentas permitem a obtenção de resultados com tempos de espera reduzidos e resolvem o problema da elevada latência que os sistemas de processamento anteriores apresentavam. O objetivo desta dissertação é realizar um benchmark das principais frameworks de processamento em streaming no contexto Big Data. Para o sucesso da mesma realizou-se um enquadramento conceptual e tecnológico, onde foram levantados os principais conceitos associados ao termo Big Data, assim como das principais técnicas e ferramentas com especial destaque no streaming. Para a elaboração do benchmark, foi definida uma infraestrutura tecnológica no Google Cloud Platform e ainda os indicadores e métricas para posterior análise. Concluídos todos os testes definidos, foi possível perceber o comportamento de cada framework, as suas vantagens e desvantagens face ás diferentes necessidades no contexto de streaming.Nowadays, the vast volume of data produced is one of the focus of attention of the scientific community of Information Systems. Existing traditional data management tools are unable to process these data in a timely manner, so it is necessary to use more appropriate technologies in order to allow the processing a higher volume of data. In this context, the term Big Data appears, which describes large dimensions datasets, of different types and with different degrees of complexity. Big Data plays an extremely important role in all business areas, helping to make decisions and perceive future trends, leveraging the competitive advantage of organizations. Despite the recognized advantages of Big Data and associated technologies, applications that require real-time processing of large data streams have pushed these technologies to the limit. To address these limitations, new tools for streaming data processing have emerged. These tools allow the obtaining of results with reduced waiting times and solve the problem of high latency that previous processing systems had. The objective of this dissertation is to perform a benchmark of the main processing streaming frameworks in the Big Data context. For his success was realized a conceptual and technological framework, where were raised the main concepts associated with the term Big Data, as well as of the main techniques and tools with special emphasis in streaming tools. For the elaboration of the benchmark, a technological infrastructure was defined in the Google Cloud Platform and all the indicators and metrics needed for later analysis. After all the tests were executed, it was possible to perceive the behavior of each framework, its advantages and disadvantages in relation to different needs in the context of streaming.Santos, Maribel YasminaUniversidade do MinhoMiranda, Cristiano José Ribeiro20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/59130por202167836info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:15:23Zoai:repositorium.sdum.uminho.pt:1822/59130Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:07:48.516440Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Processamento em streaming: avaliação de frameworks em contexto Big Data
title Processamento em streaming: avaliação de frameworks em contexto Big Data
spellingShingle Processamento em streaming: avaliação de frameworks em contexto Big Data
Miranda, Cristiano José Ribeiro
Big Data
Streaming
Real-time
Benchmark
Spark streaming
Flink
Stream
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Processamento em streaming: avaliação de frameworks em contexto Big Data
title_full Processamento em streaming: avaliação de frameworks em contexto Big Data
title_fullStr Processamento em streaming: avaliação de frameworks em contexto Big Data
title_full_unstemmed Processamento em streaming: avaliação de frameworks em contexto Big Data
title_sort Processamento em streaming: avaliação de frameworks em contexto Big Data
author Miranda, Cristiano José Ribeiro
author_facet Miranda, Cristiano José Ribeiro
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Universidade do Minho
dc.contributor.author.fl_str_mv Miranda, Cristiano José Ribeiro
dc.subject.por.fl_str_mv Big Data
Streaming
Real-time
Benchmark
Spark streaming
Flink
Stream
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Big Data
Streaming
Real-time
Benchmark
Spark streaming
Flink
Stream
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2018
dc.date.none.fl_str_mv 2018
2018-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/59130
url http://hdl.handle.net/1822/59130
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202167836
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132498429476864