Estudo de tecnologias para sistemas de Big Data

Detalhes bibliográficos
Autor(a) principal: Sobreiro , Saulo Abel Ramos
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/11936
Resumo: Big Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos.
id RCAP_032a0d1a789b5f7421921bdd417d62bc
oai_identifier_str oai:recipp.ipp.pt:10400.22/11936
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Estudo de tecnologias para sistemas de Big DataBig DataApache HadoopArquitetura LambdaArquitetura KappaLambda ArchitectureKappa ArchitectureSistemas ComputacionaisBig Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos.The technological evolution we’ve been witnessing these last years has increased dramatically the volume of data generated every single day and, therefore, has turned Big Data into a trendy concept. Companies are also increasingly aware of the potential value of the data they have in their hands. However, treating the volume of data in question means going further than the traditional technologies, which no longer can be used in this context. A solution for this problema is the Hadoop ecosystem, which is made by several dedicated technologies developed specifically to tackle Big Data problems. To study the Big Data technologies available today, this paper starts by presenting a theoretical analysis of the Hadoop ecosystem, of which are its most common Stacks and how they are integrated with the system itself. For that, we used a case study based on a data sensor processing system and previous published works to determine the technologies most suitable for this case and the best possible architecture. This theoretical analysis has, however, produced inconclusive results. Therefore, the opportunity arose to test four different combinations testing two processing technologies - Spark Streaming and Storm – and two architectures – Lambda and Kappa. The aim of these tests was to identify which processing technology/architecture combination has the best performance and uses the least amount of resources for the case in question. The results show us, among other conclusions, that the Spark-Kappa approach is the one with the best performance/resources ratio.Duarte, Fernando Jorge FerreiraRepositório Científico do Instituto Politécnico do PortoSobreiro , Saulo Abel Ramos2018-09-12T13:49:20Z20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/11936TID:201972220porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:53:56Zoai:recipp.ipp.pt:10400.22/11936Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:32:15.461842Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Estudo de tecnologias para sistemas de Big Data
title Estudo de tecnologias para sistemas de Big Data
spellingShingle Estudo de tecnologias para sistemas de Big Data
Sobreiro , Saulo Abel Ramos
Big Data
Apache Hadoop
Arquitetura Lambda
Arquitetura Kappa
Lambda Architecture
Kappa Architecture
Sistemas Computacionais
title_short Estudo de tecnologias para sistemas de Big Data
title_full Estudo de tecnologias para sistemas de Big Data
title_fullStr Estudo de tecnologias para sistemas de Big Data
title_full_unstemmed Estudo de tecnologias para sistemas de Big Data
title_sort Estudo de tecnologias para sistemas de Big Data
author Sobreiro , Saulo Abel Ramos
author_facet Sobreiro , Saulo Abel Ramos
author_role author
dc.contributor.none.fl_str_mv Duarte, Fernando Jorge Ferreira
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Sobreiro , Saulo Abel Ramos
dc.subject.por.fl_str_mv Big Data
Apache Hadoop
Arquitetura Lambda
Arquitetura Kappa
Lambda Architecture
Kappa Architecture
Sistemas Computacionais
topic Big Data
Apache Hadoop
Arquitetura Lambda
Arquitetura Kappa
Lambda Architecture
Kappa Architecture
Sistemas Computacionais
description Big Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos.
publishDate 2018
dc.date.none.fl_str_mv 2018-09-12T13:49:20Z
2018
2018-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/11936
TID:201972220
url http://hdl.handle.net/10400.22/11936
identifier_str_mv TID:201972220
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131416310579200