Estudo de tecnologias para sistemas de Big Data
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/11936 |
Resumo: | Big Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos. |
id |
RCAP_032a0d1a789b5f7421921bdd417d62bc |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/11936 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Estudo de tecnologias para sistemas de Big DataBig DataApache HadoopArquitetura LambdaArquitetura KappaLambda ArchitectureKappa ArchitectureSistemas ComputacionaisBig Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos.The technological evolution we’ve been witnessing these last years has increased dramatically the volume of data generated every single day and, therefore, has turned Big Data into a trendy concept. Companies are also increasingly aware of the potential value of the data they have in their hands. However, treating the volume of data in question means going further than the traditional technologies, which no longer can be used in this context. A solution for this problema is the Hadoop ecosystem, which is made by several dedicated technologies developed specifically to tackle Big Data problems. To study the Big Data technologies available today, this paper starts by presenting a theoretical analysis of the Hadoop ecosystem, of which are its most common Stacks and how they are integrated with the system itself. For that, we used a case study based on a data sensor processing system and previous published works to determine the technologies most suitable for this case and the best possible architecture. This theoretical analysis has, however, produced inconclusive results. Therefore, the opportunity arose to test four different combinations testing two processing technologies - Spark Streaming and Storm – and two architectures – Lambda and Kappa. The aim of these tests was to identify which processing technology/architecture combination has the best performance and uses the least amount of resources for the case in question. The results show us, among other conclusions, that the Spark-Kappa approach is the one with the best performance/resources ratio.Duarte, Fernando Jorge FerreiraRepositório Científico do Instituto Politécnico do PortoSobreiro , Saulo Abel Ramos2018-09-12T13:49:20Z20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/11936TID:201972220porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:53:56Zoai:recipp.ipp.pt:10400.22/11936Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:32:15.461842Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Estudo de tecnologias para sistemas de Big Data |
title |
Estudo de tecnologias para sistemas de Big Data |
spellingShingle |
Estudo de tecnologias para sistemas de Big Data Sobreiro , Saulo Abel Ramos Big Data Apache Hadoop Arquitetura Lambda Arquitetura Kappa Lambda Architecture Kappa Architecture Sistemas Computacionais |
title_short |
Estudo de tecnologias para sistemas de Big Data |
title_full |
Estudo de tecnologias para sistemas de Big Data |
title_fullStr |
Estudo de tecnologias para sistemas de Big Data |
title_full_unstemmed |
Estudo de tecnologias para sistemas de Big Data |
title_sort |
Estudo de tecnologias para sistemas de Big Data |
author |
Sobreiro , Saulo Abel Ramos |
author_facet |
Sobreiro , Saulo Abel Ramos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Duarte, Fernando Jorge Ferreira Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Sobreiro , Saulo Abel Ramos |
dc.subject.por.fl_str_mv |
Big Data Apache Hadoop Arquitetura Lambda Arquitetura Kappa Lambda Architecture Kappa Architecture Sistemas Computacionais |
topic |
Big Data Apache Hadoop Arquitetura Lambda Arquitetura Kappa Lambda Architecture Kappa Architecture Sistemas Computacionais |
description |
Big Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-09-12T13:49:20Z 2018 2018-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/11936 TID:201972220 |
url |
http://hdl.handle.net/10400.22/11936 |
identifier_str_mv |
TID:201972220 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799131416310579200 |