Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7

Bongo, Isabel Soqui

Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7

Detalhes bibliográficos
Autor(a) principal:	Bongo, Isabel Soqui
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.6/10049
Resumo:	Tendo em conta o forte crescimento dos dados que se observa atualmente, o conceito de big data vem ganhando popularidade, dando origem às ferramentas capazes de processar, analisar e armazenar estes grandes volumes de dados. Nesta senda, um dos desafios que se coloca aos profissionais e serviços que lidam com esse tipo de dados consiste na escolha adequada da melhor plataforma a utilizar para processamento de big data, tendo sido investigado o desempenho de Apache Hadoop, Apache Spark e Apache Flink que representam as três plataformas mais utilizadas para o processamento de big data. Nesta dissertação é avaliado o desempenho do Hadoop, do Spark e do Flink utilizando a suite de Benchmark Hibench na sua versão Hibench-master 7, tendo cido selecionado cinco cargas de trabalho nomeadamente: Sort, Terasort, Wordcount, K-means e Pagerank. Estas plataformas foram instaladas e configuradas num cluster homogéneo com quatro nós (máquinas físicas), um mestre e três escravos. Para avaliar o desempenho das plataformas, foram consideradas duas métricas: tempo de execução e a taxa de transferência dos dados, tendo-se caracterizado a utilização de recursos tais como memória, Central Processing Unit (CPU), Disco (E/S) e rede, para diferentes escalas de dados tais comosmall, large e gigantic. Foram realizadas várias experiências, tendo os respetivos resultados mostrado que o cluster do Spark ao executar as cargas de trabalho wordcount, sort e terasort obteve melhor desempenho com tamanho de dados gigantic, enquanto que o Hadoop apresentou melhor desempenho com tamanho de dados small e large, apesar de no wordcount a diferença ser pequena. Por outro lado, o Spark ao executar algoritmos iterativos como o k-means apresentou melhor desempenho com entradas de dados small e large e, para o pagerank, apenas com tamanho de dados small, enquanto que o Hadoop melhorou o seu desempenho com tamanho de dados gigantic para K-means e large para o pagerank. Os resultados obtidos mostram que o desempenhos das duas plataformas nesta experiência é relativo dependendo da carga de trabalho, do tamanho dos dados de entrada e do tamanho da memória. Foram também comparadas as plataformas Spark e o Flink executando o programa Wordcount dos seus ficheiros de exemplos, tendo-se observado que o Flink apresentou melhor desempenho que o Hadoop para todos os tipos de dados de entrada, sendo 2x mais rápido que o Spark. O Spark apresentou melhor desempenho que o Hadoop para tamanhos de dados de entrada de 2MB e 392MB, mas observou-se que o seu desempenho degradava-se com o aumento do tamanho de dados de entrada. O desempenho do Flink melhorou significativamente, sobretudo para tamanhos de dados de entrada de 8GB e 38GB, após o ajuste do valor do parâmetro de fração da memória.

Metadados do item

id	RCAP_7ca145903cf6cdd9c278e47a106bc946
oai_identifier_str	oai:ubibliorum.ubi.pt:10400.6/10049
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7BenchmarksCargas de TrabalhoComputação Na CloudDesempenhoFlinkHadoopSparkDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaTendo em conta o forte crescimento dos dados que se observa atualmente, o conceito de big data vem ganhando popularidade, dando origem às ferramentas capazes de processar, analisar e armazenar estes grandes volumes de dados. Nesta senda, um dos desafios que se coloca aos profissionais e serviços que lidam com esse tipo de dados consiste na escolha adequada da melhor plataforma a utilizar para processamento de big data, tendo sido investigado o desempenho de Apache Hadoop, Apache Spark e Apache Flink que representam as três plataformas mais utilizadas para o processamento de big data. Nesta dissertação é avaliado o desempenho do Hadoop, do Spark e do Flink utilizando a suite de Benchmark Hibench na sua versão Hibench-master 7, tendo cido selecionado cinco cargas de trabalho nomeadamente: Sort, Terasort, Wordcount, K-means e Pagerank. Estas plataformas foram instaladas e configuradas num cluster homogéneo com quatro nós (máquinas físicas), um mestre e três escravos. Para avaliar o desempenho das plataformas, foram consideradas duas métricas: tempo de execução e a taxa de transferência dos dados, tendo-se caracterizado a utilização de recursos tais como memória, Central Processing Unit (CPU), Disco (E/S) e rede, para diferentes escalas de dados tais comosmall, large e gigantic. Foram realizadas várias experiências, tendo os respetivos resultados mostrado que o cluster do Spark ao executar as cargas de trabalho wordcount, sort e terasort obteve melhor desempenho com tamanho de dados gigantic, enquanto que o Hadoop apresentou melhor desempenho com tamanho de dados small e large, apesar de no wordcount a diferença ser pequena. Por outro lado, o Spark ao executar algoritmos iterativos como o k-means apresentou melhor desempenho com entradas de dados small e large e, para o pagerank, apenas com tamanho de dados small, enquanto que o Hadoop melhorou o seu desempenho com tamanho de dados gigantic para K-means e large para o pagerank. Os resultados obtidos mostram que o desempenhos das duas plataformas nesta experiência é relativo dependendo da carga de trabalho, do tamanho dos dados de entrada e do tamanho da memória. Foram também comparadas as plataformas Spark e o Flink executando o programa Wordcount dos seus ficheiros de exemplos, tendo-se observado que o Flink apresentou melhor desempenho que o Hadoop para todos os tipos de dados de entrada, sendo 2x mais rápido que o Spark. O Spark apresentou melhor desempenho que o Hadoop para tamanhos de dados de entrada de 2MB e 392MB, mas observou-se que o seu desempenho degradava-se com o aumento do tamanho de dados de entrada. O desempenho do Flink melhorou significativamente, sobretudo para tamanhos de dados de entrada de 8GB e 38GB, após o ajuste do valor do parâmetro de fração da memória.Given the strong data growth that is currently occurring, the concept of big data has gained popularity, giving rise to tools capable of processing, analyzing and storing these large volumes of data. In this way, one of the challenges facing professionals and services dealing with this type of data is the adequate choice of the best platform to use for big data processing, and the performance of Apache Hadoop, Apache Spark and Apache Flink has been investigated, which represent the three most widely used platforms for big data processing. In this dissertation, the performance of Hadoop, Spark and Flink is evaluated using the Hibench Benchmark suite in its Hibench-master 7 version, having selected five workloads namely: sort, terasort, wordcount, Kmeans and pagerank. These platforms were installed and configured in a homogeneous cluster with four nodes (physical machines), one master and three slaves. In order to evaluate the performance of the platforms, two metrics were considered: execution time and throughput, being also characterized the resource consuption such as memory, Central Processing Unit (CPU), Disk (I/O) and network, for different scales of data such as small, large and gigantic. A number of experiments were carried out, with the respective results showing that the Spark cluster performing wordcount, sort and terasort workloads performed better with gigantic data size, while Hadoop performed better with small and large data sizes, although in wordcount the difference is small. On the other hand, Spark when executing iterative algorithms like k-means presented better performance with small and large data sizes and, for pagerank, only with small data size, while Hadoop improved its performance with gigantic data size for K-means and large for the pagerank. The results show that the performance of the two platforms in this experiment is relative depending on the workload, the size of the input data and the size of the memory. The Spark and Flink platforms were also compared by running the Wordcount program of their sample files, and it was observed that Flink performed better than Hadoop for all input data types, being 2x faster than Spark. Spark performed better than Hadoop for 2MB and 392MB input data sizes, sizes, but it was observed that its performance was degraded with the increasing of the size of input data. Flink performance improved significantly, especially for 8GB and 38GB input data sizes, after adjusting the memory fraction parameter value.Freire, Mário MarquesuBibliorumBongo, Isabel Soqui2020-03-18T16:28:21Z2019-01-232019-01-142019-01-23T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.6/10049TID:202365166porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:51:26Zoai:ubibliorum.ubi.pt:10400.6/10049Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:50:06.427433Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
title	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
spellingShingle	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7 Bongo, Isabel Soqui Benchmarks Cargas de Trabalho Computação Na Cloud Desempenho Flink Hadoop Spark Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
title_full	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
title_fullStr	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
title_full_unstemmed	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
title_sort	Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7
author	Bongo, Isabel Soqui
author_facet	Bongo, Isabel Soqui
author_role	author
dc.contributor.none.fl_str_mv	Freire, Mário Marques uBibliorum
dc.contributor.author.fl_str_mv	Bongo, Isabel Soqui
dc.subject.por.fl_str_mv	Benchmarks Cargas de Trabalho Computação Na Cloud Desempenho Flink Hadoop Spark Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	Benchmarks Cargas de Trabalho Computação Na Cloud Desempenho Flink Hadoop Spark Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Tendo em conta o forte crescimento dos dados que se observa atualmente, o conceito de big data vem ganhando popularidade, dando origem às ferramentas capazes de processar, analisar e armazenar estes grandes volumes de dados. Nesta senda, um dos desafios que se coloca aos profissionais e serviços que lidam com esse tipo de dados consiste na escolha adequada da melhor plataforma a utilizar para processamento de big data, tendo sido investigado o desempenho de Apache Hadoop, Apache Spark e Apache Flink que representam as três plataformas mais utilizadas para o processamento de big data. Nesta dissertação é avaliado o desempenho do Hadoop, do Spark e do Flink utilizando a suite de Benchmark Hibench na sua versão Hibench-master 7, tendo cido selecionado cinco cargas de trabalho nomeadamente: Sort, Terasort, Wordcount, K-means e Pagerank. Estas plataformas foram instaladas e configuradas num cluster homogéneo com quatro nós (máquinas físicas), um mestre e três escravos. Para avaliar o desempenho das plataformas, foram consideradas duas métricas: tempo de execução e a taxa de transferência dos dados, tendo-se caracterizado a utilização de recursos tais como memória, Central Processing Unit (CPU), Disco (E/S) e rede, para diferentes escalas de dados tais comosmall, large e gigantic. Foram realizadas várias experiências, tendo os respetivos resultados mostrado que o cluster do Spark ao executar as cargas de trabalho wordcount, sort e terasort obteve melhor desempenho com tamanho de dados gigantic, enquanto que o Hadoop apresentou melhor desempenho com tamanho de dados small e large, apesar de no wordcount a diferença ser pequena. Por outro lado, o Spark ao executar algoritmos iterativos como o k-means apresentou melhor desempenho com entradas de dados small e large e, para o pagerank, apenas com tamanho de dados small, enquanto que o Hadoop melhorou o seu desempenho com tamanho de dados gigantic para K-means e large para o pagerank. Os resultados obtidos mostram que o desempenhos das duas plataformas nesta experiência é relativo dependendo da carga de trabalho, do tamanho dos dados de entrada e do tamanho da memória. Foram também comparadas as plataformas Spark e o Flink executando o programa Wordcount dos seus ficheiros de exemplos, tendo-se observado que o Flink apresentou melhor desempenho que o Hadoop para todos os tipos de dados de entrada, sendo 2x mais rápido que o Spark. O Spark apresentou melhor desempenho que o Hadoop para tamanhos de dados de entrada de 2MB e 392MB, mas observou-se que o seu desempenho degradava-se com o aumento do tamanho de dados de entrada. O desempenho do Flink melhorou significativamente, sobretudo para tamanhos de dados de entrada de 8GB e 38GB, após o ajuste do valor do parâmetro de fração da memória.
publishDate	2019
dc.date.none.fl_str_mv	2019-01-23 2019-01-14 2019-01-23T00:00:00Z 2020-03-18T16:28:21Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.6/10049 TID:202365166
url	http://hdl.handle.net/10400.6/10049
identifier_str_mv	TID:202365166
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799136391462912000

Avaliação de Desempenho das Plataformas Apache Hadoop, Apache Spark e Apache Flink Usando o Benchmark Hibench-master 7

Registros relacionados