Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos

Detalhes bibliográficos
Autor(a) principal: Kolberg, Wagner
Data de Publicação: 2010
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/28331
Resumo: MapReduce é um modelo de programação voltado à computação paralela em larga escala, e ao processamento de grandes volumes de dados. A implementação do modelo, e as suposições feitas em relação ao ambiente sobre o qual será executado, influenciam fortemente no tempo de computação dos jobs submetidos. O Hadoop, uma das implementações mais populares do MapReduce, e que será estudada neste trabalho, supõe que o ambiente de execução é homogêneo, prejudicando o desempenho do framework quando a grade apresenta um certo nível de heterogeneidade no que toca a capacidade de processamento das máquinas que a constituem. Como ferramenta de análise para as adaptações propostas, é desenvolvido um simulador para o MapReduce — tendo como base o simulador de grades SimGrid — com o objetivo de facilitar a implementação e avaliação de novos algoritmos de escalonamento de tarefas e distribuição de dados, dentre outros. Dentre as vantagens proporcionadas pelo uso do simulador é possível citar: a facilidade na implementação de algoritmos teóricos; a agilidade em testes para uma grande variedade de configurações; e a possibilidade de avaliar rapidamente a escalabilidade de algoritmos sem custos de infraestrutura. Em relação ao simulador, é ainda apresentada uma validação de seu comportamento em relação ao Hadoop MapReduce, comparando execuções do sistema em uma grade, com simulações que emulam as configurações reais. Uma vez validado o simulador, o mesmo é utilizado para avaliar as adaptações do Hadoop a ambientes heterogêneos. Os resultados obtidos, tanto com a validação do simulador, quanto com a implementação das adaptações propostas, apresentaram resultados positivos, demostrando que é viável utilizar simulação para estudar e avaliar diferentes implementações para o modelo MapReduce. Este trabalho, portanto, consiste em um estudo do funcionamento interno do Hadoop MapReduce, seu comportamento em ambientes heterogêneos, e também propõe um novo simulador, com os recursos necessários para avaliar adaptações em implementações do MapReduce.
id UFRGS-2_1f681813cd50426c07064db51e58176e
oai_identifier_str oai:www.lume.ufrgs.br:10183/28331
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Kolberg, WagnerGeyer, Claudio Fernando Resin2011-03-30T05:59:57Z2010http://hdl.handle.net/10183/28331000767852MapReduce é um modelo de programação voltado à computação paralela em larga escala, e ao processamento de grandes volumes de dados. A implementação do modelo, e as suposições feitas em relação ao ambiente sobre o qual será executado, influenciam fortemente no tempo de computação dos jobs submetidos. O Hadoop, uma das implementações mais populares do MapReduce, e que será estudada neste trabalho, supõe que o ambiente de execução é homogêneo, prejudicando o desempenho do framework quando a grade apresenta um certo nível de heterogeneidade no que toca a capacidade de processamento das máquinas que a constituem. Como ferramenta de análise para as adaptações propostas, é desenvolvido um simulador para o MapReduce — tendo como base o simulador de grades SimGrid — com o objetivo de facilitar a implementação e avaliação de novos algoritmos de escalonamento de tarefas e distribuição de dados, dentre outros. Dentre as vantagens proporcionadas pelo uso do simulador é possível citar: a facilidade na implementação de algoritmos teóricos; a agilidade em testes para uma grande variedade de configurações; e a possibilidade de avaliar rapidamente a escalabilidade de algoritmos sem custos de infraestrutura. Em relação ao simulador, é ainda apresentada uma validação de seu comportamento em relação ao Hadoop MapReduce, comparando execuções do sistema em uma grade, com simulações que emulam as configurações reais. Uma vez validado o simulador, o mesmo é utilizado para avaliar as adaptações do Hadoop a ambientes heterogêneos. Os resultados obtidos, tanto com a validação do simulador, quanto com a implementação das adaptações propostas, apresentaram resultados positivos, demostrando que é viável utilizar simulação para estudar e avaliar diferentes implementações para o modelo MapReduce. Este trabalho, portanto, consiste em um estudo do funcionamento interno do Hadoop MapReduce, seu comportamento em ambientes heterogêneos, e também propõe um novo simulador, com os recursos necessários para avaliar adaptações em implementações do MapReduce.MapReduce is a programming model for large-scale parallel computing, and for processing large data sets. The model implementation, and the assumptions made about the running environment, strongly affect the job execution time. Hadoop, one of the most popular implementations of the MapReduce model, that will be studied in this work, assumes that the execution environment is homogeneous, deprecating its performance when the grid presents a certain level of heterogeneity, concerning the computation power of its nodes. As an analysis tool, a MapReduce simulator — having the SimGrid simulator as its base system — is developed to easily implement and evaluate new task scheduling and data distribution algorithms. As advantages that a simulator provides, it is possible to name: the simplified development of theoretical algorithms; the agility to test a great variety of configurations; and the possibility to quickly evaluate algorithm’s scalability without infrastructure costs. The simulator has its behavior validated against the Hadoop MapReduce, through comparisons of real executions of the framework on a real grid environment, and simulations that emulate the configurations used on the real execution. Once the simulator is validated, it is used to evaluate the modifications to the MapReduce algorithms on heterogeneous environments. The results of the simulator validation, and the evaluation of the proposed modifications, were positive, showing that it is possible to use simulation to study and evaluate different MapReduce implementations. Therefore, this work consists of a study about the Hadoop MapReduce, its behavior on heterogeneous environments, and it also proposes modifications in this framework to improve its performance on this kind of environment. To evaluate the proposed adaptations, a MapReduce simulator was developed, and it will also be presented in this study.application/pdfporComputação em gradeProcessamento paraleloGridMapReduceHadoopHeterogeneous environmentsSchedulingFrameworkParallel programmingSimulationSimulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneosSimulation and study of the hadoop mapreduce platform on heterogeneous environments info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2010Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000767852.pdf000767852.pdfTexto completoapplication/pdf1155600http://www.lume.ufrgs.br/bitstream/10183/28331/1/000767852.pdfb490b8c887c2fc85dd3c42b9bfa6a831MD51TEXT000767852.pdf.txt000767852.pdf.txtExtracted Texttext/plain92029http://www.lume.ufrgs.br/bitstream/10183/28331/2/000767852.pdf.txt90f09a46accee063937c94afccd40d4fMD52THUMBNAIL000767852.pdf.jpg000767852.pdf.jpgGenerated Thumbnailimage/jpeg987http://www.lume.ufrgs.br/bitstream/10183/28331/3/000767852.pdf.jpg82eeb5e18076c4e2d5987983f29dc7caMD5310183/283312018-10-11 08:55:45.41oai:www.lume.ufrgs.br:10183/28331Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-11T11:55:45Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
dc.title.alternative.en.fl_str_mv Simulation and study of the hadoop mapreduce platform on heterogeneous environments
title Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
spellingShingle Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
Kolberg, Wagner
Computação em grade
Processamento paralelo
Grid
MapReduce
Hadoop
Heterogeneous environments
Scheduling
Framework
Parallel programming
Simulation
title_short Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
title_full Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
title_fullStr Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
title_full_unstemmed Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
title_sort Simulação e estudo da plataforma Hadoop MapReduce em ambientes heterogêneos
author Kolberg, Wagner
author_facet Kolberg, Wagner
author_role author
dc.contributor.author.fl_str_mv Kolberg, Wagner
dc.contributor.advisor1.fl_str_mv Geyer, Claudio Fernando Resin
contributor_str_mv Geyer, Claudio Fernando Resin
dc.subject.por.fl_str_mv Computação em grade
Processamento paralelo
topic Computação em grade
Processamento paralelo
Grid
MapReduce
Hadoop
Heterogeneous environments
Scheduling
Framework
Parallel programming
Simulation
dc.subject.eng.fl_str_mv Grid
MapReduce
Hadoop
Heterogeneous environments
Scheduling
Framework
Parallel programming
Simulation
description MapReduce é um modelo de programação voltado à computação paralela em larga escala, e ao processamento de grandes volumes de dados. A implementação do modelo, e as suposições feitas em relação ao ambiente sobre o qual será executado, influenciam fortemente no tempo de computação dos jobs submetidos. O Hadoop, uma das implementações mais populares do MapReduce, e que será estudada neste trabalho, supõe que o ambiente de execução é homogêneo, prejudicando o desempenho do framework quando a grade apresenta um certo nível de heterogeneidade no que toca a capacidade de processamento das máquinas que a constituem. Como ferramenta de análise para as adaptações propostas, é desenvolvido um simulador para o MapReduce — tendo como base o simulador de grades SimGrid — com o objetivo de facilitar a implementação e avaliação de novos algoritmos de escalonamento de tarefas e distribuição de dados, dentre outros. Dentre as vantagens proporcionadas pelo uso do simulador é possível citar: a facilidade na implementação de algoritmos teóricos; a agilidade em testes para uma grande variedade de configurações; e a possibilidade de avaliar rapidamente a escalabilidade de algoritmos sem custos de infraestrutura. Em relação ao simulador, é ainda apresentada uma validação de seu comportamento em relação ao Hadoop MapReduce, comparando execuções do sistema em uma grade, com simulações que emulam as configurações reais. Uma vez validado o simulador, o mesmo é utilizado para avaliar as adaptações do Hadoop a ambientes heterogêneos. Os resultados obtidos, tanto com a validação do simulador, quanto com a implementação das adaptações propostas, apresentaram resultados positivos, demostrando que é viável utilizar simulação para estudar e avaliar diferentes implementações para o modelo MapReduce. Este trabalho, portanto, consiste em um estudo do funcionamento interno do Hadoop MapReduce, seu comportamento em ambientes heterogêneos, e também propõe um novo simulador, com os recursos necessários para avaliar adaptações em implementações do MapReduce.
publishDate 2010
dc.date.issued.fl_str_mv 2010
dc.date.accessioned.fl_str_mv 2011-03-30T05:59:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/28331
dc.identifier.nrb.pt_BR.fl_str_mv 000767852
url http://hdl.handle.net/10183/28331
identifier_str_mv 000767852
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/28331/1/000767852.pdf
http://www.lume.ufrgs.br/bitstream/10183/28331/2/000767852.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/28331/3/000767852.pdf.jpg
bitstream.checksum.fl_str_mv b490b8c887c2fc85dd3c42b9bfa6a831
90f09a46accee063937c94afccd40d4f
82eeb5e18076c4e2d5987983f29dc7ca
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224406574301184