Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos

Vinicius Vitor dos Santos Dias

Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos

Detalhes bibliográficos
Autor(a) principal:	Vinicius Vitor dos Santos Dias
Data de Publicação:	2016
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/ESBF-AKUNB8
Resumo:	O aumento crescente da quantidade de dados sendo armazenados e a variedade de técnicas propostas para suprir a demanda por processamento de cientistas de dados têm resultado em uma nova geração de ambientes e paradigmas de processamento paralelo e distribuído. Apesar desses ambientes facilitarem a tarefa de programação com abstrações de mais alto nível, obter um bom desempenho continua um desafio. Neste trabalho investigamos fatores impactantes no desempenho de aplicações típicas de processamento massivo de dados e para isso tomamos como base o ambiente Spark. Ao sistematizar a metodologia de análise sobre dimensões de diagnóstico, somos capazes de identificar cenários atípicos que deixam explícitas as limitações do ambiente e das ações comumente utilizadas para mitigação de ineficiências. Validamos nossas observaçõesao demonstrar o potencial de ganho em ajustes manuais de desempenho. Finalmente, aplicamos o conjunto de lições aprendidas através do projeto e implementação de uma ferramenta extensível capaz de automatizar o processo de reconfiguração de aplicações Spark. A ferramenta utiliza como entrada logs de execuções passadas, garante a aplicação de políticas de ajuste sobre as estatísticas coletadas nos logs e leva em conta os padrões de comunicação durante a tomada de decisão. Para isso, a ferramenta identifica configurações globais que são passíveis de alteração ou pontos na aplicação do usuário onde o particionamento pode ser ajustado. Nossos resultados mostram que a ferramenta é capaz de obter ganhos de até 1,9 nos cenários considerados.

Metadados do item

id	UFMG_2bef416ee2deec4d439109e0e084052d
oai_identifier_str	oai:repositorio.ufmg.br:1843/ESBF-AKUNB8
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Dorgival Olavo Guedes NetoJussara Marques de AlmeidaWagner Meira JuniorVinicius Vitor dos Santos Dias2019-08-12T00:27:18Z2019-08-12T00:27:18Z2016-12-07http://hdl.handle.net/1843/ESBF-AKUNB8O aumento crescente da quantidade de dados sendo armazenados e a variedade de técnicas propostas para suprir a demanda por processamento de cientistas de dados têm resultado em uma nova geração de ambientes e paradigmas de processamento paralelo e distribuído. Apesar desses ambientes facilitarem a tarefa de programação com abstrações de mais alto nível, obter um bom desempenho continua um desafio. Neste trabalho investigamos fatores impactantes no desempenho de aplicações típicas de processamento massivo de dados e para isso tomamos como base o ambiente Spark. Ao sistematizar a metodologia de análise sobre dimensões de diagnóstico, somos capazes de identificar cenários atípicos que deixam explícitas as limitações do ambiente e das ações comumente utilizadas para mitigação de ineficiências. Validamos nossas observaçõesao demonstrar o potencial de ganho em ajustes manuais de desempenho. Finalmente, aplicamos o conjunto de lições aprendidas através do projeto e implementação de uma ferramenta extensível capaz de automatizar o processo de reconfiguração de aplicações Spark. A ferramenta utiliza como entrada logs de execuções passadas, garante a aplicação de políticas de ajuste sobre as estatísticas coletadas nos logs e leva em conta os padrões de comunicação durante a tomada de decisão. Para isso, a ferramenta identifica configurações globais que são passíveis de alteração ou pontos na aplicação do usuário onde o particionamento pode ser ajustado. Nossos resultados mostram que a ferramenta é capaz de obter ganhos de até 1,9 nos cenários considerados.The increasing amount of data being stored and the variety of algorithms proposed to meet processing demands of the data scientists have led to a new generation of computational environments and paradigms. These environments facilitate the task of programming through high level abstractions; however, achieving the ideal performance continues to be a challenge. In this work we investigate important factors concerning the performance of common big-data applications and consider the Spark framework as the target for our contributions. In particular, we organize our methodology of analysis based on diagnosis dimensions, which allow the identification of uncommon scenarios that provide us with valuable information about the environments limitations and possible actions to mitigate the issues. First, we validate our observations by showing the potential that manual adjustments have for improving the applications performance.Finally, we apply the lessons learned from the previous findings through the design and implementation of a extensible tool that automates the reconfiguration of Spark applications. Our tool leverages logs from previous executions as input, enforces configurable adjustment policies over the collected statistics and makes its decisions taking into account communication behaviors specific of the application evaluated. In order to accomplish that, the tool identifies global parameters that should be updated or points in the user program where the data partitioning can be adjusted based on those policies. Our results show gains of up to 1.9 in the scenarios considered.Universidade Federal de Minas GeraisUFMGBalanceamento de cargaFramework (Programa de computador)ComputaçãoComputação de alto desempenhodiagnóstico de desempenhoferramentareconfiguração dinâmicadados massivosbalanceamento de cargaDiagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALviniciusvitordossantosdias.pdfapplication/pdf2731920https://repositorio.ufmg.br/bitstream/1843/ESBF-AKUNB8/1/viniciusvitordossantosdias.pdf0db5c9f59d519fec83fe65ef9803764fMD51TEXTviniciusvitordossantosdias.pdf.txtviniciusvitordossantosdias.pdf.txtExtracted texttext/plain202343https://repositorio.ufmg.br/bitstream/1843/ESBF-AKUNB8/2/viniciusvitordossantosdias.pdf.txt95f0c90a011b867a1848725b63322deaMD521843/ESBF-AKUNB82019-11-14 06:19:58.973oai:repositorio.ufmg.br:1843/ESBF-AKUNB8Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T09:19:58Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
title	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
spellingShingle	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos Vinicius Vitor dos Santos Dias diagnóstico de desempenho ferramenta reconfiguração dinâmica dados massivos balanceamento de carga Balanceamento de carga Framework (Programa de computador) Computação Computação de alto desempenho
title_short	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
title_full	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
title_fullStr	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
title_full_unstemmed	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
title_sort	Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos
author	Vinicius Vitor dos Santos Dias
author_facet	Vinicius Vitor dos Santos Dias
author_role	author
dc.contributor.advisor1.fl_str_mv	Dorgival Olavo Guedes Neto
dc.contributor.referee1.fl_str_mv	Jussara Marques de Almeida
dc.contributor.referee2.fl_str_mv	Wagner Meira Junior
dc.contributor.author.fl_str_mv	Vinicius Vitor dos Santos Dias
contributor_str_mv	Dorgival Olavo Guedes Neto Jussara Marques de Almeida Wagner Meira Junior
dc.subject.por.fl_str_mv	diagnóstico de desempenho ferramenta reconfiguração dinâmica dados massivos balanceamento de carga
topic	diagnóstico de desempenho ferramenta reconfiguração dinâmica dados massivos balanceamento de carga Balanceamento de carga Framework (Programa de computador) Computação Computação de alto desempenho
dc.subject.other.pt_BR.fl_str_mv	Balanceamento de carga Framework (Programa de computador) Computação Computação de alto desempenho
description	O aumento crescente da quantidade de dados sendo armazenados e a variedade de técnicas propostas para suprir a demanda por processamento de cientistas de dados têm resultado em uma nova geração de ambientes e paradigmas de processamento paralelo e distribuído. Apesar desses ambientes facilitarem a tarefa de programação com abstrações de mais alto nível, obter um bom desempenho continua um desafio. Neste trabalho investigamos fatores impactantes no desempenho de aplicações típicas de processamento massivo de dados e para isso tomamos como base o ambiente Spark. Ao sistematizar a metodologia de análise sobre dimensões de diagnóstico, somos capazes de identificar cenários atípicos que deixam explícitas as limitações do ambiente e das ações comumente utilizadas para mitigação de ineficiências. Validamos nossas observaçõesao demonstrar o potencial de ganho em ajustes manuais de desempenho. Finalmente, aplicamos o conjunto de lições aprendidas através do projeto e implementação de uma ferramenta extensível capaz de automatizar o processo de reconfiguração de aplicações Spark. A ferramenta utiliza como entrada logs de execuções passadas, garante a aplicação de políticas de ajuste sobre as estatísticas coletadas nos logs e leva em conta os padrões de comunicação durante a tomada de decisão. Para isso, a ferramenta identifica configurações globais que são passíveis de alteração ou pontos na aplicação do usuário onde o particionamento pode ser ajustado. Nossos resultados mostram que a ferramenta é capaz de obter ganhos de até 1,9 nos cenários considerados.
publishDate	2016
dc.date.issued.fl_str_mv	2016-12-07
dc.date.accessioned.fl_str_mv	2019-08-12T00:27:18Z
dc.date.available.fl_str_mv	2019-08-12T00:27:18Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/ESBF-AKUNB8
url	http://hdl.handle.net/1843/ESBF-AKUNB8
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/ESBF-AKUNB8/1/viniciusvitordossantosdias.pdf https://repositorio.ufmg.br/bitstream/1843/ESBF-AKUNB8/2/viniciusvitordossantosdias.pdf.txt
bitstream.checksum.fl_str_mv	0db5c9f59d519fec83fe65ef9803764f 95f0c90a011b867a1848725b63322dea
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589153938472960

Diagnóstico de desempenho e reconfiguração dinâmica em processamento de dados massivos

Registros relacionados