Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos

Detalhes bibliográficos
Autor(a) principal: Lucas Miguel Simões Ponce
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ESBF-B6CGGA
Resumo: A computação de alto desempenho (HPC) e o processamento de dados massivos (big data) são duas tendências em sistemas de computação para lidar com problemas complexos ou com grande quantidade de dados. Cada um desses sistemas se especializou em um conjunto de problemas específicos com abordagens únicas, no entanto, atualmente tais sistemas estão começando a convergir, muitas vezes provocados pela mistura de domínios de um determinado problema. Um exemplo disso é o COMP Superscalar (COMPSs), um modelo de programação paralela e distribuída originado do mundo de HPC que vem sendo integrado a novas funcionalidades usualmente relacionadas a ambientes de big data. Este trabalho apresenta nossa contribuição nesse caminho de convergência afim de processar dados massivos integrando o COMPSs ao HDFS , um dos sistemas de arquivos distribuídos mais utilizado em big data, e ao Lemonade, uma ferramenta de análise e mineração de dados desenvolvida na Universidade Federal de Minas Gerais (UFMG). Os resultados mostram que a integração com o HDFS beneficia o COMPSs não só pela abstração de dados, que simplifica o acesso aos dados, mas também pelo aumento de desempenho em execuções que precisam ler grandes volumes de dados, provocado pela reorganização da transferência de dados pela rede. Além disso, a integração com o Lemonade facilita sua utilização e popularização na área de Ciência dos Dados, fornecendo boas implementações de algoritmos e operações para especialistas do domínio de dados que desejam desenvolver e executar aplicações COMPSs com um nível mais alto de abstração.
id UFMG_86ee5e1cadb2935d053c298117ec457d
oai_identifier_str oai:repositorio.ufmg.br:1843/ESBF-B6CGGA
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Dorgival Olavo Guedes NetoRenato Antonio Celso FerreiraPhilippe Olivier Alexandre NavauxLucas Miguel Simões Ponce2019-08-13T22:43:44Z2019-08-13T22:43:44Z2018-09-04http://hdl.handle.net/1843/ESBF-B6CGGAA computação de alto desempenho (HPC) e o processamento de dados massivos (big data) são duas tendências em sistemas de computação para lidar com problemas complexos ou com grande quantidade de dados. Cada um desses sistemas se especializou em um conjunto de problemas específicos com abordagens únicas, no entanto, atualmente tais sistemas estão começando a convergir, muitas vezes provocados pela mistura de domínios de um determinado problema. Um exemplo disso é o COMP Superscalar (COMPSs), um modelo de programação paralela e distribuída originado do mundo de HPC que vem sendo integrado a novas funcionalidades usualmente relacionadas a ambientes de big data. Este trabalho apresenta nossa contribuição nesse caminho de convergência afim de processar dados massivos integrando o COMPSs ao HDFS , um dos sistemas de arquivos distribuídos mais utilizado em big data, e ao Lemonade, uma ferramenta de análise e mineração de dados desenvolvida na Universidade Federal de Minas Gerais (UFMG). Os resultados mostram que a integração com o HDFS beneficia o COMPSs não só pela abstração de dados, que simplifica o acesso aos dados, mas também pelo aumento de desempenho em execuções que precisam ler grandes volumes de dados, provocado pela reorganização da transferência de dados pela rede. Além disso, a integração com o Lemonade facilita sua utilização e popularização na área de Ciência dos Dados, fornecendo boas implementações de algoritmos e operações para especialistas do domínio de dados que desejam desenvolver e executar aplicações COMPSs com um nível mais alto de abstração.High performance computing (HPC) and mass data processing (big data) are two trends in computing systems for dealing with complex or large data problems. Each of these systems specializes in a set of specific problems with unique approaches, however, currently such systems are beginning to converge, often brought on by the mixing of domains of a given problem. An example of this is the Superscalar COMP (COMPSs), a parallel and distributed programming model originating from the HPC world that has been integrated into new functionalities usually related to big data environments. This paper presents our contribution on this convergence path in order to process massive data by integrating COMPS into HDFS, one of the most widely used distributed file systems in big data, and Lemonade, a data mining and analysis tool developed at Universidade Federal de Minas Gerais (UFMG). The results show that integration with HDFS benefits the COMPS not only by data abstraction, which simplifies access to data, but also by increased performance in executions that need to read large volumes of data, caused by the reorganization of data transfer by network. In addition, Lemonade integration facilitates its use and popularization in the area of Data Science by providing good implementations of algorithms and operations for data domain specialists who wish to develop and run COMPS applications with a higher level of abstraction.Universidade Federal de Minas GeraisUFMGProcessamento de dadosComputaçãoBig dataComputação de alto desempenhoLemonadeBig DataHDFSCOMPSsProcessamento de Dados MassivosExtensão de um ambiente de computação de alto desempenho para o processamento de dados massivosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALlucasmiguelponce.pdfapplication/pdf1488279https://repositorio.ufmg.br/bitstream/1843/ESBF-B6CGGA/1/lucasmiguelponce.pdf606ef2f19e07a0703192692fa82c6623MD51TEXTlucasmiguelponce.pdf.txtlucasmiguelponce.pdf.txtExtracted texttext/plain147249https://repositorio.ufmg.br/bitstream/1843/ESBF-B6CGGA/2/lucasmiguelponce.pdf.txt3ce90187e3149fb6b9cc78da66eac2ceMD521843/ESBF-B6CGGA2019-11-14 13:24:15.186oai:repositorio.ufmg.br:1843/ESBF-B6CGGARepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T16:24:15Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
title Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
spellingShingle Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
Lucas Miguel Simões Ponce
Lemonade
Big Data
HDFS
COMPSs
Processamento de Dados Massivos
Processamento de dados
Computação
Big data
Computação de alto desempenho
title_short Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
title_full Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
title_fullStr Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
title_full_unstemmed Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
title_sort Extensão de um ambiente de computação de alto desempenho para o processamento de dados massivos
author Lucas Miguel Simões Ponce
author_facet Lucas Miguel Simões Ponce
author_role author
dc.contributor.advisor1.fl_str_mv Dorgival Olavo Guedes Neto
dc.contributor.referee1.fl_str_mv Renato Antonio Celso Ferreira
dc.contributor.referee2.fl_str_mv Philippe Olivier Alexandre Navaux
dc.contributor.author.fl_str_mv Lucas Miguel Simões Ponce
contributor_str_mv Dorgival Olavo Guedes Neto
Renato Antonio Celso Ferreira
Philippe Olivier Alexandre Navaux
dc.subject.por.fl_str_mv Lemonade
Big Data
HDFS
COMPSs
Processamento de Dados Massivos
topic Lemonade
Big Data
HDFS
COMPSs
Processamento de Dados Massivos
Processamento de dados
Computação
Big data
Computação de alto desempenho
dc.subject.other.pt_BR.fl_str_mv Processamento de dados
Computação
Big data
Computação de alto desempenho
description A computação de alto desempenho (HPC) e o processamento de dados massivos (big data) são duas tendências em sistemas de computação para lidar com problemas complexos ou com grande quantidade de dados. Cada um desses sistemas se especializou em um conjunto de problemas específicos com abordagens únicas, no entanto, atualmente tais sistemas estão começando a convergir, muitas vezes provocados pela mistura de domínios de um determinado problema. Um exemplo disso é o COMP Superscalar (COMPSs), um modelo de programação paralela e distribuída originado do mundo de HPC que vem sendo integrado a novas funcionalidades usualmente relacionadas a ambientes de big data. Este trabalho apresenta nossa contribuição nesse caminho de convergência afim de processar dados massivos integrando o COMPSs ao HDFS , um dos sistemas de arquivos distribuídos mais utilizado em big data, e ao Lemonade, uma ferramenta de análise e mineração de dados desenvolvida na Universidade Federal de Minas Gerais (UFMG). Os resultados mostram que a integração com o HDFS beneficia o COMPSs não só pela abstração de dados, que simplifica o acesso aos dados, mas também pelo aumento de desempenho em execuções que precisam ler grandes volumes de dados, provocado pela reorganização da transferência de dados pela rede. Além disso, a integração com o Lemonade facilita sua utilização e popularização na área de Ciência dos Dados, fornecendo boas implementações de algoritmos e operações para especialistas do domínio de dados que desejam desenvolver e executar aplicações COMPSs com um nível mais alto de abstração.
publishDate 2018
dc.date.issued.fl_str_mv 2018-09-04
dc.date.accessioned.fl_str_mv 2019-08-13T22:43:44Z
dc.date.available.fl_str_mv 2019-08-13T22:43:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ESBF-B6CGGA
url http://hdl.handle.net/1843/ESBF-B6CGGA
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ESBF-B6CGGA/1/lucasmiguelponce.pdf
https://repositorio.ufmg.br/bitstream/1843/ESBF-B6CGGA/2/lucasmiguelponce.pdf.txt
bitstream.checksum.fl_str_mv 606ef2f19e07a0703192692fa82c6623
3ce90187e3149fb6b9cc78da66eac2ce
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589183634145280