Big data processing using hybrid infrastructures such as cloud computing and desktop grids

Detalhes bibliográficos
Autor(a) principal: Anjos, Julio Cesar Santos dos
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/231686
Resumo: Um grande volume de dados é produzido todos os dias, desde informações fornecidas por redes sociais (tais como Facebook, Instagram, Whatsapp, etc) ou geradas por sensores em dispositivos móveis, até aplicações Big Data como a busca do Google. Esta inundação de dados requer cada vez mais recursos computacionais para processar informações mais rapidamente. Embora Cloud tenha crescido rapidamente nos últimos anos, ela ainda sofre com falta de padronização e gerenciamento de recursos adequados. Os usuários que necessitam executar aplicações podem não saber como mapear seus requisitos de sistemas para os recursos disponíveis. Esta falta de conhecimento sobre a infraestrutura dos provedores de nuvem leva a superestimar ou subestimar a capacidade de processamento necessária para as tarefas. Este cenário complexo apresenta enormes desafios para os pesquisadores em termos de sistemas e tipos de infraestruturas. Por outro lado, ele oferece várias oportunidades para o pesquisador encontrar soluções para a análise de Big Data. Este trabalho estabelece: i) uma nova plataforma chamada SMART que oferece a análise de Big Data em uma arquitetura Lambda sobre uma infraestrutura híbrida; ii) apresenta um simulador chamado BIGhybrid para ser um conjunto de ferramentas para o estudo da análise de Big Data em infraestruturas híbridas. Este permite que o usuário encontre as configurações mais próxima para as aplicações Big Data na implantação em ambientes reais. Ainda, define estratégias para a distribuição de dados neste cenário complexo para reduzir os riscos de problemas causados por erros comuns de configurações; iii) avalia o uso do módulo Despachante na plataforma SMART e iv) define estratégias para o uso de Desktop Grid e computação em nuvem em um ambiente geo-distribuído em uma infraestrutura híbrida. O objetivo é encontrar algumas das restrições a uma qualidade de serviços (QoS) aceitável. Tais restrições estão relacionadas com a relação entre máquinas voluntárias e nós estáveis, distribuição de dados, estratégias de balanceamento da carga e assim por diante. Embora isto possa ser construído em um ambiente real, uma avaliação experimental em larga escala é somente possível através de simulação devido às características de reprodutibilidade e previsibilidade de características ambientais. Os experimentos indicam um bom desempenho da plataforma SMART em baixa escala em um ambiente real.
id URGS_1ce3fa077637e1eb2db46a69f55813f9
oai_identifier_str oai:www.lume.ufrgs.br:10183/231686
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Anjos, Julio Cesar Santos dosGeyer, Claudio Fernando ResinFedak, Gilles2021-11-11T04:28:36Z2017http://hdl.handle.net/10183/231686001016880Um grande volume de dados é produzido todos os dias, desde informações fornecidas por redes sociais (tais como Facebook, Instagram, Whatsapp, etc) ou geradas por sensores em dispositivos móveis, até aplicações Big Data como a busca do Google. Esta inundação de dados requer cada vez mais recursos computacionais para processar informações mais rapidamente. Embora Cloud tenha crescido rapidamente nos últimos anos, ela ainda sofre com falta de padronização e gerenciamento de recursos adequados. Os usuários que necessitam executar aplicações podem não saber como mapear seus requisitos de sistemas para os recursos disponíveis. Esta falta de conhecimento sobre a infraestrutura dos provedores de nuvem leva a superestimar ou subestimar a capacidade de processamento necessária para as tarefas. Este cenário complexo apresenta enormes desafios para os pesquisadores em termos de sistemas e tipos de infraestruturas. Por outro lado, ele oferece várias oportunidades para o pesquisador encontrar soluções para a análise de Big Data. Este trabalho estabelece: i) uma nova plataforma chamada SMART que oferece a análise de Big Data em uma arquitetura Lambda sobre uma infraestrutura híbrida; ii) apresenta um simulador chamado BIGhybrid para ser um conjunto de ferramentas para o estudo da análise de Big Data em infraestruturas híbridas. Este permite que o usuário encontre as configurações mais próxima para as aplicações Big Data na implantação em ambientes reais. Ainda, define estratégias para a distribuição de dados neste cenário complexo para reduzir os riscos de problemas causados por erros comuns de configurações; iii) avalia o uso do módulo Despachante na plataforma SMART e iv) define estratégias para o uso de Desktop Grid e computação em nuvem em um ambiente geo-distribuído em uma infraestrutura híbrida. O objetivo é encontrar algumas das restrições a uma qualidade de serviços (QoS) aceitável. Tais restrições estão relacionadas com a relação entre máquinas voluntárias e nós estáveis, distribuição de dados, estratégias de balanceamento da carga e assim por diante. Embora isto possa ser construído em um ambiente real, uma avaliação experimental em larga escala é somente possível através de simulação devido às características de reprodutibilidade e previsibilidade de características ambientais. Os experimentos indicam um bom desempenho da plataforma SMART em baixa escala em um ambiente real.A huge volume of data is produced every day, from the information provided by social networks (such as Facebook, Instagram, Whatsapp, etc) or that generated by sensors on mobile devices, including Big Data applications like Google Searches. This deluge of data requires ever more computational resources to process the information more quickly. Although Cloud has grown rapidly in recent years, it still suffers from a lack of standardization and management resources. The users who need to execute applications may not know how to map their requirements to the available resources. This lack of knowledge about the Cloud provider infrastructure leads either to overestimating or underestimating the required processing capacity for tasks. This complex scenario raises enormous challenges for researchers of new systems and infrastructure kinds. On the other hand, it provides several opportunities for the researcher to find solutions for Big Data Analytics. This work establishes: i) a new platform called SMART which offers Big Data Analytics in a Lambda architecture within a hybrid infrastructure; ii) presents a simulator called BIGhybrid to be a toolkit for the study of Big Data Analytics in hybrid infrastructures. Its goal is to enable the user achieves the nearest configuration for Big Data applications into deployment in real-world environments. In addition, defines data distribution strategies in this complex scenario for reducing the risks of trouble caused by common configuration mistakes; iii) evaluates the use of the Dispatcher module in the SMART platform and iv) defines strategies for the use of Desktop Grid and Cloud Computing in a geo-distributed environment within a hybrid infrastructure. The boundaries to produce an acceptable quality of service (QoS) are presented. Such limits can be summarized as the relation between volunteer hosts and stable nodes, the shape of data distribution, load balancing strategies and relation Φ to resource allocation. Although it can be carried out in the real-world, an experimental evaluation on a large scale is only possible through simulation owing to the reproducibility and predictability of environmental features. These experiments indicate a good performance of the SMART platform in low and high-scale in simulated environments.application/pdfengComputação em nuvemBig dataProcessamento paralelo distribuidoBig data processing using hybrid infrastructures such as cloud computing and desktop gridsProcessamento Big Data usando infra-estrutura hibridas como computação em nuvem info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2015doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001016880.pdf.txt001016880.pdf.txtExtracted Texttext/plain355054http://www.lume.ufrgs.br/bitstream/10183/231686/2/001016880.pdf.txt694ed18586e034cfe3653ab7a9067418MD52ORIGINAL001016880.pdfTexto completo (inglês)application/pdf8295842http://www.lume.ufrgs.br/bitstream/10183/231686/1/001016880.pdfdee05a6cfbc66de8c1642204cd65af94MD5110183/2316862021-11-20 05:43:11.266662oai:www.lume.ufrgs.br:10183/231686Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532021-11-20T07:43:11Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Big data processing using hybrid infrastructures such as cloud computing and desktop grids
dc.title.alternative.en.fl_str_mv Processamento Big Data usando infra-estrutura hibridas como computação em nuvem
title Big data processing using hybrid infrastructures such as cloud computing and desktop grids
spellingShingle Big data processing using hybrid infrastructures such as cloud computing and desktop grids
Anjos, Julio Cesar Santos dos
Computação em nuvem
Big data
Processamento paralelo distribuido
title_short Big data processing using hybrid infrastructures such as cloud computing and desktop grids
title_full Big data processing using hybrid infrastructures such as cloud computing and desktop grids
title_fullStr Big data processing using hybrid infrastructures such as cloud computing and desktop grids
title_full_unstemmed Big data processing using hybrid infrastructures such as cloud computing and desktop grids
title_sort Big data processing using hybrid infrastructures such as cloud computing and desktop grids
author Anjos, Julio Cesar Santos dos
author_facet Anjos, Julio Cesar Santos dos
author_role author
dc.contributor.author.fl_str_mv Anjos, Julio Cesar Santos dos
dc.contributor.advisor1.fl_str_mv Geyer, Claudio Fernando Resin
dc.contributor.advisor-co1.fl_str_mv Fedak, Gilles
contributor_str_mv Geyer, Claudio Fernando Resin
Fedak, Gilles
dc.subject.por.fl_str_mv Computação em nuvem
Big data
Processamento paralelo distribuido
topic Computação em nuvem
Big data
Processamento paralelo distribuido
description Um grande volume de dados é produzido todos os dias, desde informações fornecidas por redes sociais (tais como Facebook, Instagram, Whatsapp, etc) ou geradas por sensores em dispositivos móveis, até aplicações Big Data como a busca do Google. Esta inundação de dados requer cada vez mais recursos computacionais para processar informações mais rapidamente. Embora Cloud tenha crescido rapidamente nos últimos anos, ela ainda sofre com falta de padronização e gerenciamento de recursos adequados. Os usuários que necessitam executar aplicações podem não saber como mapear seus requisitos de sistemas para os recursos disponíveis. Esta falta de conhecimento sobre a infraestrutura dos provedores de nuvem leva a superestimar ou subestimar a capacidade de processamento necessária para as tarefas. Este cenário complexo apresenta enormes desafios para os pesquisadores em termos de sistemas e tipos de infraestruturas. Por outro lado, ele oferece várias oportunidades para o pesquisador encontrar soluções para a análise de Big Data. Este trabalho estabelece: i) uma nova plataforma chamada SMART que oferece a análise de Big Data em uma arquitetura Lambda sobre uma infraestrutura híbrida; ii) apresenta um simulador chamado BIGhybrid para ser um conjunto de ferramentas para o estudo da análise de Big Data em infraestruturas híbridas. Este permite que o usuário encontre as configurações mais próxima para as aplicações Big Data na implantação em ambientes reais. Ainda, define estratégias para a distribuição de dados neste cenário complexo para reduzir os riscos de problemas causados por erros comuns de configurações; iii) avalia o uso do módulo Despachante na plataforma SMART e iv) define estratégias para o uso de Desktop Grid e computação em nuvem em um ambiente geo-distribuído em uma infraestrutura híbrida. O objetivo é encontrar algumas das restrições a uma qualidade de serviços (QoS) aceitável. Tais restrições estão relacionadas com a relação entre máquinas voluntárias e nós estáveis, distribuição de dados, estratégias de balanceamento da carga e assim por diante. Embora isto possa ser construído em um ambiente real, uma avaliação experimental em larga escala é somente possível através de simulação devido às características de reprodutibilidade e previsibilidade de características ambientais. Os experimentos indicam um bom desempenho da plataforma SMART em baixa escala em um ambiente real.
publishDate 2017
dc.date.issued.fl_str_mv 2017
dc.date.accessioned.fl_str_mv 2021-11-11T04:28:36Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/231686
dc.identifier.nrb.pt_BR.fl_str_mv 001016880
url http://hdl.handle.net/10183/231686
identifier_str_mv 001016880
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/231686/2/001016880.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/231686/1/001016880.pdf
bitstream.checksum.fl_str_mv 694ed18586e034cfe3653ab7a9067418
dee05a6cfbc66de8c1642204cd65af94
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085567857164288