Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.

SILVA, Jonhnny Weslley Sousa.

Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.

Detalhes bibliográficos
Autor(a) principal:	SILVA, Jonhnny Weslley Sousa.
Data de Publicação:	2010
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741
Resumo:	Aplicações que processam grandes quantidades de dados estão se tornando cada vez mais presentes nos mais diversos setores, que envolvem desde a academia até sites de compras e redes sociais. Contudo, dispor de uma infraestrutura capaz de realizar este tipo de processamento hoje custa caro, já que as soluções existentes assumem a existência de um conjunto de máquinas dedicadas. Enquanto isso, as estações de trabalho não utilizam grande parte do espaço em disco que possuem. Visando agregar o espaço livre destas estações de trabalho conectadas por uma rede local (LAN), foi construído o Beehive File System (BeeFS), um sistema de arquivos distribuído desenvolvido para atender a requisitos de escalabilidade e manutenabilidade não oferecidos por sistemas de arquivos distribuídos amplamente utilizados na prática, como NFS e Coda. Considerando a intríseca distribuição dos dados no BeeFS, fica evidente a possibilidade de realizar processamento de grandes quantidades de dados de forma distribuída. Porém, uma vez que o BeeFS é formado por estações de trabalho, existe a preocupação quanto à intrusividade, ou seja, a experiência do usuário de uma máquina que faz parte do sistema pode ser prejudicada devido a execução não-solicitada de aplicações que processam grandes volumes de dados. Visando mitigar este problema, esta dissertação apresenta heurísticas para a alocação de arquivos no BeeFS. Estas heurísticas tentam aumentar as chances de que os arquivos estarão disponíveis para processamento em estações de trabalho ociosas. Para isto, as heurísticas consideram dados históricos sobre a utilização do sistema para decidir onde armazenar as réplicas de um arquivo que será utilizado para processamento. Isso, juntamente com um simples escalonador de aplicações que evita executar aplicações em máquinas que não estão ociosas, reduz drasticamente a inconveniência que estas aplicações podem levar a outros usuários. Os resultados mostram que as heurísticas que consideram a média histórica de disponibilidade das estações de trabalho e, ao mesmo tempo, realizam o balanceamento da quantidade de espaço de armazenando entre as máquinas possuem desempenho melhor do que as heurísticas que não consideram a disponibilidade das máquinas.

Metadados do item

id	UFCG_2141e94725568572cf4aea36618fcab8
oai_identifier_str	oai:localhost:riufcg/4741
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str	4851
spelling	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.Parallel processing of large amounts of data on a POSIX distributed file systemSistemas de Processamento DistribuídoSistema de Arquivo DistribuídoProcessamento Paralelo de DadosRedes de ComputadoresDistributed Processing SystemsFile System DistributedParallel Data ProcessingComputer NetworkCiência da ComputaçãoAplicações que processam grandes quantidades de dados estão se tornando cada vez mais presentes nos mais diversos setores, que envolvem desde a academia até sites de compras e redes sociais. Contudo, dispor de uma infraestrutura capaz de realizar este tipo de processamento hoje custa caro, já que as soluções existentes assumem a existência de um conjunto de máquinas dedicadas. Enquanto isso, as estações de trabalho não utilizam grande parte do espaço em disco que possuem. Visando agregar o espaço livre destas estações de trabalho conectadas por uma rede local (LAN), foi construído o Beehive File System (BeeFS), um sistema de arquivos distribuído desenvolvido para atender a requisitos de escalabilidade e manutenabilidade não oferecidos por sistemas de arquivos distribuídos amplamente utilizados na prática, como NFS e Coda. Considerando a intríseca distribuição dos dados no BeeFS, fica evidente a possibilidade de realizar processamento de grandes quantidades de dados de forma distribuída. Porém, uma vez que o BeeFS é formado por estações de trabalho, existe a preocupação quanto à intrusividade, ou seja, a experiência do usuário de uma máquina que faz parte do sistema pode ser prejudicada devido a execução não-solicitada de aplicações que processam grandes volumes de dados. Visando mitigar este problema, esta dissertação apresenta heurísticas para a alocação de arquivos no BeeFS. Estas heurísticas tentam aumentar as chances de que os arquivos estarão disponíveis para processamento em estações de trabalho ociosas. Para isto, as heurísticas consideram dados históricos sobre a utilização do sistema para decidir onde armazenar as réplicas de um arquivo que será utilizado para processamento. Isso, juntamente com um simples escalonador de aplicações que evita executar aplicações em máquinas que não estão ociosas, reduz drasticamente a inconveniência que estas aplicações podem levar a outros usuários. Os resultados mostram que as heurísticas que consideram a média histórica de disponibilidade das estações de trabalho e, ao mesmo tempo, realizam o balanceamento da quantidade de espaço de armazenando entre as máquinas possuem desempenho melhor do que as heurísticas que não consideram a disponibilidade das máquinas.Data-intensive applications are becoming increasingly more present in various sectors, since academia to shopping websites and social networks. However, the most of existing solutions assume the utilization of clusters to perform these applications, and clusters are an expen sive resource. Meanwhile, the workstations do not use much of the local storage space they have. In order to use the free space of these workstations, we built the Beehive File System (BeeFS), a distributed file system designed to meet the requirements of scalability and main tainability not offered by distributed file systems widely used in practice, such as NFS and Coda. Considering the natural distribution of data in BeeFS, it is evident that BeeFS can be used to process vaste amounts of data in a distributed way. However, since BeeFS consists of shared workstations, the execution of unsolicited data-intensive applications may impact the performance that users logged in these workstations experience. To mitigate this problem, this work presents data placement heuristics for file allocation in BeeFS. These heuristics try to increase the probability that files will be available for processing on idle workstations. For this, the heuristics take into account historical data about the use of system to decide where to store the file replicas that will be used for processing. These heuristics, coupled with a simple application scheduler that prevents run applications on non-idle machines, it drastically reduces inconvenience that these applications can lead to other users. The results show that the heuristics that consider the historical availability of workstations and, at the same time, realize balancing the amount of storage space between the machines have better performance than the heuristics do not consider the availability of machines.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBRASILEIRO, Francisco Vilar.BRASILEIRO, F.http://lattes.cnpq.br/5957855817378897GUERRERO, Dalton Dario Serey.GUERRERO, D. D. S.http://lattes.cnpq.br/2050632960242405FERRAZ, Carlos Andre Guimarães.FERRAZ, C. A. G.http://lattes.cnpq.br/7716805104151473SILVA, Jonhnny Weslley Sousa.2010-05-212019-07-05T17:11:12Z2019-07-052019-07-05T17:11:12Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741SILVA, Jonhnny Weslley Sousa. Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX. 2010. 61 f. Dissertação (Mestrado em Ciência da Computação) Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2010. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2022-03-18T12:43:58Zoai:localhost:riufcg/4741Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512022-03-18T12:43:58Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX. Parallel processing of large amounts of data on a POSIX distributed file system
title	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.
spellingShingle	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX. SILVA, Jonhnny Weslley Sousa. Sistemas de Processamento Distribuído Sistema de Arquivo Distribuído Processamento Paralelo de Dados Redes de Computadores Distributed Processing Systems File System Distributed Parallel Data Processing Computer Network Ciência da Computação
title_short	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.
title_full	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.
title_fullStr	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.
title_full_unstemmed	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.
title_sort	Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.
author	SILVA, Jonhnny Weslley Sousa.
author_facet	SILVA, Jonhnny Weslley Sousa.
author_role	author
dc.contributor.none.fl_str_mv	BRASILEIRO, Francisco Vilar. BRASILEIRO, F. http://lattes.cnpq.br/5957855817378897 GUERRERO, Dalton Dario Serey. GUERRERO, D. D. S. http://lattes.cnpq.br/2050632960242405 FERRAZ, Carlos Andre Guimarães. FERRAZ, C. A. G. http://lattes.cnpq.br/7716805104151473
dc.contributor.author.fl_str_mv	SILVA, Jonhnny Weslley Sousa.
dc.subject.por.fl_str_mv	Sistemas de Processamento Distribuído Sistema de Arquivo Distribuído Processamento Paralelo de Dados Redes de Computadores Distributed Processing Systems File System Distributed Parallel Data Processing Computer Network Ciência da Computação
topic	Sistemas de Processamento Distribuído Sistema de Arquivo Distribuído Processamento Paralelo de Dados Redes de Computadores Distributed Processing Systems File System Distributed Parallel Data Processing Computer Network Ciência da Computação
description	Aplicações que processam grandes quantidades de dados estão se tornando cada vez mais presentes nos mais diversos setores, que envolvem desde a academia até sites de compras e redes sociais. Contudo, dispor de uma infraestrutura capaz de realizar este tipo de processamento hoje custa caro, já que as soluções existentes assumem a existência de um conjunto de máquinas dedicadas. Enquanto isso, as estações de trabalho não utilizam grande parte do espaço em disco que possuem. Visando agregar o espaço livre destas estações de trabalho conectadas por uma rede local (LAN), foi construído o Beehive File System (BeeFS), um sistema de arquivos distribuído desenvolvido para atender a requisitos de escalabilidade e manutenabilidade não oferecidos por sistemas de arquivos distribuídos amplamente utilizados na prática, como NFS e Coda. Considerando a intríseca distribuição dos dados no BeeFS, fica evidente a possibilidade de realizar processamento de grandes quantidades de dados de forma distribuída. Porém, uma vez que o BeeFS é formado por estações de trabalho, existe a preocupação quanto à intrusividade, ou seja, a experiência do usuário de uma máquina que faz parte do sistema pode ser prejudicada devido a execução não-solicitada de aplicações que processam grandes volumes de dados. Visando mitigar este problema, esta dissertação apresenta heurísticas para a alocação de arquivos no BeeFS. Estas heurísticas tentam aumentar as chances de que os arquivos estarão disponíveis para processamento em estações de trabalho ociosas. Para isto, as heurísticas consideram dados históricos sobre a utilização do sistema para decidir onde armazenar as réplicas de um arquivo que será utilizado para processamento. Isso, juntamente com um simples escalonador de aplicações que evita executar aplicações em máquinas que não estão ociosas, reduz drasticamente a inconveniência que estas aplicações podem levar a outros usuários. Os resultados mostram que as heurísticas que consideram a média histórica de disponibilidade das estações de trabalho e, ao mesmo tempo, realizam o balanceamento da quantidade de espaço de armazenando entre as máquinas possuem desempenho melhor do que as heurísticas que não consideram a disponibilidade das máquinas.
publishDate	2010
dc.date.none.fl_str_mv	2010-05-21 2019-07-05T17:11:12Z 2019-07-05 2019-07-05T17:11:12Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741 SILVA, Jonhnny Weslley Sousa. Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX. 2010. 61 f. Dissertação (Mestrado em Ciência da Computação) Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2010. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741
url	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741
identifier_str_mv	SILVA, Jonhnny Weslley Sousa. Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX. 2010. 61 f. Dissertação (Mestrado em Ciência da Computação) Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Campina Grande, Paraíba, Brasil, 2010. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/4741
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1823892097737949184

Processamento paralelo de grandes quantidades de dados sobre um sistema de arquivos distribuído POSIX.

Registros relacionados