Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos

Schroeder, Rebeca

Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos

Detalhes bibliográficos
Autor(a) principal:	Schroeder, Rebeca
Data de Publicação:	2014
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	https://hdl.handle.net/1884/36448
Resumo:	Orientadora : Profª. Drª. Carmem Satie Hara

Metadados do item

id	UFPR_de71e38d4c554caa14825396f7d94669
oai_identifier_str	oai:acervodigital.ufpr.br:1884/36448
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Hara, Carmem Satie, 1964-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaSchroeder, Rebeca2024-02-01T19:42:14Z2024-02-01T19:42:14Z2014https://hdl.handle.net/1884/36448Orientadora : Profª. Drª. Carmem Satie HaraTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 21/07/2014Inclui referênciasResumo: Os desafios atuais do gerenciamento de dados vêm sendo frequentemente associados ao termo Big Data. Este termo refere-se a um número crescente de aplicações caracterizadas pela produção de dados com alta variedade, grande volume, e que exigem velocidade em seu processamento. Ao mesmo tempo em que estes requisitos são identificados, o amadurecimento tecnológico associado à computação em nuvem alavancou uma mudança nos aspectos operacionais e econômicos da computação, sobretudo através de infraestruturas para o desenvolvimento de serviços escaláveis. A iniciativa do gerenciamento de dados sobre estas plataformas mostra-se adequada para tratar os desafios do Big Data através de um serviço de banco de dados em nuvem (Database as a Service). Uma forma de escalar aplicações que processam uma quantidade massiva de informações e através da fragmentação de grandes conjuntos de dados alocados sobre servidores de um sistema em nuvem. O principal problema associado a esta abordagem esta em particionar os dados de forma que consultas possam ser preferencialmente executadas de forma local para evitar o custo da troca de mensagens entre servidores. Em conjunto com este problema, a variedade de dados e o volume crescente associado as bases de dados em nuvem desafiam as soluções tradicionais para o particionamento de dados. Esta tese propõe um novo método para o particionamento de dados que tem como objetivo promover a escalabilidade de repositórios em nuvem. Para minimizar o custo da execução de consultas distribuídas, heurísticas sobre informações de carga de trabalho são utilizadas para identificar afinidades entre dados e estabelecer o agrupamento de itens fortemente relacionados em um mesmo servidor. O problema do particionamento e tratado pelos processos de fragmentação e alocação. O processo de fragmentação define unidades de armazenamento que contem itens de dados fortemente relacionados. Na fase seguinte, o processo de alocação utiliza o mesmo critério de agrupamento para co-alocar fragmentos nos servidores do repositório. A replicação é utilizada para maximizar a quantidade de dados relacionados em um mesmo servidor, porém, a quantidade de replicas gerada é controlada por todo o processo. A metodologia proposta esta focada em modelos em grafo estabelecidos pelos formatos RDF e XML, e que permitem representar uma variedade de outros modelos. A principal contribuição desta tese esta em definir o particionamento sobre uma visão sumarizada de um banco de dados similar a um esquema de banco de dados. Além de evitar a exaustão do processo de particionamento sobre grandes bases, esta solução permite reaplicar a estratégia obtida sobre novas porções de dados que estejam de acordo com o esquema e a carga de trabalho assumidos pelo processo. Esta metodologia se mostra adequada para acomodar o volume crescente de dados associado a repositórios em nuvem. Resultados experimentais mostram que a solução proposta é efetiva para melhorar o desempenho de consultas, se comparada a abordagens alternativas que tratam o mesmo problema.Abstract: The new challenges in data management have been referred to as Big Data. This term is related to an increasing number of applications characterized by generating data with a variety of types, huge volume, and by requiring high velocity processing. At the same time, cloud computing technologies are transforming the operational and economic aspects of computing, mainly due to the introduction of infrastructures to deploy scalable services. Cloud platforms have been properly applied to support data management and address Big Data challenges through a database service in the cloud (DaaS - Database as a Service). One approach to scale applications that process massive amounts of information is to fragment huge datasets and allocate them across distributed data servers. In this context, the main problem is to apply a partitioning schema that maximizes local query processing and avoids the cost of message passing among servers. Besides this problem, data variety and the ever-increasing volume of cloud datastores pose new challenges to traditional partitioning approaches. This thesis provides a new partitioning approach to scale query processing on cloud datastores. In order to minimize the cost of distributed queries, we apply heuristics based on workload data to identify the affinity among data items and cluster the most correlated data in the same server. We tackle the data partitioning problem as a twofold problem. First, data fragmentation defines storage units with strongly correlated items. Further, data allocation aims to collocate fragments that share correlated items. Data replication is applied to cluster related data as much as possible. However, data redundancy is controlled throughout the process. We focus on graph models given by the RDF and XML formats in order to support data variety. Our main contribution is a partitioning strategy defined over a summarized view of the dataset given as a database schema. The result of the process consists of a set of partitioning templates, which can be used to partition an existing dataset, as well as maintain the partitioning process when new data that conform to the schema and the workload are inserted to the dataset. This approach is suitable to deal with the increasing volume of data related to cloud datastores. Experimental results show that the proposed solution is effective for improving the query performance in cloud datastores, compared to related approaches.138f. : il., color, tabs., grafs.application/pdfDisponível em formato digitalCiência da computaçãoBanco de dados distribuídoComputação em nuvemGrafo (Sistema de computador)Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - REBECA SCHROEDER FREITAS.pdfapplication/pdf3132182https://acervodigital.ufpr.br/bitstream/1884/36448/1/R%20-%20T%20-%20REBECA%20SCHROEDER%20FREITAS.pdfc87e44f7ac2b93a8b0ef6fdb9ae11706MD51open accessTEXTR - T - REBECA SCHROEDER FREITAS.pdf.txtExtracted Texttext/plain281029https://acervodigital.ufpr.br/bitstream/1884/36448/2/R%20-%20T%20-%20REBECA%20SCHROEDER%20FREITAS.pdf.txt706affe4abbc98ef7d6489b85b3ff3fdMD52open accessTHUMBNAILR - T - REBECA SCHROEDER FREITAS.pdf.jpgGenerated Thumbnailimage/jpeg1218https://acervodigital.ufpr.br/bitstream/1884/36448/3/R%20-%20T%20-%20REBECA%20SCHROEDER%20FREITAS.pdf.jpgd91848e6d04dbd02ad8bacc2145951b2MD53open access1884/364482024-02-01 16:42:14.72open accessoai:acervodigital.ufpr.br:1884/36448Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082024-02-01T19:42:14Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
title	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
spellingShingle	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos Schroeder, Rebeca Ciência da computação Banco de dados distribuído Computação em nuvem Grafo (Sistema de computador)
title_short	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
title_full	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
title_fullStr	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
title_full_unstemmed	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
title_sort	Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos
author	Schroeder, Rebeca
author_facet	Schroeder, Rebeca
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Hara, Carmem Satie, 1964- Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv	Schroeder, Rebeca
dc.subject.por.fl_str_mv	Ciência da computação Banco de dados distribuído Computação em nuvem Grafo (Sistema de computador)
topic	Ciência da computação Banco de dados distribuído Computação em nuvem Grafo (Sistema de computador)
description	Orientadora : Profª. Drª. Carmem Satie Hara
publishDate	2014
dc.date.issued.fl_str_mv	2014
dc.date.accessioned.fl_str_mv	2024-02-01T19:42:14Z
dc.date.available.fl_str_mv	2024-02-01T19:42:14Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1884/36448
url	https://hdl.handle.net/1884/36448
dc.language.iso.fl_str_mv	por
language	por
dc.relation.pt_BR.fl_str_mv	Disponível em formato digital
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	138f. : il., color, tabs., grafs. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/36448/1/R%20-%20T%20-%20REBECA%20SCHROEDER%20FREITAS.pdf https://acervodigital.ufpr.br/bitstream/1884/36448/2/R%20-%20T%20-%20REBECA%20SCHROEDER%20FREITAS.pdf.txt https://acervodigital.ufpr.br/bitstream/1884/36448/3/R%20-%20T%20-%20REBECA%20SCHROEDER%20FREITAS.pdf.jpg
bitstream.checksum.fl_str_mv	c87e44f7ac2b93a8b0ef6fdb9ae11706 706affe4abbc98ef7d6489b85b3ff3fd d91848e6d04dbd02ad8bacc2145951b2
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1813898857894903808

Uma abordagem para o particionamento de dados na nuvem baseada em relações de afinidade em grafos

Registros relacionados