Parallel gpu algorithms for compressed implicit octrees

Zola, Wagner Machado Nunan 1961-

Parallel gpu algorithms for compressed implicit octrees

Detalhes bibliográficos
Autor(a) principal:	Zola, Wagner Machado Nunan 1961-
Data de Publicação:	2015
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFPR
Texto Completo:	http://hdl.handle.net/1884/45749
Resumo:	Orientador : Prof. Dr. Luis Carlos Erpen de Bona

Metadados do item

id	UFPR_c76e8945ab3f1fb1bf7d36b9815c554d
oai_identifier_str	oai:acervodigital.ufpr.br:1884/45749
network_acronym_str	UFPR
network_name_str	Repositório Institucional da UFPR
repository_id_str	308
spelling	Zola, Wagner Machado Nunan 1961-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaBona, Luis Carlos Erpen de2018-01-26T18:43:09Z2018-01-26T18:43:09Z2015http://hdl.handle.net/1884/45749Orientador : Prof. Dr. Luis Carlos Erpen de BonaTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 10/09/2015Inclui referências : f. 97-101Resumo: O algoritmo Barnes-Hut é um método aproximado amplamente usado para na simulação gravitacional de N-Corpos, que envolve a construção e eaminliamento de árvores esparsas a cada passo de simulação e assim reduzindo a complexidade computacional e possibilitando a solução de problemas práticos de grande escala, A natureza irregular desse código de eaminliamento em árvore apresenta desafios interessantes na sua computação em sistemas paralelos. Desafios adicionais ocorrem nesse tipo de padrão de computação paralela quando se deseja utilizar de maneira eficaz a capacidade computacional de arquiteturas de GPUs (processadores gráficos multieore de propósito geral), Oetrees são estruturas de dados que representam de maneira eficiente as informações de dados espaciais em várias áreas tais como computação científica, computação gráfica, processamento de imagens, dentre outras. Nosso enfoque nesse trabalho é de tratar explicitamente os padrões dinâmicos irregulares de acesso a dados em memória com o remapeamento de dados e transformações de lavouts, dependendo das estruturas acessadas. Também é feito o controle explicito, por programa, de fluxos divergentes de execuções em threads. Apresentamos uma nova estrutura de dados compacta para lavouts de oetrees esparsas, bem como algoritmos paralelos para GPUs, tanto para transformações de lavouts como para eaminliamento paralelo usando a técnica de simulação de "warps"-largos (SWW, Simulated Wide-Warps), Os benefícios de nossas técnicas ocorrem devido à transposição do algoritmo de eamin- nhamento na árvore para execução em padrões mais regulares, possibilitando uma melhor adaptação ao modelo GPU paralelo, A estrutura de dados permite explorar localidades de acessos à memória durante os percursos, ao mesmo tempo conservando espaço em memória eaehe ou em memória compartilhada (scratchpad). Desta forma a memória rápida intra-eore pode ser dedicada a acelerar eaminliamentos. Controle divergência de fluxos também é delimitado de maneira algorítmica, impondo uma execução uniforme na maior parte dos segmentos de execução. Nossos experimentos mostram melhoria de desempenho significativa em relação às soluções em GPU mais conhecidas para este algoritmo. Desenvolvemos um novo algoritmo paralelo eficiente que gera diretamente de uma só vez as oetrees implícitas comprimidas, como um método massivamente paralelo. Este método traz uma nova visão para tratar de forma eficiente com a natureza irregular também presente na construção de oetrees esparsas, O algoritmo proposto de geração massivamente paralela de oetrees esparsas tem aplicação imediata em nossa implementação GPU paralela da simulação Barnes-Hut e em outros métodos de N-eorpos, As técnicas e algoritmos propostos nesta tese também poderão ser aplicadas em outros contextos. Palavras-chave: Algoritmo Massivamente Paralelo para Geração de Octrees; Octrees esparsas; Octree implícita; Probleamas de N-Corpos; Barnes-Hut; GPGPIJ; WarpsLargos Simulados em Software; CIJDA; Algoritmo Paralelo irregular; Algoritmos paralelos; Manycore Computing; Acelerador de Computação;Abstract: The Barnes-Hut algorithm is a widely used approximation method for the N-Body simulation problem, which involves the construction and traversal of sparse trees at each simulation step and thus reducing the complexity to solve large/praetieal problems. The irregular nature of this tree walking code presents interesting challenges for its computation on parallel systems. Additional problems arise in effectively exploiting the processing capacity of GPU architectures. Octrees are data structures that efficiently represent spatial data in many fields such as scientific computing, computer graphics and image processing, among others. In this work we explicitly deal with dynamic irregular patterns in data accesses with data remapping and data transformation, depending on the data structures being accessed, and by controlling the execution flow divergence of threads. We present a new compact data-strueture for sparse octree layouts, and also GPU parallel algorithms for tree transformation and parallel walking using software Simulated Wide-Warps (SWW), Benefits of our techniques are in transposing the tree algorithm to execute regular patterns to match the GPU parallel model. The data structure allows exploring localities during traversals, at the same time conserving space in caches or scratchpad memory. This way fast intra-eore memory can be dedicated to speed up traversals. Control flow divergence is also algorithmically constrained, enforcing a mostly uniform execution of threads. Our experiments show significant performance improvement over the best known GPU solutions to this algorithm. We have developed a novel efficient parallel algorithm that directly generates entire compressed implicit octrees at once, as a massively parallel method. This method brings new insight on how to efficiently deal with the irregular nature of algorithms for constructing sparse octrees. The proposed algorithm has immediate application to our GPU parallel Barnes-Hut implementation and other N-Body methods. We envision that the techniques and algorithms proposed in this dissertation can also be applied in other contexts. Keywords: Massively Parallel Octree Generation Algorithm; Sparse Octrees; Implicit Octree; N-Body; Barnes-Hut; GPGPU; Software Simulated Wide-Warp; CUDA; Irregular Parallel Algorithm; Parallel algorithms; Many core Computing; Accelerator Computing;95 f. : il., algumas color., tabs., grafs.application/pdfDisponível em formato digitalCiência da computaçãoAlgoritmos paralelosAlgoritmos de computadorTesesParallel gpu algorithms for compressed implicit octreesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - WAGNER MACHADO NUNAN ZOLA.pdfapplication/pdf4588930https://acervodigital.ufpr.br/bitstream/1884/45749/1/R%20-%20T%20-%20WAGNER%20MACHADO%20NUNAN%20ZOLA.pdfd19aace3caedcc5c855cfaad7f2a93e5MD51open access1884/457492018-01-26 16:43:09.978open accessoai:acervodigital.ufpr.br:1884/45749Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082018-01-26T18:43:09Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv	Parallel gpu algorithms for compressed implicit octrees
title	Parallel gpu algorithms for compressed implicit octrees
spellingShingle	Parallel gpu algorithms for compressed implicit octrees Zola, Wagner Machado Nunan 1961- Ciência da computação Algoritmos paralelos Algoritmos de computador Teses
title_short	Parallel gpu algorithms for compressed implicit octrees
title_full	Parallel gpu algorithms for compressed implicit octrees
title_fullStr	Parallel gpu algorithms for compressed implicit octrees
title_full_unstemmed	Parallel gpu algorithms for compressed implicit octrees
title_sort	Parallel gpu algorithms for compressed implicit octrees
author	Zola, Wagner Machado Nunan 1961-
author_facet	Zola, Wagner Machado Nunan 1961-
author_role	author
dc.contributor.other.pt_BR.fl_str_mv	Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv	Zola, Wagner Machado Nunan 1961-
dc.contributor.advisor1.fl_str_mv	Bona, Luis Carlos Erpen de
contributor_str_mv	Bona, Luis Carlos Erpen de
dc.subject.por.fl_str_mv	Ciência da computação Algoritmos paralelos Algoritmos de computador Teses
topic	Ciência da computação Algoritmos paralelos Algoritmos de computador Teses
description	Orientador : Prof. Dr. Luis Carlos Erpen de Bona
publishDate	2015
dc.date.issued.fl_str_mv	2015
dc.date.accessioned.fl_str_mv	2018-01-26T18:43:09Z
dc.date.available.fl_str_mv	2018-01-26T18:43:09Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1884/45749
url	http://hdl.handle.net/1884/45749
dc.language.iso.fl_str_mv	por
language	por
dc.relation.pt_BR.fl_str_mv	Disponível em formato digital
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	95 f. : il., algumas color., tabs., grafs. application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR
instname_str	Universidade Federal do Paraná (UFPR)
instacron_str	UFPR
institution	UFPR
reponame_str	Repositório Institucional da UFPR
collection	Repositório Institucional da UFPR
bitstream.url.fl_str_mv	https://acervodigital.ufpr.br/bitstream/1884/45749/1/R%20-%20T%20-%20WAGNER%20MACHADO%20NUNAN%20ZOLA.pdf
bitstream.checksum.fl_str_mv	d19aace3caedcc5c855cfaad7f2a93e5
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_	1813898743296032768

Parallel gpu algorithms for compressed implicit octrees

Registros relacionados