Parallel gpu algorithms for compressed implicit octrees

Detalhes bibliográficos
Autor(a) principal: Zola, Wagner Machado Nunan 1961-
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: http://hdl.handle.net/1884/45749
Resumo: Orientador : Prof. Dr. Luis Carlos Erpen de Bona
id UFPR_c76e8945ab3f1fb1bf7d36b9815c554d
oai_identifier_str oai:acervodigital.ufpr.br:1884/45749
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Zola, Wagner Machado Nunan 1961-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaBona, Luis Carlos Erpen de2018-01-26T18:43:09Z2018-01-26T18:43:09Z2015http://hdl.handle.net/1884/45749Orientador : Prof. Dr. Luis Carlos Erpen de BonaTese (doutorado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa: Curitiba, 10/09/2015Inclui referências : f. 97-101Resumo: O algoritmo Barnes-Hut é um método aproximado amplamente usado para na simulação gravitacional de N-Corpos, que envolve a construção e eaminliamento de árvores esparsas a cada passo de simulação e assim reduzindo a complexidade computacional e possibilitando a solução de problemas práticos de grande escala, A natureza irregular desse código de eaminliamento em árvore apresenta desafios interessantes na sua computação em sistemas paralelos. Desafios adicionais ocorrem nesse tipo de padrão de computação paralela quando se deseja utilizar de maneira eficaz a capacidade computacional de arquiteturas de GPUs (processadores gráficos multieore de propósito geral), Oetrees são estruturas de dados que representam de maneira eficiente as informações de dados espaciais em várias áreas tais como computação científica, computação gráfica, processamento de imagens, dentre outras. Nosso enfoque nesse trabalho é de tratar explicitamente os padrões dinâmicos irregulares de acesso a dados em memória com o remapeamento de dados e transformações de lavouts, dependendo das estruturas acessadas. Também é feito o controle explicito, por programa, de fluxos divergentes de execuções em threads. Apresentamos uma nova estrutura de dados compacta para lavouts de oetrees esparsas, bem como algoritmos paralelos para GPUs, tanto para transformações de lavouts como para eaminliamento paralelo usando a técnica de simulação de "warps"-largos (SWW, Simulated Wide-Warps), Os benefícios de nossas técnicas ocorrem devido à transposição do algoritmo de eamin- nhamento na árvore para execução em padrões mais regulares, possibilitando uma melhor adaptação ao modelo GPU paralelo, A estrutura de dados permite explorar localidades de acessos à memória durante os percursos, ao mesmo tempo conservando espaço em memória eaehe ou em memória compartilhada (scratchpad). Desta forma a memória rápida intra-eore pode ser dedicada a acelerar eaminliamentos. Controle divergência de fluxos também é delimitado de maneira algorítmica, impondo uma execução uniforme na maior parte dos segmentos de execução. Nossos experimentos mostram melhoria de desempenho significativa em relação às soluções em GPU mais conhecidas para este algoritmo. Desenvolvemos um novo algoritmo paralelo eficiente que gera diretamente de uma só vez as oetrees implícitas comprimidas, como um método massivamente paralelo. Este método traz uma nova visão para tratar de forma eficiente com a natureza irregular também presente na construção de oetrees esparsas, O algoritmo proposto de geração massivamente paralela de oetrees esparsas tem aplicação imediata em nossa implementação GPU paralela da simulação Barnes-Hut e em outros métodos de N-eorpos, As técnicas e algoritmos propostos nesta tese também poderão ser aplicadas em outros contextos. Palavras-chave: Algoritmo Massivamente Paralelo para Geração de Octrees; Octrees esparsas; Octree implícita; Probleamas de N-Corpos; Barnes-Hut; GPGPIJ; WarpsLargos Simulados em Software; CIJDA; Algoritmo Paralelo irregular; Algoritmos paralelos; Manycore Computing; Acelerador de Computação;Abstract: The Barnes-Hut algorithm is a widely used approximation method for the N-Body simulation problem, which involves the construction and traversal of sparse trees at each simulation step and thus reducing the complexity to solve large/praetieal problems. The irregular nature of this tree walking code presents interesting challenges for its computation on parallel systems. Additional problems arise in effectively exploiting the processing capacity of GPU architectures. Octrees are data structures that efficiently represent spatial data in many fields such as scientific computing, computer graphics and image processing, among others. In this work we explicitly deal with dynamic irregular patterns in data accesses with data remapping and data transformation, depending on the data structures being accessed, and by controlling the execution flow divergence of threads. We present a new compact data-strueture for sparse octree layouts, and also GPU parallel algorithms for tree transformation and parallel walking using software Simulated Wide-Warps (SWW), Benefits of our techniques are in transposing the tree algorithm to execute regular patterns to match the GPU parallel model. The data structure allows exploring localities during traversals, at the same time conserving space in caches or scratchpad memory. This way fast intra-eore memory can be dedicated to speed up traversals. Control flow divergence is also algorithmically constrained, enforcing a mostly uniform execution of threads. Our experiments show significant performance improvement over the best known GPU solutions to this algorithm. We have developed a novel efficient parallel algorithm that directly generates entire compressed implicit octrees at once, as a massively parallel method. This method brings new insight on how to efficiently deal with the irregular nature of algorithms for constructing sparse octrees. The proposed algorithm has immediate application to our GPU parallel Barnes-Hut implementation and other N-Body methods. We envision that the techniques and algorithms proposed in this dissertation can also be applied in other contexts. Keywords: Massively Parallel Octree Generation Algorithm; Sparse Octrees; Implicit Octree; N-Body; Barnes-Hut; GPGPU; Software Simulated Wide-Warp; CUDA; Irregular Parallel Algorithm; Parallel algorithms; Many core Computing; Accelerator Computing;95 f. : il., algumas color., tabs., grafs.application/pdfDisponível em formato digitalCiência da computaçãoAlgoritmos paralelosAlgoritmos de computadorTesesParallel gpu algorithms for compressed implicit octreesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - T - WAGNER MACHADO NUNAN ZOLA.pdfapplication/pdf4588930https://acervodigital.ufpr.br/bitstream/1884/45749/1/R%20-%20T%20-%20WAGNER%20MACHADO%20NUNAN%20ZOLA.pdfd19aace3caedcc5c855cfaad7f2a93e5MD51open access1884/457492018-01-26 16:43:09.978open accessoai:acervodigital.ufpr.br:1884/45749Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082018-01-26T18:43:09Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Parallel gpu algorithms for compressed implicit octrees
title Parallel gpu algorithms for compressed implicit octrees
spellingShingle Parallel gpu algorithms for compressed implicit octrees
Zola, Wagner Machado Nunan 1961-
Ciência da computação
Algoritmos paralelos
Algoritmos de computador
Teses
title_short Parallel gpu algorithms for compressed implicit octrees
title_full Parallel gpu algorithms for compressed implicit octrees
title_fullStr Parallel gpu algorithms for compressed implicit octrees
title_full_unstemmed Parallel gpu algorithms for compressed implicit octrees
title_sort Parallel gpu algorithms for compressed implicit octrees
author Zola, Wagner Machado Nunan 1961-
author_facet Zola, Wagner Machado Nunan 1961-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Zola, Wagner Machado Nunan 1961-
dc.contributor.advisor1.fl_str_mv Bona, Luis Carlos Erpen de
contributor_str_mv Bona, Luis Carlos Erpen de
dc.subject.por.fl_str_mv Ciência da computação
Algoritmos paralelos
Algoritmos de computador
Teses
topic Ciência da computação
Algoritmos paralelos
Algoritmos de computador
Teses
description Orientador : Prof. Dr. Luis Carlos Erpen de Bona
publishDate 2015
dc.date.issued.fl_str_mv 2015
dc.date.accessioned.fl_str_mv 2018-01-26T18:43:09Z
dc.date.available.fl_str_mv 2018-01-26T18:43:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1884/45749
url http://hdl.handle.net/1884/45749
dc.language.iso.fl_str_mv por
language por
dc.relation.pt_BR.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 95 f. : il., algumas color., tabs., grafs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/45749/1/R%20-%20T%20-%20WAGNER%20MACHADO%20NUNAN%20ZOLA.pdf
bitstream.checksum.fl_str_mv d19aace3caedcc5c855cfaad7f2a93e5
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860439970152448