Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks

Pilla, Laercio Lima

Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks

Detalhes bibliográficos
Autor(a) principal:	Pilla, Laercio Lima
Data de Publicação:	2009
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/18536
Resumo:	Processadores gráficos vêm sendo utilizados como aceleradores paralelos para computações de propósito geral (GPGPU), não detidos mais apenas em aplicações gráficas. Isto acontece devido ao custo reduzido e grande potencial de desempenho paralelo dos processadores gráficos, alcançando Teraflops. CUDA (Compute Unified Device Architecture) é um exemplo de arquitetura com essas características. Diversas aplicações já foram portadas para CUDA nas áreas de dinâmica de fluídos, reconhecimento de fala, alinhamento de sequências, entre outras. Entretanto, não há uma definição clara de quais tipos de aplicações podem se aproveitar dos potenciais ganhos de desempenho que as GPGPUs trazem, visto que a arquitetura do hardware é do tipo SIMD (Simple Instruction, Multiple Data) e que existem restrições nos acessos à memória. Visando estudar esta questão, este trabalho apresenta uma análise de desempenho da arquitetura de placa gráfica CUDA guiada por modelos paralelos e benchmarks. Para isso, os benchmarks EP e FT dos NAS Parallel Benchmarks foram portados e otimizados para CUDA, mantendo o uso de operações de ponto flutuante de precisão dupla. Estes dois benchmarks fazem parte das categorias MapReduce e Spectral Methods, respectivamente, dentro da classificação Dwarf Mine. Uma análise de desempenho foi realizada, fazendo uma comparação entre os resultados obtidos pelas novas versões implementadas e as versões originais do código compiladas para execução de forma sequencial e paralela com OpenMP. Os resultados obtidos mostraram speedups de até 21 vezes para o benchmark EP e quase 3 vezes para o benchmark FT, quando comparadas as versões para CUDA com as versões com OpenMP. Estes resultados indicam uma compatibilidade entre a arquitetura CUDA e aplicações pertencentes às categorias MapReduce e Spectral Methods.

Metadados do item

id	UFRGS-2_c12d4060823fc79f9ef916f6e7eea5a1
oai_identifier_str	oai:www.lume.ufrgs.br:10183/18536
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Pilla, Laercio LimaNavaux, Philippe Olivier Alexandre2010-02-19T04:14:43Z2009http://hdl.handle.net/10183/18536000730588Processadores gráficos vêm sendo utilizados como aceleradores paralelos para computações de propósito geral (GPGPU), não detidos mais apenas em aplicações gráficas. Isto acontece devido ao custo reduzido e grande potencial de desempenho paralelo dos processadores gráficos, alcançando Teraflops. CUDA (Compute Unified Device Architecture) é um exemplo de arquitetura com essas características. Diversas aplicações já foram portadas para CUDA nas áreas de dinâmica de fluídos, reconhecimento de fala, alinhamento de sequências, entre outras. Entretanto, não há uma definição clara de quais tipos de aplicações podem se aproveitar dos potenciais ganhos de desempenho que as GPGPUs trazem, visto que a arquitetura do hardware é do tipo SIMD (Simple Instruction, Multiple Data) e que existem restrições nos acessos à memória. Visando estudar esta questão, este trabalho apresenta uma análise de desempenho da arquitetura de placa gráfica CUDA guiada por modelos paralelos e benchmarks. Para isso, os benchmarks EP e FT dos NAS Parallel Benchmarks foram portados e otimizados para CUDA, mantendo o uso de operações de ponto flutuante de precisão dupla. Estes dois benchmarks fazem parte das categorias MapReduce e Spectral Methods, respectivamente, dentro da classificação Dwarf Mine. Uma análise de desempenho foi realizada, fazendo uma comparação entre os resultados obtidos pelas novas versões implementadas e as versões originais do código compiladas para execução de forma sequencial e paralela com OpenMP. Os resultados obtidos mostraram speedups de até 21 vezes para o benchmark EP e quase 3 vezes para o benchmark FT, quando comparadas as versões para CUDA com as versões com OpenMP. Estes resultados indicam uma compatibilidade entre a arquitetura CUDA e aplicações pertencentes às categorias MapReduce e Spectral Methods.Graphic processors are being used not only for graphic applications but as parallel accelerators for general-purpose computations (GPGPU). This happens due to their reduced costs and performance potential, reaching Teraflops. CUDA (Compute Unified Device Architecture) is an example of architecture with this characteristics. Several applications in the areas of fluid dynamics, speech recognition, sequence alignment and others have already being ported to CUDA. However, there is not a clear definition of which kinds of applications can take profit of the potential gains of performance that the GPGPUs have, since they have a SIMD (Single Instruction, Multiple Data) architecture and that are restrictions to the memory access. Aiming to study that question, this work presents a performance analysis of the CUDA GPU architecure guided by parallel models and benchmarks. For this, the EP and FT benchmarks from the NAS Parallel Benchmarks were ported and optimized to CUDA, keeping the use of double precision floating-point operations. These two benchmarks are included in the MapReduce and Spectral Methods classes, respectively, from the Dwarf Mine classification. A performance analysis was made comparing the results obtained by the new implemented versions of the benchmarks and their original versions, compiled to execute in a sequential manner and in a parallel manner with OpenMP. The obtained results showed speedups up to 21 times for the EP benchmark and almost 3 times for the FT one, when comparing the CUDA versions to the versions with OpenMP. These results indicate a compatibility between the CUDA architecture and the applications belonging to the MapReduce and Spectral Methods classes.application/pdfporProcessamento paraleloMpiGPGPUParallel computingPerformance analysisAnálise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarksinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2009Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL000730588.pdf000730588.pdfTexto completoapplication/pdf1507631http://www.lume.ufrgs.br/bitstream/10183/18536/1/000730588.pdf38ab1e58563e450ccb8791abc1cdd343MD51TEXT000730588.pdf.txt000730588.pdf.txtExtracted Texttext/plain100100http://www.lume.ufrgs.br/bitstream/10183/18536/2/000730588.pdf.txtfe90fa9d1e318bf2efbf32a4f8330a63MD52THUMBNAIL000730588.pdf.jpg000730588.pdf.jpgGenerated Thumbnailimage/jpeg1041http://www.lume.ufrgs.br/bitstream/10183/18536/3/000730588.pdf.jpg8e7264ac3090c7025fc411e1a90bcf76MD5310183/185362018-10-17 09:40:57.591oai:www.lume.ufrgs.br:10183/18536Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-17T12:40:57Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
title	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
spellingShingle	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks Pilla, Laercio Lima Processamento paralelo Mpi GPGPU Parallel computing Performance analysis
title_short	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
title_full	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
title_fullStr	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
title_full_unstemmed	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
title_sort	Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks
author	Pilla, Laercio Lima
author_facet	Pilla, Laercio Lima
author_role	author
dc.contributor.author.fl_str_mv	Pilla, Laercio Lima
dc.contributor.advisor1.fl_str_mv	Navaux, Philippe Olivier Alexandre
contributor_str_mv	Navaux, Philippe Olivier Alexandre
dc.subject.por.fl_str_mv	Processamento paralelo Mpi
topic	Processamento paralelo Mpi GPGPU Parallel computing Performance analysis
dc.subject.eng.fl_str_mv	GPGPU Parallel computing Performance analysis
description	Processadores gráficos vêm sendo utilizados como aceleradores paralelos para computações de propósito geral (GPGPU), não detidos mais apenas em aplicações gráficas. Isto acontece devido ao custo reduzido e grande potencial de desempenho paralelo dos processadores gráficos, alcançando Teraflops. CUDA (Compute Unified Device Architecture) é um exemplo de arquitetura com essas características. Diversas aplicações já foram portadas para CUDA nas áreas de dinâmica de fluídos, reconhecimento de fala, alinhamento de sequências, entre outras. Entretanto, não há uma definição clara de quais tipos de aplicações podem se aproveitar dos potenciais ganhos de desempenho que as GPGPUs trazem, visto que a arquitetura do hardware é do tipo SIMD (Simple Instruction, Multiple Data) e que existem restrições nos acessos à memória. Visando estudar esta questão, este trabalho apresenta uma análise de desempenho da arquitetura de placa gráfica CUDA guiada por modelos paralelos e benchmarks. Para isso, os benchmarks EP e FT dos NAS Parallel Benchmarks foram portados e otimizados para CUDA, mantendo o uso de operações de ponto flutuante de precisão dupla. Estes dois benchmarks fazem parte das categorias MapReduce e Spectral Methods, respectivamente, dentro da classificação Dwarf Mine. Uma análise de desempenho foi realizada, fazendo uma comparação entre os resultados obtidos pelas novas versões implementadas e as versões originais do código compiladas para execução de forma sequencial e paralela com OpenMP. Os resultados obtidos mostraram speedups de até 21 vezes para o benchmark EP e quase 3 vezes para o benchmark FT, quando comparadas as versões para CUDA com as versões com OpenMP. Estes resultados indicam uma compatibilidade entre a arquitetura CUDA e aplicações pertencentes às categorias MapReduce e Spectral Methods.
publishDate	2009
dc.date.issued.fl_str_mv	2009
dc.date.accessioned.fl_str_mv	2010-02-19T04:14:43Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/18536
dc.identifier.nrb.pt_BR.fl_str_mv	000730588
url	http://hdl.handle.net/10183/18536
identifier_str_mv	000730588
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/18536/1/000730588.pdf http://www.lume.ufrgs.br/bitstream/10183/18536/2/000730588.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/18536/3/000730588.pdf.jpg
bitstream.checksum.fl_str_mv	38ab1e58563e450ccb8791abc1cdd343 fe90fa9d1e318bf2efbf32a4f8330a63 8e7264ac3090c7025fc411e1a90bcf76
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1792789861675040768

Análise de desempenho da arquitetura CUDA utilizando os NAS parallel benchmarks

Registros relacionados