Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs

Detalhes bibliográficos
Autor(a) principal: Gonçalves, Márcio Macedo
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da FURG (RI FURG)
Texto Completo: http://repositorio.furg.br/handle/1/9855
Resumo: Unidades de Processamento Gráfico (GPUs) oferecem grande desempenho computacional para processamento paralelo de dados e contam com ferramentas de desenvolvimento que dão suporte à programação e utilização desses dispositivos em aplicações de propósito geral. Portanto, GPUs são utilizadas em diversos tipos de aplicações e têm despertado o interesse de programadores para utilizá-las também em aplicações que requerem alto grau de confiabilidade, tais como aplicações automotivas, médicas e espaciais. Porém, GPUs são circuitos integrados construídos com as mais modernas tecnologias de circuitos nanométricos, apresentando altíssima densidade de transistores em sua estrutura e operando a altas frequências de clock, o que torna GPUs sensíveis a falhas induzidas por partículas de radiação. Deste modo, é imprescindível que técnicas de tolerância a falhas sejam aplicadas para detecção e correção de falhas induzidas por radiação sempre que GPUs forem utilizadas em aplicações críticas. Este trabalho apresenta uma abordagem de tolerância a falhas baseada em técnicas em software de baixo nível para detectar Single Event Upsets (SEUs) nos registradores de GPUs, o que inclui os registradores do bancos de registradores de dados, de endereço e de predicado, e os registradores de pipeline. As técnicas foram aplicadas sobre quatro algoritmos de estudo de caso, os quais foram executados em uma GPU de propósito geral (GPGPU) baseada na arquitetura NVIDIA G80. Campanhas de injeção de falhas foram feitas em simulação a nível de transferência entre registradores (RTL) nos bancos de registradores e no pipeline. Como caso de uso, foram utilizados quatro algoritmos, em suas versões originais e protegidas. Os resultados mostram uma redução em erros de até 100% e custos de tempo de execução e de ocupação de memória de até 77% e 115% superiores aos valores obtidos das aplicações originais, respectivamente.
id FURG_6cce6a0ef1167fddb017dff4ec3b4d07
oai_identifier_str oai:repositorio.furg.br:1/9855
network_acronym_str FURG
network_name_str Repositório Institucional da FURG (RI FURG)
repository_id_str
spelling Gonçalves, Márcio MacedoAzambuja, José Rodrigo Furlanetto de2021-12-15T11:32:41Z2021-12-15T11:32:41Z2017GONÇALVES, Márcio Macedo. Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs. 2017. 92 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2017.http://repositorio.furg.br/handle/1/9855Unidades de Processamento Gráfico (GPUs) oferecem grande desempenho computacional para processamento paralelo de dados e contam com ferramentas de desenvolvimento que dão suporte à programação e utilização desses dispositivos em aplicações de propósito geral. Portanto, GPUs são utilizadas em diversos tipos de aplicações e têm despertado o interesse de programadores para utilizá-las também em aplicações que requerem alto grau de confiabilidade, tais como aplicações automotivas, médicas e espaciais. Porém, GPUs são circuitos integrados construídos com as mais modernas tecnologias de circuitos nanométricos, apresentando altíssima densidade de transistores em sua estrutura e operando a altas frequências de clock, o que torna GPUs sensíveis a falhas induzidas por partículas de radiação. Deste modo, é imprescindível que técnicas de tolerância a falhas sejam aplicadas para detecção e correção de falhas induzidas por radiação sempre que GPUs forem utilizadas em aplicações críticas. Este trabalho apresenta uma abordagem de tolerância a falhas baseada em técnicas em software de baixo nível para detectar Single Event Upsets (SEUs) nos registradores de GPUs, o que inclui os registradores do bancos de registradores de dados, de endereço e de predicado, e os registradores de pipeline. As técnicas foram aplicadas sobre quatro algoritmos de estudo de caso, os quais foram executados em uma GPU de propósito geral (GPGPU) baseada na arquitetura NVIDIA G80. Campanhas de injeção de falhas foram feitas em simulação a nível de transferência entre registradores (RTL) nos bancos de registradores e no pipeline. Como caso de uso, foram utilizados quatro algoritmos, em suas versões originais e protegidas. Os resultados mostram uma redução em erros de até 100% e custos de tempo de execução e de ocupação de memória de até 77% e 115% superiores aos valores obtidos das aplicações originais, respectivamente.Graphics Processing Units (GPUs) provide high computational performance for parallel data processing and count with development tools that support the programming and use of these devices in general purpose applications. Therefore, GPUs are used in many types of applications and have attracted developers to use them in applications that require high degrees of reliability, such as automotive, medical and space applications. However, GPUs are integrated circuits built with the most modern nanometric circuitry, presenting very high transistors density in their structure and operating at high clock frequencies, which makes GPUs sensitive to faults induced by radiation particles. Therefore, it is indispensable that faulttolerance techniques be applied for detecting and correcting radiation-induced faults whenever GPUs are used in critical applications. This work presents a fault tolerance approach based on low-level software techniques to detect Single Event Upsets (SEUs) in GPUs registers, which include vector, address, and predicate register files, and the pipeline registers. The techniques were applied to four case-study algorithms, which were executed on a General Purpose GPU (GPGPU) based on the NVIDIA G80 architecture. Fault injection campaigns at Register Transfer Level (RTL) simulation is performed on the register files and on the pipeline. As case-study, four algorithms were used, in their original and hardened versions. Results show reduction in errors up to 100%, and costs of overheads in execution time and program memory footprint up to 77% and 115% superior than original values, respectively.porTolerância a falhasTécnicas de softwareGPUFault toleranceSoftware techniqueTécnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FURG (RI FURG)instname:Universidade Federal do Rio Grande (FURG)instacron:FURGORIGINAL0000011918.pdf0000011918.pdfapplication/pdf7839616https://repositorio.furg.br/bitstream/1/9855/1/0000011918.pdfa5a67cef240b4de6fdedd749d73bb467MD51open accessLICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.furg.br/bitstream/1/9855/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52open access1/98552021-12-15 08:32:41.384open accessoai:repositorio.furg.br:1/9855Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.furg.br/oai/request || http://200.19.254.174/oai/requestopendoar:2021-12-15T11:32:41Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)false
dc.title.pt_BR.fl_str_mv Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
title Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
spellingShingle Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
Gonçalves, Márcio Macedo
Tolerância a falhas
Técnicas de software
GPU
Fault tolerance
Software technique
title_short Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
title_full Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
title_fullStr Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
title_full_unstemmed Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
title_sort Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs
author Gonçalves, Márcio Macedo
author_facet Gonçalves, Márcio Macedo
author_role author
dc.contributor.author.fl_str_mv Gonçalves, Márcio Macedo
dc.contributor.advisor1.fl_str_mv Azambuja, José Rodrigo Furlanetto de
contributor_str_mv Azambuja, José Rodrigo Furlanetto de
dc.subject.por.fl_str_mv Tolerância a falhas
Técnicas de software
GPU
Fault tolerance
Software technique
topic Tolerância a falhas
Técnicas de software
GPU
Fault tolerance
Software technique
description Unidades de Processamento Gráfico (GPUs) oferecem grande desempenho computacional para processamento paralelo de dados e contam com ferramentas de desenvolvimento que dão suporte à programação e utilização desses dispositivos em aplicações de propósito geral. Portanto, GPUs são utilizadas em diversos tipos de aplicações e têm despertado o interesse de programadores para utilizá-las também em aplicações que requerem alto grau de confiabilidade, tais como aplicações automotivas, médicas e espaciais. Porém, GPUs são circuitos integrados construídos com as mais modernas tecnologias de circuitos nanométricos, apresentando altíssima densidade de transistores em sua estrutura e operando a altas frequências de clock, o que torna GPUs sensíveis a falhas induzidas por partículas de radiação. Deste modo, é imprescindível que técnicas de tolerância a falhas sejam aplicadas para detecção e correção de falhas induzidas por radiação sempre que GPUs forem utilizadas em aplicações críticas. Este trabalho apresenta uma abordagem de tolerância a falhas baseada em técnicas em software de baixo nível para detectar Single Event Upsets (SEUs) nos registradores de GPUs, o que inclui os registradores do bancos de registradores de dados, de endereço e de predicado, e os registradores de pipeline. As técnicas foram aplicadas sobre quatro algoritmos de estudo de caso, os quais foram executados em uma GPU de propósito geral (GPGPU) baseada na arquitetura NVIDIA G80. Campanhas de injeção de falhas foram feitas em simulação a nível de transferência entre registradores (RTL) nos bancos de registradores e no pipeline. Como caso de uso, foram utilizados quatro algoritmos, em suas versões originais e protegidas. Os resultados mostram uma redução em erros de até 100% e custos de tempo de execução e de ocupação de memória de até 77% e 115% superiores aos valores obtidos das aplicações originais, respectivamente.
publishDate 2017
dc.date.issued.fl_str_mv 2017
dc.date.accessioned.fl_str_mv 2021-12-15T11:32:41Z
dc.date.available.fl_str_mv 2021-12-15T11:32:41Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GONÇALVES, Márcio Macedo. Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs. 2017. 92 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2017.
dc.identifier.uri.fl_str_mv http://repositorio.furg.br/handle/1/9855
identifier_str_mv GONÇALVES, Márcio Macedo. Técnicas de tolerância a falhas baseadas em software de baixo nível para detectar SEUs em Bancos de Registradores de GPUs. 2017. 92 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2017.
url http://repositorio.furg.br/handle/1/9855
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da FURG (RI FURG)
instname:Universidade Federal do Rio Grande (FURG)
instacron:FURG
instname_str Universidade Federal do Rio Grande (FURG)
instacron_str FURG
institution FURG
reponame_str Repositório Institucional da FURG (RI FURG)
collection Repositório Institucional da FURG (RI FURG)
bitstream.url.fl_str_mv https://repositorio.furg.br/bitstream/1/9855/1/0000011918.pdf
https://repositorio.furg.br/bitstream/1/9855/2/license.txt
bitstream.checksum.fl_str_mv a5a67cef240b4de6fdedd749d73bb467
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)
repository.mail.fl_str_mv
_version_ 1798313643643764736