Accelerating deep learning training on high-performance computing with storage tiering

Detalhes bibliográficos
Autor(a) principal: Dantas, Marco Filipe Leitão
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/87196
Resumo: Dissertação de mestrado integrado em Informatics Engineering
id RCAP_e8a628be30d1cc3f0cfd1caaff60c196
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/87196
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Accelerating deep learning training on high-performance computing with storage tieringAceleração do treino de aprendizagem profunda em computação avançada com armazenamento por camadasI/O optimizationStorage tieringDeep learningOtimização de E/SArmazenamento por camadasAprendizagem profundaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado integrado em Informatics EngineeringDeep Learning (DL) has become fundamental to the advancement of several areas, such as computer vision, natural language processing and expert systems. Utilizing DL techniques demands vast amounts of data and processing power, which raises challenges to the training performance of DL models. High Performance Computing (HPC) systems are becoming increasingly popular to support DL training, by offering extensive computing capabilities, however, due to convenience and usability, many DL jobs running on these infrastructures resort to the shared Parallel File System (PFS) for storing and accessing training data. Under such scenario, where multiple Input/Output (I/O)-intensive applications operate concurrently, the PFS can quickly get saturated with simultaneous storage requests and become a critical performance bottleneck, leading to throughput variability and performance loss. To solve these issues, this dissertation presents a storage middleware agnostic to any DL solution, Monarch, that deploys storage tiering to accelerate DL models’ training performance and decrease the I/O pressure imposed over the PFS. It leverages from existing storage tiers of supercomputers (e.g., compute node’s local storage, shared PFS), as well as the I/O patterns of DL solutions to improve data placement across storage tiers. Furthermore, this middleware is non-intrusive and easily installed in HPC centers, thus enabling its wide adoption and applicability. The performance and applicability of Monarch are validated with the TensorFlow and PyTorch DL frameworks. Results show that, when the training dataset can only be partially stored at the local storage tier, Monarch decreases TensorFlow’s and PyTorch’s training time by up to 28% and 37% for I/O-intensive models, respectively. Furthermore, Monarch can reduce the number of I/O operations submitted to the PFS by up to 56%.Aprendizagem Profunda (AP) tornou-se fundamental para o avanço de diversas áreas, como visão por computadores, processamento de linguagem natural e sistemas especializados. A utilização de técnicas de AP requer vastas quantidades de dados e de poder de processamento, o que impõe desafios ao de sempenho do treino de modelos de AP. Os sistemas de Computação de Alto Desempenho (CAD) estão a tornar-se cada vez mais populares para suportar treino de AP, uma vez que oferecem extensos recursos de computação, contudo, por razões de conveniência e usabilidade, muitas tarefas de AP que correm nestas infraestruturas recorrem a Sistema de Ficheiros Paralelos (SFP) para armazenar e aceder a dados de treino. Neste cenário, onde múltiplas aplicações intensivas em Entrada/Saída (E/S) operam concor rentemente, o SFP pode ficar saturado com os pedidos de armazenamento simultâneos e tornar-se um gargalo de desempenho crítico, levando à variabilidade do débito e perda de performance. Para resolver estes problemas, esta dissertação propõe um middleware de armazenamento agnóstico a qualquer solução de AP, Monarch, que implementa armazenamento por camadas, para acelerar o desempenho do treino de AP e diminuir a pressão de E/S imposta sobre o SFP. Este sistema aproveita camadas de armazenamento existentes em supercomputadores (p.ex., armazenamento local do nó de computação, SFP partilhado), assim como o padrão de E/S das soluções de AP para melhorar a colocação dos dados ao longo das camadas de armazenamento. Para além disso, este middleware é não-intrusivo e facilmente instalado em centros de CAD, permitindo, deste modo, a sua ampla adoção e aplicabilidade. O desempenho e aplicabilidade do Monarch são validados recorrendo às soluções de AP TensorFlow e PyTorch. Os resultados mostram que, quando o conjunto de dados de treino apenas pode ser parcialmente armazenado na camada de armazenamento local, o Monarch diminui o tempo de treino com TensorFlow e PyTorch entre 28% e 37%, para modelos intensivos em E/S, respetivamente. Para além disso, o Monarch consegue reduzir o número de operações de E/S submetidas para o SFP até 56%Paulo, João Tiago MedeirosOliveira, Rui Carlos Mendes deUniversidade do MinhoDantas, Marco Filipe Leitão2022-07-272022-07-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/87196eng203381718info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-11T01:16:44Zoai:repositorium.sdum.uminho.pt:1822/87196Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:37:54.344079Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Accelerating deep learning training on high-performance computing with storage tiering
Aceleração do treino de aprendizagem profunda em computação avançada com armazenamento por camadas
title Accelerating deep learning training on high-performance computing with storage tiering
spellingShingle Accelerating deep learning training on high-performance computing with storage tiering
Dantas, Marco Filipe Leitão
I/O optimization
Storage tiering
Deep learning
Otimização de E/S
Armazenamento por camadas
Aprendizagem profunda
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Accelerating deep learning training on high-performance computing with storage tiering
title_full Accelerating deep learning training on high-performance computing with storage tiering
title_fullStr Accelerating deep learning training on high-performance computing with storage tiering
title_full_unstemmed Accelerating deep learning training on high-performance computing with storage tiering
title_sort Accelerating deep learning training on high-performance computing with storage tiering
author Dantas, Marco Filipe Leitão
author_facet Dantas, Marco Filipe Leitão
author_role author
dc.contributor.none.fl_str_mv Paulo, João Tiago Medeiros
Oliveira, Rui Carlos Mendes de
Universidade do Minho
dc.contributor.author.fl_str_mv Dantas, Marco Filipe Leitão
dc.subject.por.fl_str_mv I/O optimization
Storage tiering
Deep learning
Otimização de E/S
Armazenamento por camadas
Aprendizagem profunda
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic I/O optimization
Storage tiering
Deep learning
Otimização de E/S
Armazenamento por camadas
Aprendizagem profunda
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado integrado em Informatics Engineering
publishDate 2022
dc.date.none.fl_str_mv 2022-07-27
2022-07-27T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/87196
url https://hdl.handle.net/1822/87196
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203381718
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134937970900992