Accelerating deep learning training on high-performance computing with storage tiering
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/87196 |
Resumo: | Dissertação de mestrado integrado em Informatics Engineering |
id |
RCAP_e8a628be30d1cc3f0cfd1caaff60c196 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/87196 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Accelerating deep learning training on high-performance computing with storage tieringAceleração do treino de aprendizagem profunda em computação avançada com armazenamento por camadasI/O optimizationStorage tieringDeep learningOtimização de E/SArmazenamento por camadasAprendizagem profundaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado integrado em Informatics EngineeringDeep Learning (DL) has become fundamental to the advancement of several areas, such as computer vision, natural language processing and expert systems. Utilizing DL techniques demands vast amounts of data and processing power, which raises challenges to the training performance of DL models. High Performance Computing (HPC) systems are becoming increasingly popular to support DL training, by offering extensive computing capabilities, however, due to convenience and usability, many DL jobs running on these infrastructures resort to the shared Parallel File System (PFS) for storing and accessing training data. Under such scenario, where multiple Input/Output (I/O)-intensive applications operate concurrently, the PFS can quickly get saturated with simultaneous storage requests and become a critical performance bottleneck, leading to throughput variability and performance loss. To solve these issues, this dissertation presents a storage middleware agnostic to any DL solution, Monarch, that deploys storage tiering to accelerate DL models’ training performance and decrease the I/O pressure imposed over the PFS. It leverages from existing storage tiers of supercomputers (e.g., compute node’s local storage, shared PFS), as well as the I/O patterns of DL solutions to improve data placement across storage tiers. Furthermore, this middleware is non-intrusive and easily installed in HPC centers, thus enabling its wide adoption and applicability. The performance and applicability of Monarch are validated with the TensorFlow and PyTorch DL frameworks. Results show that, when the training dataset can only be partially stored at the local storage tier, Monarch decreases TensorFlow’s and PyTorch’s training time by up to 28% and 37% for I/O-intensive models, respectively. Furthermore, Monarch can reduce the number of I/O operations submitted to the PFS by up to 56%.Aprendizagem Profunda (AP) tornou-se fundamental para o avanço de diversas áreas, como visão por computadores, processamento de linguagem natural e sistemas especializados. A utilização de técnicas de AP requer vastas quantidades de dados e de poder de processamento, o que impõe desafios ao de sempenho do treino de modelos de AP. Os sistemas de Computação de Alto Desempenho (CAD) estão a tornar-se cada vez mais populares para suportar treino de AP, uma vez que oferecem extensos recursos de computação, contudo, por razões de conveniência e usabilidade, muitas tarefas de AP que correm nestas infraestruturas recorrem a Sistema de Ficheiros Paralelos (SFP) para armazenar e aceder a dados de treino. Neste cenário, onde múltiplas aplicações intensivas em Entrada/Saída (E/S) operam concor rentemente, o SFP pode ficar saturado com os pedidos de armazenamento simultâneos e tornar-se um gargalo de desempenho crítico, levando à variabilidade do débito e perda de performance. Para resolver estes problemas, esta dissertação propõe um middleware de armazenamento agnóstico a qualquer solução de AP, Monarch, que implementa armazenamento por camadas, para acelerar o desempenho do treino de AP e diminuir a pressão de E/S imposta sobre o SFP. Este sistema aproveita camadas de armazenamento existentes em supercomputadores (p.ex., armazenamento local do nó de computação, SFP partilhado), assim como o padrão de E/S das soluções de AP para melhorar a colocação dos dados ao longo das camadas de armazenamento. Para além disso, este middleware é não-intrusivo e facilmente instalado em centros de CAD, permitindo, deste modo, a sua ampla adoção e aplicabilidade. O desempenho e aplicabilidade do Monarch são validados recorrendo às soluções de AP TensorFlow e PyTorch. Os resultados mostram que, quando o conjunto de dados de treino apenas pode ser parcialmente armazenado na camada de armazenamento local, o Monarch diminui o tempo de treino com TensorFlow e PyTorch entre 28% e 37%, para modelos intensivos em E/S, respetivamente. Para além disso, o Monarch consegue reduzir o número de operações de E/S submetidas para o SFP até 56%Paulo, João Tiago MedeirosOliveira, Rui Carlos Mendes deUniversidade do MinhoDantas, Marco Filipe Leitão2022-07-272022-07-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/87196eng203381718info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-11T01:16:44Zoai:repositorium.sdum.uminho.pt:1822/87196Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:37:54.344079Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Accelerating deep learning training on high-performance computing with storage tiering Aceleração do treino de aprendizagem profunda em computação avançada com armazenamento por camadas |
title |
Accelerating deep learning training on high-performance computing with storage tiering |
spellingShingle |
Accelerating deep learning training on high-performance computing with storage tiering Dantas, Marco Filipe Leitão I/O optimization Storage tiering Deep learning Otimização de E/S Armazenamento por camadas Aprendizagem profunda Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Accelerating deep learning training on high-performance computing with storage tiering |
title_full |
Accelerating deep learning training on high-performance computing with storage tiering |
title_fullStr |
Accelerating deep learning training on high-performance computing with storage tiering |
title_full_unstemmed |
Accelerating deep learning training on high-performance computing with storage tiering |
title_sort |
Accelerating deep learning training on high-performance computing with storage tiering |
author |
Dantas, Marco Filipe Leitão |
author_facet |
Dantas, Marco Filipe Leitão |
author_role |
author |
dc.contributor.none.fl_str_mv |
Paulo, João Tiago Medeiros Oliveira, Rui Carlos Mendes de Universidade do Minho |
dc.contributor.author.fl_str_mv |
Dantas, Marco Filipe Leitão |
dc.subject.por.fl_str_mv |
I/O optimization Storage tiering Deep learning Otimização de E/S Armazenamento por camadas Aprendizagem profunda Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
I/O optimization Storage tiering Deep learning Otimização de E/S Armazenamento por camadas Aprendizagem profunda Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado integrado em Informatics Engineering |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-07-27 2022-07-27T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/87196 |
url |
https://hdl.handle.net/1822/87196 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203381718 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134937970900992 |