Accelerating deep learning training on high-performance computing with storage tiering

Dantas, Marco Filipe Leitão

Accelerating deep learning training on high-performance computing with storage tiering

Detalhes bibliográficos
Autor(a) principal:	Dantas, Marco Filipe Leitão
Data de Publicação:	2022
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	https://hdl.handle.net/1822/87196
Resumo:	Dissertação de mestrado integrado em Informatics Engineering

Metadados do item

id	RCAP_e8a628be30d1cc3f0cfd1caaff60c196
oai_identifier_str	oai:repositorium.sdum.uminho.pt:1822/87196
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Accelerating deep learning training on high-performance computing with storage tieringAceleração do treino de aprendizagem profunda em computação avançada com armazenamento por camadasI/O optimizationStorage tieringDeep learningOtimização de E/SArmazenamento por camadasAprendizagem profundaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado integrado em Informatics EngineeringDeep Learning (DL) has become fundamental to the advancement of several areas, such as computer vision, natural language processing and expert systems. Utilizing DL techniques demands vast amounts of data and processing power, which raises challenges to the training performance of DL models. High Performance Computing (HPC) systems are becoming increasingly popular to support DL training, by offering extensive computing capabilities, however, due to convenience and usability, many DL jobs running on these infrastructures resort to the shared Parallel File System (PFS) for storing and accessing training data. Under such scenario, where multiple Input/Output (I/O)-intensive applications operate concurrently, the PFS can quickly get saturated with simultaneous storage requests and become a critical performance bottleneck, leading to throughput variability and performance loss. To solve these issues, this dissertation presents a storage middleware agnostic to any DL solution, Monarch, that deploys storage tiering to accelerate DL models’ training performance and decrease the I/O pressure imposed over the PFS. It leverages from existing storage tiers of supercomputers (e.g., compute node’s local storage, shared PFS), as well as the I/O patterns of DL solutions to improve data placement across storage tiers. Furthermore, this middleware is non-intrusive and easily installed in HPC centers, thus enabling its wide adoption and applicability. The performance and applicability of Monarch are validated with the TensorFlow and PyTorch DL frameworks. Results show that, when the training dataset can only be partially stored at the local storage tier, Monarch decreases TensorFlow’s and PyTorch’s training time by up to 28% and 37% for I/O-intensive models, respectively. Furthermore, Monarch can reduce the number of I/O operations submitted to the PFS by up to 56%.Aprendizagem Profunda (AP) tornou-se fundamental para o avanço de diversas áreas, como visão por computadores, processamento de linguagem natural e sistemas especializados. A utilização de técnicas de AP requer vastas quantidades de dados e de poder de processamento, o que impõe desafios ao de sempenho do treino de modelos de AP. Os sistemas de Computação de Alto Desempenho (CAD) estão a tornar-se cada vez mais populares para suportar treino de AP, uma vez que oferecem extensos recursos de computação, contudo, por razões de conveniência e usabilidade, muitas tarefas de AP que correm nestas infraestruturas recorrem a Sistema de Ficheiros Paralelos (SFP) para armazenar e aceder a dados de treino. Neste cenário, onde múltiplas aplicações intensivas em Entrada/Saída (E/S) operam concor rentemente, o SFP pode ficar saturado com os pedidos de armazenamento simultâneos e tornar-se um gargalo de desempenho crítico, levando à variabilidade do débito e perda de performance. Para resolver estes problemas, esta dissertação propõe um middleware de armazenamento agnóstico a qualquer solução de AP, Monarch, que implementa armazenamento por camadas, para acelerar o desempenho do treino de AP e diminuir a pressão de E/S imposta sobre o SFP. Este sistema aproveita camadas de armazenamento existentes em supercomputadores (p.ex., armazenamento local do nó de computação, SFP partilhado), assim como o padrão de E/S das soluções de AP para melhorar a colocação dos dados ao longo das camadas de armazenamento. Para além disso, este middleware é não-intrusivo e facilmente instalado em centros de CAD, permitindo, deste modo, a sua ampla adoção e aplicabilidade. O desempenho e aplicabilidade do Monarch são validados recorrendo às soluções de AP TensorFlow e PyTorch. Os resultados mostram que, quando o conjunto de dados de treino apenas pode ser parcialmente armazenado na camada de armazenamento local, o Monarch diminui o tempo de treino com TensorFlow e PyTorch entre 28% e 37%, para modelos intensivos em E/S, respetivamente. Para além disso, o Monarch consegue reduzir o número de operações de E/S submetidas para o SFP até 56%Paulo, João Tiago MedeirosOliveira, Rui Carlos Mendes deUniversidade do MinhoDantas, Marco Filipe Leitão2022-07-272022-07-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/87196eng203381718info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-11T01:16:44Zoai:repositorium.sdum.uminho.pt:1822/87196Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:37:54.344079Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Accelerating deep learning training on high-performance computing with storage tiering Aceleração do treino de aprendizagem profunda em computação avançada com armazenamento por camadas
title	Accelerating deep learning training on high-performance computing with storage tiering
spellingShingle	Accelerating deep learning training on high-performance computing with storage tiering Dantas, Marco Filipe Leitão I/O optimization Storage tiering Deep learning Otimização de E/S Armazenamento por camadas Aprendizagem profunda Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short	Accelerating deep learning training on high-performance computing with storage tiering
title_full	Accelerating deep learning training on high-performance computing with storage tiering
title_fullStr	Accelerating deep learning training on high-performance computing with storage tiering
title_full_unstemmed	Accelerating deep learning training on high-performance computing with storage tiering
title_sort	Accelerating deep learning training on high-performance computing with storage tiering
author	Dantas, Marco Filipe Leitão
author_facet	Dantas, Marco Filipe Leitão
author_role	author
dc.contributor.none.fl_str_mv	Paulo, João Tiago Medeiros Oliveira, Rui Carlos Mendes de Universidade do Minho
dc.contributor.author.fl_str_mv	Dantas, Marco Filipe Leitão
dc.subject.por.fl_str_mv	I/O optimization Storage tiering Deep learning Otimização de E/S Armazenamento por camadas Aprendizagem profunda Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic	I/O optimization Storage tiering Deep learning Otimização de E/S Armazenamento por camadas Aprendizagem profunda Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description	Dissertação de mestrado integrado em Informatics Engineering
publishDate	2022
dc.date.none.fl_str_mv	2022-07-27 2022-07-27T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://hdl.handle.net/1822/87196
url	https://hdl.handle.net/1822/87196
dc.language.iso.fl_str_mv	eng
language	eng
dc.relation.none.fl_str_mv	203381718
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134937970900992

Accelerating deep learning training on high-performance computing with storage tiering

Registros relacionados