Optimizing machine learning models training in the cloud

Künas, Cristiano Alex

Optimizing machine learning models training in the cloud

Detalhes bibliográficos
Autor(a) principal:	Künas, Cristiano Alex
Data de Publicação:	2023
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/261762
Resumo:	Impulsionado pelo desenvolvimento de novas tecnologias, como assistentes pessoais ou carros autônomos, o aprendizado de máquina tornou-se rapidamente um dos campos mais ativos da ciência da computação. De Big Data a aplicativos de Aprendizado Profundo, as novas cargas de trabalho são notoriamente exigentes em termos de recursos intensificando a demanda por computação de alto desempenho (HPC). Portanto, é de suma importância otimizar a execução destas cargas de trabalho em processadores modernos. Várias aborda gens foram propostas para acelerar o aprendizado de máquina em GPUs e computadores massivamente paralelos, bem como ASICs dedicados. Por outro lado, há um crescimento no processamento de programas de computador na nuvem. É uma forma de reduzir o custo de aquisição de computadores para executar programas localmente. Nesta dissertação de mestrado, nós adaptamos e migramos três aplicações DL para explo rar recursos de Cloud Computing. Essa abordagem ajuda a aliviar a contenção de recursos locais de alta demanda de HPC, permitindo que eles se concentrem na execução de aplicativos. Otimizamos a execução destas aplicações utilizando Tensor Processing Units (TPUs). O objetivo é avaliar o desempenho, a acurácia e custo do uso de tais dispositivos para treinamento de ML/DL. Em nossos experimentos, mostramos que o tamanho da aplicação pode influenciar no desempenho e no custo de execução. Pequenas aplicações, que acabam não utilizando todo o hardware podem ter pouca ou nenhuma eficiência de custo, ou seja, o custo de execução é maior e não é compensado pelo desempenho obtido. Nestes casos, a escolha de executar na nuvem deve ser analisada com cautela, observando se há beneficios adicionais. Em aplicações maiores, que usam de forma mais efetiva o recurso computacional, o desempenho alcançado é melhorado. Além disso, apresenta eficiência de custo de cerca de 50% na execução da mesma quantidade de trabalho comparado ao cluster local. O custo por treinamento pode ser ainda mais reduzido através do uso de TPUs preemptivas, custando cerca de 70% menos comparado com TPUs sob demanda.

Metadados do item

id	URGS_06076b44f12fc786df348de25e1694f3
oai_identifier_str	oai:www.lume.ufrgs.br:10183/261762
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Künas, Cristiano AlexNavaux, Philippe Olivier Alexandre2023-07-05T03:46:43Z2023http://hdl.handle.net/10183/261762001172445Impulsionado pelo desenvolvimento de novas tecnologias, como assistentes pessoais ou carros autônomos, o aprendizado de máquina tornou-se rapidamente um dos campos mais ativos da ciência da computação. De Big Data a aplicativos de Aprendizado Profundo, as novas cargas de trabalho são notoriamente exigentes em termos de recursos intensificando a demanda por computação de alto desempenho (HPC). Portanto, é de suma importância otimizar a execução destas cargas de trabalho em processadores modernos. Várias aborda gens foram propostas para acelerar o aprendizado de máquina em GPUs e computadores massivamente paralelos, bem como ASICs dedicados. Por outro lado, há um crescimento no processamento de programas de computador na nuvem. É uma forma de reduzir o custo de aquisição de computadores para executar programas localmente. Nesta dissertação de mestrado, nós adaptamos e migramos três aplicações DL para explo rar recursos de Cloud Computing. Essa abordagem ajuda a aliviar a contenção de recursos locais de alta demanda de HPC, permitindo que eles se concentrem na execução de aplicativos. Otimizamos a execução destas aplicações utilizando Tensor Processing Units (TPUs). O objetivo é avaliar o desempenho, a acurácia e custo do uso de tais dispositivos para treinamento de ML/DL. Em nossos experimentos, mostramos que o tamanho da aplicação pode influenciar no desempenho e no custo de execução. Pequenas aplicações, que acabam não utilizando todo o hardware podem ter pouca ou nenhuma eficiência de custo, ou seja, o custo de execução é maior e não é compensado pelo desempenho obtido. Nestes casos, a escolha de executar na nuvem deve ser analisada com cautela, observando se há beneficios adicionais. Em aplicações maiores, que usam de forma mais efetiva o recurso computacional, o desempenho alcançado é melhorado. Além disso, apresenta eficiência de custo de cerca de 50% na execução da mesma quantidade de trabalho comparado ao cluster local. O custo por treinamento pode ser ainda mais reduzido através do uso de TPUs preemptivas, custando cerca de 70% menos comparado com TPUs sob demanda.Driven by the development of new technologies such as personal assistants or self-driving cars, machine learning has quickly become one of the most active fields in computer science. From Big Data to Deep Learning applications, new workloads are resource demanding, driving high-performance computing (HPC) demand. Therefore, it is es sential to optimize the execution of these workloads on modern processors. Several ap proaches have been proposed to accelerate machine learning on GPUs, massively parallel computers, and dedicated ASICs. On the other hand, there is a growth in the processing of computer programs in the cloud. It is a way to reduce the cost of acquiring computers to run programs locally. In this master’s thesis, we adapted and migrated three DL applications to exploit Cloud Computing resources. This approach helps alleviate contention for high-demand local HPC resources, allowing them to focus on running applications. We optimize the exe cution of these applications using Tensor Processing Units (TPUs). The objective is to evaluate the performance, accuracy, and cost of using such devices for ML/DL training. In our experiments, we showed that the size of the application could influence perfor mance and execution costs. Small applications, which end up not using all the hardware, may have little or no cost efficiency, i.e., the execution cost is higher and is not offset by the performance obtained. In these cases, the choice to run in the cloud must be analyzed with caution, noting if there are additional benefits. The performance achieved is im proved in larger applications, which use computational resources more effectively. Also, it is about 50% cost efficient in running the same amount of work compared to the local cluster. The cost per training can be further reduced through the use of preemptive TPUs, costing about 70% less compared to on-demand TPUs.application/pdfengComputação em nuvemAprendizado de máquinaComputação : Alto desempenhoTPUPerformance evaluationOptimizing machine learning models training in the cloudOtimizando o treinamento de modelos de aprendizado de máquina na nuvem info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001172445.pdf.txt001172445.pdf.txtExtracted Texttext/plain133933http://www.lume.ufrgs.br/bitstream/10183/261762/2/001172445.pdf.txt33e2a6996ebb141c86b1f18294d10451MD52ORIGINAL001172445.pdfTexto completo (inglês)application/pdf1472170http://www.lume.ufrgs.br/bitstream/10183/261762/1/001172445.pdf92272046d172b42994742deb785f9be3MD5110183/2617622023-07-06 03:51:30.848142oai:www.lume.ufrgs.br:10183/261762Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532023-07-06T06:51:30Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Optimizing machine learning models training in the cloud
dc.title.alternative.pt.fl_str_mv	Otimizando o treinamento de modelos de aprendizado de máquina na nuvem
title	Optimizing machine learning models training in the cloud
spellingShingle	Optimizing machine learning models training in the cloud Künas, Cristiano Alex Computação em nuvem Aprendizado de máquina Computação : Alto desempenho TPU Performance evaluation
title_short	Optimizing machine learning models training in the cloud
title_full	Optimizing machine learning models training in the cloud
title_fullStr	Optimizing machine learning models training in the cloud
title_full_unstemmed	Optimizing machine learning models training in the cloud
title_sort	Optimizing machine learning models training in the cloud
author	Künas, Cristiano Alex
author_facet	Künas, Cristiano Alex
author_role	author
dc.contributor.author.fl_str_mv	Künas, Cristiano Alex
dc.contributor.advisor1.fl_str_mv	Navaux, Philippe Olivier Alexandre
contributor_str_mv	Navaux, Philippe Olivier Alexandre
dc.subject.por.fl_str_mv	Computação em nuvem Aprendizado de máquina Computação : Alto desempenho
topic	Computação em nuvem Aprendizado de máquina Computação : Alto desempenho TPU Performance evaluation
dc.subject.eng.fl_str_mv	TPU Performance evaluation
description	Impulsionado pelo desenvolvimento de novas tecnologias, como assistentes pessoais ou carros autônomos, o aprendizado de máquina tornou-se rapidamente um dos campos mais ativos da ciência da computação. De Big Data a aplicativos de Aprendizado Profundo, as novas cargas de trabalho são notoriamente exigentes em termos de recursos intensificando a demanda por computação de alto desempenho (HPC). Portanto, é de suma importância otimizar a execução destas cargas de trabalho em processadores modernos. Várias aborda gens foram propostas para acelerar o aprendizado de máquina em GPUs e computadores massivamente paralelos, bem como ASICs dedicados. Por outro lado, há um crescimento no processamento de programas de computador na nuvem. É uma forma de reduzir o custo de aquisição de computadores para executar programas localmente. Nesta dissertação de mestrado, nós adaptamos e migramos três aplicações DL para explo rar recursos de Cloud Computing. Essa abordagem ajuda a aliviar a contenção de recursos locais de alta demanda de HPC, permitindo que eles se concentrem na execução de aplicativos. Otimizamos a execução destas aplicações utilizando Tensor Processing Units (TPUs). O objetivo é avaliar o desempenho, a acurácia e custo do uso de tais dispositivos para treinamento de ML/DL. Em nossos experimentos, mostramos que o tamanho da aplicação pode influenciar no desempenho e no custo de execução. Pequenas aplicações, que acabam não utilizando todo o hardware podem ter pouca ou nenhuma eficiência de custo, ou seja, o custo de execução é maior e não é compensado pelo desempenho obtido. Nestes casos, a escolha de executar na nuvem deve ser analisada com cautela, observando se há beneficios adicionais. Em aplicações maiores, que usam de forma mais efetiva o recurso computacional, o desempenho alcançado é melhorado. Além disso, apresenta eficiência de custo de cerca de 50% na execução da mesma quantidade de trabalho comparado ao cluster local. O custo por treinamento pode ser ainda mais reduzido através do uso de TPUs preemptivas, custando cerca de 70% menos comparado com TPUs sob demanda.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-07-05T03:46:43Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/261762
dc.identifier.nrb.pt_BR.fl_str_mv	001172445
url	http://hdl.handle.net/10183/261762
identifier_str_mv	001172445
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/261762/2/001172445.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/261762/1/001172445.pdf
bitstream.checksum.fl_str_mv	33e2a6996ebb141c86b1f18294d10451 92272046d172b42994742deb785f9be3
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1800309218676310016

Optimizing machine learning models training in the cloud

Registros relacionados