Optimizing machine learning models training in the cloud

Detalhes bibliográficos
Autor(a) principal: Künas, Cristiano Alex
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/261762
Resumo: Impulsionado pelo desenvolvimento de novas tecnologias, como assistentes pessoais ou carros autônomos, o aprendizado de máquina tornou-se rapidamente um dos campos mais ativos da ciência da computação. De Big Data a aplicativos de Aprendizado Profundo, as novas cargas de trabalho são notoriamente exigentes em termos de recursos intensificando a demanda por computação de alto desempenho (HPC). Portanto, é de suma importância otimizar a execução destas cargas de trabalho em processadores modernos. Várias aborda gens foram propostas para acelerar o aprendizado de máquina em GPUs e computadores massivamente paralelos, bem como ASICs dedicados. Por outro lado, há um crescimento no processamento de programas de computador na nuvem. É uma forma de reduzir o custo de aquisição de computadores para executar programas localmente. Nesta dissertação de mestrado, nós adaptamos e migramos três aplicações DL para explo rar recursos de Cloud Computing. Essa abordagem ajuda a aliviar a contenção de recursos locais de alta demanda de HPC, permitindo que eles se concentrem na execução de aplicativos. Otimizamos a execução destas aplicações utilizando Tensor Processing Units (TPUs). O objetivo é avaliar o desempenho, a acurácia e custo do uso de tais dispositivos para treinamento de ML/DL. Em nossos experimentos, mostramos que o tamanho da aplicação pode influenciar no desempenho e no custo de execução. Pequenas aplicações, que acabam não utilizando todo o hardware podem ter pouca ou nenhuma eficiência de custo, ou seja, o custo de execução é maior e não é compensado pelo desempenho obtido. Nestes casos, a escolha de executar na nuvem deve ser analisada com cautela, observando se há beneficios adicionais. Em aplicações maiores, que usam de forma mais efetiva o recurso computacional, o desempenho alcançado é melhorado. Além disso, apresenta eficiência de custo de cerca de 50% na execução da mesma quantidade de trabalho comparado ao cluster local. O custo por treinamento pode ser ainda mais reduzido através do uso de TPUs preemptivas, custando cerca de 70% menos comparado com TPUs sob demanda.
id URGS_06076b44f12fc786df348de25e1694f3
oai_identifier_str oai:www.lume.ufrgs.br:10183/261762
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Künas, Cristiano AlexNavaux, Philippe Olivier Alexandre2023-07-05T03:46:43Z2023http://hdl.handle.net/10183/261762001172445Impulsionado pelo desenvolvimento de novas tecnologias, como assistentes pessoais ou carros autônomos, o aprendizado de máquina tornou-se rapidamente um dos campos mais ativos da ciência da computação. De Big Data a aplicativos de Aprendizado Profundo, as novas cargas de trabalho são notoriamente exigentes em termos de recursos intensificando a demanda por computação de alto desempenho (HPC). Portanto, é de suma importância otimizar a execução destas cargas de trabalho em processadores modernos. Várias aborda gens foram propostas para acelerar o aprendizado de máquina em GPUs e computadores massivamente paralelos, bem como ASICs dedicados. Por outro lado, há um crescimento no processamento de programas de computador na nuvem. É uma forma de reduzir o custo de aquisição de computadores para executar programas localmente. Nesta dissertação de mestrado, nós adaptamos e migramos três aplicações DL para explo rar recursos de Cloud Computing. Essa abordagem ajuda a aliviar a contenção de recursos locais de alta demanda de HPC, permitindo que eles se concentrem na execução de aplicativos. Otimizamos a execução destas aplicações utilizando Tensor Processing Units (TPUs). O objetivo é avaliar o desempenho, a acurácia e custo do uso de tais dispositivos para treinamento de ML/DL. Em nossos experimentos, mostramos que o tamanho da aplicação pode influenciar no desempenho e no custo de execução. Pequenas aplicações, que acabam não utilizando todo o hardware podem ter pouca ou nenhuma eficiência de custo, ou seja, o custo de execução é maior e não é compensado pelo desempenho obtido. Nestes casos, a escolha de executar na nuvem deve ser analisada com cautela, observando se há beneficios adicionais. Em aplicações maiores, que usam de forma mais efetiva o recurso computacional, o desempenho alcançado é melhorado. Além disso, apresenta eficiência de custo de cerca de 50% na execução da mesma quantidade de trabalho comparado ao cluster local. O custo por treinamento pode ser ainda mais reduzido através do uso de TPUs preemptivas, custando cerca de 70% menos comparado com TPUs sob demanda.Driven by the development of new technologies such as personal assistants or self-driving cars, machine learning has quickly become one of the most active fields in computer science. From Big Data to Deep Learning applications, new workloads are resource demanding, driving high-performance computing (HPC) demand. Therefore, it is es sential to optimize the execution of these workloads on modern processors. Several ap proaches have been proposed to accelerate machine learning on GPUs, massively parallel computers, and dedicated ASICs. On the other hand, there is a growth in the processing of computer programs in the cloud. It is a way to reduce the cost of acquiring computers to run programs locally. In this master’s thesis, we adapted and migrated three DL applications to exploit Cloud Computing resources. This approach helps alleviate contention for high-demand local HPC resources, allowing them to focus on running applications. We optimize the exe cution of these applications using Tensor Processing Units (TPUs). The objective is to evaluate the performance, accuracy, and cost of using such devices for ML/DL training. In our experiments, we showed that the size of the application could influence perfor mance and execution costs. Small applications, which end up not using all the hardware, may have little or no cost efficiency, i.e., the execution cost is higher and is not offset by the performance obtained. In these cases, the choice to run in the cloud must be analyzed with caution, noting if there are additional benefits. The performance achieved is im proved in larger applications, which use computational resources more effectively. Also, it is about 50% cost efficient in running the same amount of work compared to the local cluster. The cost per training can be further reduced through the use of preemptive TPUs, costing about 70% less compared to on-demand TPUs.application/pdfengComputação em nuvemAprendizado de máquinaComputação : Alto desempenhoTPUPerformance evaluationOptimizing machine learning models training in the cloudOtimizando o treinamento de modelos de aprendizado de máquina na nuvem info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001172445.pdf.txt001172445.pdf.txtExtracted Texttext/plain133933http://www.lume.ufrgs.br/bitstream/10183/261762/2/001172445.pdf.txt33e2a6996ebb141c86b1f18294d10451MD52ORIGINAL001172445.pdfTexto completo (inglês)application/pdf1472170http://www.lume.ufrgs.br/bitstream/10183/261762/1/001172445.pdf92272046d172b42994742deb785f9be3MD5110183/2617622023-07-06 03:51:30.848142oai:www.lume.ufrgs.br:10183/261762Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532023-07-06T06:51:30Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Optimizing machine learning models training in the cloud
dc.title.alternative.pt.fl_str_mv Otimizando o treinamento de modelos de aprendizado de máquina na nuvem
title Optimizing machine learning models training in the cloud
spellingShingle Optimizing machine learning models training in the cloud
Künas, Cristiano Alex
Computação em nuvem
Aprendizado de máquina
Computação : Alto desempenho
TPU
Performance evaluation
title_short Optimizing machine learning models training in the cloud
title_full Optimizing machine learning models training in the cloud
title_fullStr Optimizing machine learning models training in the cloud
title_full_unstemmed Optimizing machine learning models training in the cloud
title_sort Optimizing machine learning models training in the cloud
author Künas, Cristiano Alex
author_facet Künas, Cristiano Alex
author_role author
dc.contributor.author.fl_str_mv Künas, Cristiano Alex
dc.contributor.advisor1.fl_str_mv Navaux, Philippe Olivier Alexandre
contributor_str_mv Navaux, Philippe Olivier Alexandre
dc.subject.por.fl_str_mv Computação em nuvem
Aprendizado de máquina
Computação : Alto desempenho
topic Computação em nuvem
Aprendizado de máquina
Computação : Alto desempenho
TPU
Performance evaluation
dc.subject.eng.fl_str_mv TPU
Performance evaluation
description Impulsionado pelo desenvolvimento de novas tecnologias, como assistentes pessoais ou carros autônomos, o aprendizado de máquina tornou-se rapidamente um dos campos mais ativos da ciência da computação. De Big Data a aplicativos de Aprendizado Profundo, as novas cargas de trabalho são notoriamente exigentes em termos de recursos intensificando a demanda por computação de alto desempenho (HPC). Portanto, é de suma importância otimizar a execução destas cargas de trabalho em processadores modernos. Várias aborda gens foram propostas para acelerar o aprendizado de máquina em GPUs e computadores massivamente paralelos, bem como ASICs dedicados. Por outro lado, há um crescimento no processamento de programas de computador na nuvem. É uma forma de reduzir o custo de aquisição de computadores para executar programas localmente. Nesta dissertação de mestrado, nós adaptamos e migramos três aplicações DL para explo rar recursos de Cloud Computing. Essa abordagem ajuda a aliviar a contenção de recursos locais de alta demanda de HPC, permitindo que eles se concentrem na execução de aplicativos. Otimizamos a execução destas aplicações utilizando Tensor Processing Units (TPUs). O objetivo é avaliar o desempenho, a acurácia e custo do uso de tais dispositivos para treinamento de ML/DL. Em nossos experimentos, mostramos que o tamanho da aplicação pode influenciar no desempenho e no custo de execução. Pequenas aplicações, que acabam não utilizando todo o hardware podem ter pouca ou nenhuma eficiência de custo, ou seja, o custo de execução é maior e não é compensado pelo desempenho obtido. Nestes casos, a escolha de executar na nuvem deve ser analisada com cautela, observando se há beneficios adicionais. Em aplicações maiores, que usam de forma mais efetiva o recurso computacional, o desempenho alcançado é melhorado. Além disso, apresenta eficiência de custo de cerca de 50% na execução da mesma quantidade de trabalho comparado ao cluster local. O custo por treinamento pode ser ainda mais reduzido através do uso de TPUs preemptivas, custando cerca de 70% menos comparado com TPUs sob demanda.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-07-05T03:46:43Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/261762
dc.identifier.nrb.pt_BR.fl_str_mv 001172445
url http://hdl.handle.net/10183/261762
identifier_str_mv 001172445
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/261762/2/001172445.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/261762/1/001172445.pdf
bitstream.checksum.fl_str_mv 33e2a6996ebb141c86b1f18294d10451
92272046d172b42994742deb785f9be3
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1800309218676310016