Development of an Orchestration Engine for the DS4NP Platform
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/92477 |
Resumo: | Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
id |
RCAP_7d7ce7d1f0b94b7a70e07ef60d935f60 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/92477 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development of an Orchestration Engine for the DS4NP PlatformDevelopment of an Orchestration Engine for the DS4NP PlatformOrchestrationMicroservicesCloud ComputingAmazon Web ServicesMachine LearningOrquestraçãoMicrosserviçosComputação na NuvemAmazon Web ServicesAprendizagem ComputacionalDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaThe demand for qualified people capable of extracting value from the ever-increasing volume of data is growing. More data scientists need to be trained, but training can be a time-consuming task due to the diversity of disciplines it involves. A more gradual learning curve can be achieved by abstracting programming languages from the scientists’ path. The ultimate goal of the Data Science for Non-Programmers project (DataScience4NP) is to implement data science practices rightfully without requiring programming skills, thus enabling non-programmers to be part of the data science workforce.The DataScience4NP is a platform focused on machine learning (ML) workflows and is available through a Web User Interface. It follows a microservices architecture with multiple Docker containerized services running ML algorithms orchestrated in a Kubernetes cluster. These technologies provide great flexibility in deploying and managing applications, either on-premises or on the cloud. Nevertheless, we still need an orchestration solution to manage the execution of workflows (a technology to orchestrate the ML tasks fed to the ML microservices). Netflix Conductor was the technology initially adopted for this purpose, but, because it cannot support workflows with hundreds of tasks (such as workflows involving cross-validation with repetitions), Conductor turned out to be an unsuitable solution.In this dissertation, we adopt a new approach to orchestrating ML workflows using Amazon Web Services (AWS) Step Functions with the final intention of executing more complex workflows.Está a crescer a procura por pessoas qualificadas que sejam capazes de extrair valor do grande volume de dados gerados atualmente. Existe a necessidade de treinar novos cientistas de dados, no entanto este pode ser um processo lento e dispendioso devido às várias áreas interdisciplinares que a Ciência de Dados envolve. O tempo de aprendizagem pode ser reduzido se abstrairmos os cientistas das linguagens de programação. O objetivo do projeto Data Science for Non-Programmers (DataScience4NP) é implementar práticas usadas em Data Science de forma correta, sem serem necessários conhecimentos de programação. A aplicação foca-se em workflows de Machine Learning e está disponível através de uma interface web. Segue uma arquitetura de microsserviços conteinerizados com Docker e orquestrados num cluster de Kubernetes. Estas tecnologias providenciam uma alto nível de flexibilidade na gestão e no deployment de aplicações naCloud. No entanto, era ainda necessária uma solução para gerenciar a execução dos workflows de Machine Learning e assim orquestrar as tarefas de ML nos microsserviços. O Netflix Conductor foi a tecnologia inicialmente adoptada para esse fim mas que acabou por se revelar numa solução inadequada devido às suas limitações para executar workflows com centenas de tarefas, como por exemplo workflows que envolvam validação cruzada com repetições.Nesta dissertação, é adoptada uma nova abordagem para a orquestração dos workflows de ML usando Amazon Web Services (AWS) Step Functions para que seja possível executar workflows mais complexos.2020-07-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/92477http://hdl.handle.net/10316/92477TID:202521044engOliveira, Ana Sofia da Silva Brito deinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T05:55:25Zoai:estudogeral.uc.pt:10316/92477Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:11:33.790161Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development of an Orchestration Engine for the DS4NP Platform Development of an Orchestration Engine for the DS4NP Platform |
title |
Development of an Orchestration Engine for the DS4NP Platform |
spellingShingle |
Development of an Orchestration Engine for the DS4NP Platform Oliveira, Ana Sofia da Silva Brito de Orchestration Microservices Cloud Computing Amazon Web Services Machine Learning Orquestração Microsserviços Computação na Nuvem Amazon Web Services Aprendizagem Computacional |
title_short |
Development of an Orchestration Engine for the DS4NP Platform |
title_full |
Development of an Orchestration Engine for the DS4NP Platform |
title_fullStr |
Development of an Orchestration Engine for the DS4NP Platform |
title_full_unstemmed |
Development of an Orchestration Engine for the DS4NP Platform |
title_sort |
Development of an Orchestration Engine for the DS4NP Platform |
author |
Oliveira, Ana Sofia da Silva Brito de |
author_facet |
Oliveira, Ana Sofia da Silva Brito de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Oliveira, Ana Sofia da Silva Brito de |
dc.subject.por.fl_str_mv |
Orchestration Microservices Cloud Computing Amazon Web Services Machine Learning Orquestração Microsserviços Computação na Nuvem Amazon Web Services Aprendizagem Computacional |
topic |
Orchestration Microservices Cloud Computing Amazon Web Services Machine Learning Orquestração Microsserviços Computação na Nuvem Amazon Web Services Aprendizagem Computacional |
description |
Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-07-23 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/92477 http://hdl.handle.net/10316/92477 TID:202521044 |
url |
http://hdl.handle.net/10316/92477 |
identifier_str_mv |
TID:202521044 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1817551246913961984 |