Development of an Orchestration Engine for the DS4NP Platform

Detalhes bibliográficos
Autor(a) principal: Oliveira, Ana Sofia da Silva Brito de
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/92477
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_7d7ce7d1f0b94b7a70e07ef60d935f60
oai_identifier_str oai:estudogeral.uc.pt:10316/92477
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development of an Orchestration Engine for the DS4NP PlatformDevelopment of an Orchestration Engine for the DS4NP PlatformOrchestrationMicroservicesCloud ComputingAmazon Web ServicesMachine LearningOrquestraçãoMicrosserviçosComputação na NuvemAmazon Web ServicesAprendizagem ComputacionalDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaThe demand for qualified people capable of extracting value from the ever-increasing volume of data is growing. More data scientists need to be trained, but training can be a time-consuming task due to the diversity of disciplines it involves. A more gradual learning curve can be achieved by abstracting programming languages from the scientists’ path. The ultimate goal of the Data Science for Non-Programmers project (DataScience4NP) is to implement data science practices rightfully without requiring programming skills, thus enabling non-programmers to be part of the data science workforce.The DataScience4NP is a platform focused on machine learning (ML) workflows and is available through a Web User Interface. It follows a microservices architecture with multiple Docker containerized services running ML algorithms orchestrated in a Kubernetes cluster. These technologies provide great flexibility in deploying and managing applications, either on-premises or on the cloud. Nevertheless, we still need an orchestration solution to manage the execution of workflows (a technology to orchestrate the ML tasks fed to the ML microservices). Netflix Conductor was the technology initially adopted for this purpose, but, because it cannot support workflows with hundreds of tasks (such as workflows involving cross-validation with repetitions), Conductor turned out to be an unsuitable solution.In this dissertation, we adopt a new approach to orchestrating ML workflows using Amazon Web Services (AWS) Step Functions with the final intention of executing more complex workflows.Está a crescer a procura por pessoas qualificadas que sejam capazes de extrair valor do grande volume de dados gerados atualmente. Existe a necessidade de treinar novos cientistas de dados, no entanto este pode ser um processo lento e dispendioso devido às várias áreas interdisciplinares que a Ciência de Dados envolve. O tempo de aprendizagem pode ser reduzido se abstrairmos os cientistas das linguagens de programação. O objetivo do projeto Data Science for Non-Programmers (DataScience4NP) é implementar práticas usadas em Data Science de forma correta, sem serem necessários conhecimentos de programação. A aplicação foca-se em workflows de Machine Learning e está disponível através de uma interface web. Segue uma arquitetura de microsserviços conteinerizados com Docker e orquestrados num cluster de Kubernetes. Estas tecnologias providenciam uma alto nível de flexibilidade na gestão e no deployment de aplicações naCloud. No entanto, era ainda necessária uma solução para gerenciar a execução dos workflows de Machine Learning e assim orquestrar as tarefas de ML nos microsserviços. O Netflix Conductor foi a tecnologia inicialmente adoptada para esse fim mas que acabou por se revelar numa solução inadequada devido às suas limitações para executar workflows com centenas de tarefas, como por exemplo workflows que envolvam validação cruzada com repetições.Nesta dissertação, é adoptada uma nova abordagem para a orquestração dos workflows de ML usando Amazon Web Services (AWS) Step Functions para que seja possível executar workflows mais complexos.2020-07-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/92477http://hdl.handle.net/10316/92477TID:202521044engOliveira, Ana Sofia da Silva Brito deinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T05:55:25Zoai:estudogeral.uc.pt:10316/92477Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:11:33.790161Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development of an Orchestration Engine for the DS4NP Platform
Development of an Orchestration Engine for the DS4NP Platform
title Development of an Orchestration Engine for the DS4NP Platform
spellingShingle Development of an Orchestration Engine for the DS4NP Platform
Oliveira, Ana Sofia da Silva Brito de
Orchestration
Microservices
Cloud Computing
Amazon Web Services
Machine Learning
Orquestração
Microsserviços
Computação na Nuvem
Amazon Web Services
Aprendizagem Computacional
title_short Development of an Orchestration Engine for the DS4NP Platform
title_full Development of an Orchestration Engine for the DS4NP Platform
title_fullStr Development of an Orchestration Engine for the DS4NP Platform
title_full_unstemmed Development of an Orchestration Engine for the DS4NP Platform
title_sort Development of an Orchestration Engine for the DS4NP Platform
author Oliveira, Ana Sofia da Silva Brito de
author_facet Oliveira, Ana Sofia da Silva Brito de
author_role author
dc.contributor.author.fl_str_mv Oliveira, Ana Sofia da Silva Brito de
dc.subject.por.fl_str_mv Orchestration
Microservices
Cloud Computing
Amazon Web Services
Machine Learning
Orquestração
Microsserviços
Computação na Nuvem
Amazon Web Services
Aprendizagem Computacional
topic Orchestration
Microservices
Cloud Computing
Amazon Web Services
Machine Learning
Orquestração
Microsserviços
Computação na Nuvem
Amazon Web Services
Aprendizagem Computacional
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2020
dc.date.none.fl_str_mv 2020-07-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/92477
http://hdl.handle.net/10316/92477
TID:202521044
url http://hdl.handle.net/10316/92477
identifier_str_mv TID:202521044
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1817551246913961984