Building Machine Learning Microservices for the Data Science for Non-Programmers Platform

Detalhes bibliográficos
Autor(a) principal: Pedroso, Artur Jorge de Carvalho
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/83540
Resumo: Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
id RCAP_76f3ae83765f3ab6e9ca0e5c3dc4be36
oai_identifier_str oai:estudogeral.uc.pt:10316/83540
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Building Machine Learning Microservices for the Data Science for Non-Programmers PlatformConstrução de Microserviços de Machine Learning para a Plataforma Data Science for Non-ProgrammersCiência de dadosmineração de dadosaprendizagem computacionalcomputação na nuvemmicro-serviçosData sciencedata miningmachine learningcloud computingmicroservicesDissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e TecnologiaO surgimento de grandes quantidades de dados tornou evidente a falta de cientistas de dados para procederem à sua análise. Para treinar novos cientistas de dados de forma acelerada, é esperado que aplicações que permitam a aplicação de práticas da ciência de dados, mineração de dados e aprendizagem computacional sem requererem conhecimentos de programação sejam uma grande ajuda. Embora já existam algumas aplicações deste género, estas ainda apresentam algumas limitações. Algumas aplicações falham em oferecer boas práticas de aprendizagem computacional, especialmente para a avaliação e selecção de modelos; outras aplicações necessitam que os utilizadores criem fluxos de trabalho complexos e de forma geral não guiam o utilizador durante o processo. Tendo em vista estes problemas, esta tese vai apresentar um protótipo de uma aplicação na nuvem que permite a criação de experiências de aprendizagem computacional reforçando boas práticas de aprendizagem computacional e guiando o utilizador no processo. A aplicação que foi idealizada segue uma arquitectura de micro-serviços, pensada para aumentar a flexibilidade em introduzir e escalar algoritmos de aprendizagem computacional no sistema. Visto que este tipo de arquitecturas pode ser composto por muitos serviços, a sua gestão recorre às tecnologias Docker e Kubernetes para facilitar o processo. De forma geral, o sistema consegue realizar uma grande variedade de experiências de aprendizagem computacional, falhando em experiências mais complexas que requerem mais investigação. Foram realizados testes de usabilidade que confirmam uma grande satisfação por parte dos utilizadores ao usarem o sistema. Testes de performance computacional também foram realizados, não revelando os melhores resultados para já, principalmente devido à falta de optimizações no sistema.With the emergence of Big Data, the scarcity of data scientists to analyse all the data being produced in different domains became evident. To train the new data scientists faster, applications providing data science practices, such as data mining and machine learning, without requiring users to hold programming skills might be of great help. Although we can see already advances in the production of such applications, there are still challenges. Some applications lack in providing good machine learning practices, specially for assessment and selection of models; others require the creation of complex workflows to apply the machine learning processes correctly, and in general these applications do not intend to guide the user in the creation of the machine learning experiments. Having these concerns in mind, in this thesis will be presented a prototype of a cloud application to enable the creation of machine learning experiments enforcing good machine learning practices, while guiding the users in the machine learning process. The envisioned application follows a microservices architecture, which was mainly thought to increase the flexibility in introducing and scaling machine learning algorithms in the system. As microservices architectures can be composed by several services, it was used Docker and Kuberneters technologies to deploy and manage the system in the cloud, making this process easier.In general, the system is able to perform a great variety of machine learning experiments, however the execution of more complex experiments still requires more research, as these can make the system to fail.Preliminary usability tests were conducted with two groups of users to evaluate the envisioned concept for the creation of machine learning experiments, where it was observed a general high level of user satisfaction. To assess the computational performance of the current system design, tests in a public cloud were done, where the observed results were not so good, though these can be justified by the lack of optimisations done in the system at the moment.Outro - Bolsa de Investigação no âmbito do Projeto PTDC/EEI-ESS/1189/2014 (POCI-01-0145-FEDER-016759) - Data Science para Não-Programadores (DataScience4NP).2018-09-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/83540http://hdl.handle.net/10316/83540TID:202129535engmetadata only accessinfo:eu-repo/semantics/openAccessPedroso, Artur Jorge de Carvalhoreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2020-02-10T16:14:22Zoai:estudogeral.uc.pt:10316/83540Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:05:15.742254Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
Construção de Microserviços de Machine Learning para a Plataforma Data Science for Non-Programmers
title Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
spellingShingle Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
Pedroso, Artur Jorge de Carvalho
Ciência de dados
mineração de dados
aprendizagem computacional
computação na nuvem
micro-serviços
Data science
data mining
machine learning
cloud computing
microservices
title_short Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
title_full Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
title_fullStr Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
title_full_unstemmed Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
title_sort Building Machine Learning Microservices for the Data Science for Non-Programmers Platform
author Pedroso, Artur Jorge de Carvalho
author_facet Pedroso, Artur Jorge de Carvalho
author_role author
dc.contributor.author.fl_str_mv Pedroso, Artur Jorge de Carvalho
dc.subject.por.fl_str_mv Ciência de dados
mineração de dados
aprendizagem computacional
computação na nuvem
micro-serviços
Data science
data mining
machine learning
cloud computing
microservices
topic Ciência de dados
mineração de dados
aprendizagem computacional
computação na nuvem
micro-serviços
Data science
data mining
machine learning
cloud computing
microservices
description Dissertação de Mestrado em Engenharia Informática apresentada à Faculdade de Ciências e Tecnologia
publishDate 2018
dc.date.none.fl_str_mv 2018-09-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/83540
http://hdl.handle.net/10316/83540
TID:202129535
url http://hdl.handle.net/10316/83540
identifier_str_mv TID:202129535
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv metadata only access
info:eu-repo/semantics/openAccess
rights_invalid_str_mv metadata only access
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133944876105728