Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10451/51973 |
Resumo: | Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021 |
id |
RCAP_1484410a29070ff693ab5b886c711365 |
---|---|
oai_identifier_str |
oai:repositorio.ul.pt:10451/51973 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Improving Machine Learning Pipeline Creation using Visual Programming and Static AnalysisProgramação VisualAprendizagem AutomáticaPipelineVerificação de TiposCompiladorTeses de mestrado - 2021Departamento de InformáticaTese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021ML pipelines are composed of several steps that load data, clean it, process it, apply learning algorithms and produce either reports or deploy inference systems into production. In real-world scenarios, pipelines can take days, weeks, or months to train with large quantities of data. Unfortunately, current tools to design and orchestrate ML pipelines are oblivious to the semantics of each step, allowing developers to easily introduce errors when connecting two components that might not work together, either syntactically or semantically. Data scientists and engineers often find these bugs during or after the lengthy execution, which decreases their productivity. We propose a Visual Programming Language (VPL) enriched with semantic constraints regarding the behavior of each component and a verification methodology that verifies entire pipelines to detect common ML bugs that existing visual and textual programming languages do not. We evaluate this methodology on a set of six bugs taken from a data science company focused on preventing financial fraud on big data. We were able detect these data engineering and data balancing bugs, as well as detect unnecessary computation in the pipelines.Fonseca, Alcides Miguel Cachulo AguiarRepositório da Universidade de LisboaDavid, João Pedro Vieira2022-03-25T13:48:33Z202120212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51973TID:202934071enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:57:00Zoai:repositorio.ul.pt:10451/51973Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:03:10.003800Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
title |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
spellingShingle |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis David, João Pedro Vieira Programação Visual Aprendizagem Automática Pipeline Verificação de Tipos Compilador Teses de mestrado - 2021 Departamento de Informática |
title_short |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
title_full |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
title_fullStr |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
title_full_unstemmed |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
title_sort |
Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis |
author |
David, João Pedro Vieira |
author_facet |
David, João Pedro Vieira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Fonseca, Alcides Miguel Cachulo Aguiar Repositório da Universidade de Lisboa |
dc.contributor.author.fl_str_mv |
David, João Pedro Vieira |
dc.subject.por.fl_str_mv |
Programação Visual Aprendizagem Automática Pipeline Verificação de Tipos Compilador Teses de mestrado - 2021 Departamento de Informática |
topic |
Programação Visual Aprendizagem Automática Pipeline Verificação de Tipos Compilador Teses de mestrado - 2021 Departamento de Informática |
description |
Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021 |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021 2021 2021-01-01T00:00:00Z 2022-03-25T13:48:33Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10451/51973 TID:202934071 |
url |
http://hdl.handle.net/10451/51973 |
identifier_str_mv |
TID:202934071 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799134582668263424 |