Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis

Detalhes bibliográficos
Autor(a) principal: David, João Pedro Vieira
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/51973
Resumo: Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021
id RCAP_1484410a29070ff693ab5b886c711365
oai_identifier_str oai:repositorio.ul.pt:10451/51973
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Improving Machine Learning Pipeline Creation using Visual Programming and Static AnalysisProgramação VisualAprendizagem AutomáticaPipelineVerificação de TiposCompiladorTeses de mestrado - 2021Departamento de InformáticaTese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021ML pipelines are composed of several steps that load data, clean it, process it, apply learning algorithms and produce either reports or deploy inference systems into production. In real-world scenarios, pipelines can take days, weeks, or months to train with large quantities of data. Unfortunately, current tools to design and orchestrate ML pipelines are oblivious to the semantics of each step, allowing developers to easily introduce errors when connecting two components that might not work together, either syntactically or semantically. Data scientists and engineers often find these bugs during or after the lengthy execution, which decreases their productivity. We propose a Visual Programming Language (VPL) enriched with semantic constraints regarding the behavior of each component and a verification methodology that verifies entire pipelines to detect common ML bugs that existing visual and textual programming languages do not. We evaluate this methodology on a set of six bugs taken from a data science company focused on preventing financial fraud on big data. We were able detect these data engineering and data balancing bugs, as well as detect unnecessary computation in the pipelines.Fonseca, Alcides Miguel Cachulo AguiarRepositório da Universidade de LisboaDavid, João Pedro Vieira2022-03-25T13:48:33Z202120212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/51973TID:202934071enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:57:00Zoai:repositorio.ul.pt:10451/51973Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:03:10.003800Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
spellingShingle Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
David, João Pedro Vieira
Programação Visual
Aprendizagem Automática
Pipeline
Verificação de Tipos
Compilador
Teses de mestrado - 2021
Departamento de Informática
title_short Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_full Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_fullStr Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_full_unstemmed Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
title_sort Improving Machine Learning Pipeline Creation using Visual Programming and Static Analysis
author David, João Pedro Vieira
author_facet David, João Pedro Vieira
author_role author
dc.contributor.none.fl_str_mv Fonseca, Alcides Miguel Cachulo Aguiar
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv David, João Pedro Vieira
dc.subject.por.fl_str_mv Programação Visual
Aprendizagem Automática
Pipeline
Verificação de Tipos
Compilador
Teses de mestrado - 2021
Departamento de Informática
topic Programação Visual
Aprendizagem Automática
Pipeline
Verificação de Tipos
Compilador
Teses de mestrado - 2021
Departamento de Informática
description Tese de mestrado, Engenharia Informática (Engenharia de Software), Universidade de Lisboa, Faculdade de Ciências, 2021
publishDate 2021
dc.date.none.fl_str_mv 2021
2021
2021-01-01T00:00:00Z
2022-03-25T13:48:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/51973
TID:202934071
url http://hdl.handle.net/10451/51973
identifier_str_mv TID:202934071
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134582668263424