Data preparation pipeline recommendation via meta-learning

Detalhes bibliográficos
Autor(a) principal: Zagatti, Fernando Rezende
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/14790
Resumo: Data preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario.
id SCAR_b9de6876d78e89439d8882b9ae766a7c
oai_identifier_str oai:repositorio.ufscar.br:ufscar/14790
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Zagatti, Fernando RezendeSilva, Diego Furtadohttp://lattes.cnpq.br/7662777934692986http://lattes.cnpq.br/80609464978752278c5f3bbe-9c65-4f62-afa8-357fe6991f232021-08-23T14:16:25Z2021-08-23T14:16:25Z2021-05-26ZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790.https://repositorio.ufscar.br/handle/ufscar/14790Data preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario.A preparação de dados é uma etapa essencial no pipeline de aprendizado de máquina, com o objetivo de converter dados volumosos e inconstantes em dados refinados compatíveis com os algoritmos a serem aplicados. No entanto, a preparação de dados demanda muito tempo e requer conhecimento especializado. Cada conjunto de dados tem suas características particulares, que devem ser levadas em conta, e pode ser interpretado de maneiras diferentes. Nesse cenário, automatizar a preparação de dados e, por consequência, diminuir o esforço feito pelos cientistas de dados nesse estágio é um desafio científico de grande relevância prática. Apesar de sua relevância, as plataformas de automatização do aprendizado de máquina (AutoML) atuais desconsideram ou criam pipelines pré-definidos para a preparação de dados, que não se adaptam às características do conjunto de dados a ser tratado. Tentando preencher essa lacuna, apresentamos um sistema de recomendação baseado em meta-aprendizado para a preparação de dados. Nosso sistema recomenda cinco pipelines, classificados por relevância. Dessa maneira, é útil para usuários com níveis de experiência variados. Usando a principal recomendação para simular uma escolha totalmente automática, demonstramos que nossa proposta permite um melhor desempenho de um sistema AutoML, incapaz de encontrar um modelo de classificação devido aos dados ruidosos. Além disso, as taxas de precisão do nosso método são semelhantes às alcançadas por um algoritmo baseado no aprendizado por reforço com o mesmo objetivo, mas é até duas ordens de magnitude mais rápido. Além disso, demonstramos nosso método em uma aplicação do mundo real e avaliamos seus benefícios e limitações neste cenário.Outra132783/2019-3engUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAutomatizaçãoPreparação de dadosMeta-aprendizadoPré-processamentoAprendizado de máquinaAutomatedData preparationMeta-learningPreprocessingMachine learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOData preparation pipeline recommendation via meta-learningRecomendação de pipeline de preparação de dados via meta-aprendizadoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6006009185a24d-3ee1-48a1-82f2-dad58a6b653ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDisserta__o___Fernando_Rezende_Zagatti.pdfDisserta__o___Fernando_Rezende_Zagatti.pdfDissertação do mestrado do Fernando Rezende Zagattiapplication/pdf962134https://repositorio.ufscar.br/bitstream/ufscar/14790/1/Disserta__o___Fernando_Rezende_Zagatti.pdf4d0632e4fc58c3b3698f5023867b5185MD51PPGCC_Fernando_Zagatti (3).pdfPPGCC_Fernando_Zagatti (3).pdfCarta de autorização do orientadorapplication/pdf71543https://repositorio.ufscar.br/bitstream/ufscar/14790/2/PPGCC_Fernando_Zagatti%20%283%29.pdfc9574c5e0f0368d85affbdc4697aff78MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/14790/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTDisserta__o___Fernando_Rezende_Zagatti.pdf.txtDisserta__o___Fernando_Rezende_Zagatti.pdf.txtExtracted texttext/plain150123https://repositorio.ufscar.br/bitstream/ufscar/14790/4/Disserta__o___Fernando_Rezende_Zagatti.pdf.txtf90df939c188bc48a2d4007f267d204fMD54PPGCC_Fernando_Zagatti (3).pdf.txtPPGCC_Fernando_Zagatti (3).pdf.txtExtracted texttext/plain1494https://repositorio.ufscar.br/bitstream/ufscar/14790/6/PPGCC_Fernando_Zagatti%20%283%29.pdf.txt73e3723fff6495ed97fdfb4168453a42MD56THUMBNAILDisserta__o___Fernando_Rezende_Zagatti.pdf.jpgDisserta__o___Fernando_Rezende_Zagatti.pdf.jpgIM Thumbnailimage/jpeg8339https://repositorio.ufscar.br/bitstream/ufscar/14790/5/Disserta__o___Fernando_Rezende_Zagatti.pdf.jpg6986ebf1c9110fa983d94e87d4267ac9MD55PPGCC_Fernando_Zagatti (3).pdf.jpgPPGCC_Fernando_Zagatti (3).pdf.jpgIM Thumbnailimage/jpeg12916https://repositorio.ufscar.br/bitstream/ufscar/14790/7/PPGCC_Fernando_Zagatti%20%283%29.pdf.jpg730e33685c2172d349e03b7ac976566dMD57ufscar/147902023-09-18 18:32:14.602oai:repositorio.ufscar.br:ufscar/14790Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:14Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.eng.fl_str_mv Data preparation pipeline recommendation via meta-learning
dc.title.alternative.por.fl_str_mv Recomendação de pipeline de preparação de dados via meta-aprendizado
title Data preparation pipeline recommendation via meta-learning
spellingShingle Data preparation pipeline recommendation via meta-learning
Zagatti, Fernando Rezende
Automatização
Preparação de dados
Meta-aprendizado
Pré-processamento
Aprendizado de máquina
Automated
Data preparation
Meta-learning
Preprocessing
Machine learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Data preparation pipeline recommendation via meta-learning
title_full Data preparation pipeline recommendation via meta-learning
title_fullStr Data preparation pipeline recommendation via meta-learning
title_full_unstemmed Data preparation pipeline recommendation via meta-learning
title_sort Data preparation pipeline recommendation via meta-learning
author Zagatti, Fernando Rezende
author_facet Zagatti, Fernando Rezende
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/8060946497875227
dc.contributor.author.fl_str_mv Zagatti, Fernando Rezende
dc.contributor.advisor1.fl_str_mv Silva, Diego Furtado
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7662777934692986
dc.contributor.authorID.fl_str_mv 8c5f3bbe-9c65-4f62-afa8-357fe6991f23
contributor_str_mv Silva, Diego Furtado
dc.subject.por.fl_str_mv Automatização
Preparação de dados
Meta-aprendizado
Pré-processamento
Aprendizado de máquina
topic Automatização
Preparação de dados
Meta-aprendizado
Pré-processamento
Aprendizado de máquina
Automated
Data preparation
Meta-learning
Preprocessing
Machine learning
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Automated
Data preparation
Meta-learning
Preprocessing
Machine learning
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Data preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-08-23T14:16:25Z
dc.date.available.fl_str_mv 2021-08-23T14:16:25Z
dc.date.issued.fl_str_mv 2021-05-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/14790
identifier_str_mv ZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790.
url https://repositorio.ufscar.br/handle/ufscar/14790
dc.language.iso.fl_str_mv eng
language eng
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 9185a24d-3ee1-48a1-82f2-dad58a6b653e
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação - PPGCC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/14790/1/Disserta__o___Fernando_Rezende_Zagatti.pdf
https://repositorio.ufscar.br/bitstream/ufscar/14790/2/PPGCC_Fernando_Zagatti%20%283%29.pdf
https://repositorio.ufscar.br/bitstream/ufscar/14790/3/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/14790/4/Disserta__o___Fernando_Rezende_Zagatti.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/14790/6/PPGCC_Fernando_Zagatti%20%283%29.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/14790/5/Disserta__o___Fernando_Rezende_Zagatti.pdf.jpg
https://repositorio.ufscar.br/bitstream/ufscar/14790/7/PPGCC_Fernando_Zagatti%20%283%29.pdf.jpg
bitstream.checksum.fl_str_mv 4d0632e4fc58c3b3698f5023867b5185
c9574c5e0f0368d85affbdc4697aff78
e39d27027a6cc9cb039ad269a5db8e34
f90df939c188bc48a2d4007f267d204f
73e3723fff6495ed97fdfb4168453a42
6986ebf1c9110fa983d94e87d4267ac9
730e33685c2172d349e03b7ac976566d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136395227070464