Data preparation pipeline recommendation via meta-learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/14790 |
Resumo: | Data preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario. |
id |
SCAR_b9de6876d78e89439d8882b9ae766a7c |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/14790 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Zagatti, Fernando RezendeSilva, Diego Furtadohttp://lattes.cnpq.br/7662777934692986http://lattes.cnpq.br/80609464978752278c5f3bbe-9c65-4f62-afa8-357fe6991f232021-08-23T14:16:25Z2021-08-23T14:16:25Z2021-05-26ZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790.https://repositorio.ufscar.br/handle/ufscar/14790Data preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario.A preparação de dados é uma etapa essencial no pipeline de aprendizado de máquina, com o objetivo de converter dados volumosos e inconstantes em dados refinados compatíveis com os algoritmos a serem aplicados. No entanto, a preparação de dados demanda muito tempo e requer conhecimento especializado. Cada conjunto de dados tem suas características particulares, que devem ser levadas em conta, e pode ser interpretado de maneiras diferentes. Nesse cenário, automatizar a preparação de dados e, por consequência, diminuir o esforço feito pelos cientistas de dados nesse estágio é um desafio científico de grande relevância prática. Apesar de sua relevância, as plataformas de automatização do aprendizado de máquina (AutoML) atuais desconsideram ou criam pipelines pré-definidos para a preparação de dados, que não se adaptam às características do conjunto de dados a ser tratado. Tentando preencher essa lacuna, apresentamos um sistema de recomendação baseado em meta-aprendizado para a preparação de dados. Nosso sistema recomenda cinco pipelines, classificados por relevância. Dessa maneira, é útil para usuários com níveis de experiência variados. Usando a principal recomendação para simular uma escolha totalmente automática, demonstramos que nossa proposta permite um melhor desempenho de um sistema AutoML, incapaz de encontrar um modelo de classificação devido aos dados ruidosos. Além disso, as taxas de precisão do nosso método são semelhantes às alcançadas por um algoritmo baseado no aprendizado por reforço com o mesmo objetivo, mas é até duas ordens de magnitude mais rápido. Além disso, demonstramos nosso método em uma aplicação do mundo real e avaliamos seus benefícios e limitações neste cenário.Outra132783/2019-3engUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Ciência da Computação - PPGCCUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessAutomatizaçãoPreparação de dadosMeta-aprendizadoPré-processamentoAprendizado de máquinaAutomatedData preparationMeta-learningPreprocessingMachine learningCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOData preparation pipeline recommendation via meta-learningRecomendação de pipeline de preparação de dados via meta-aprendizadoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis6006009185a24d-3ee1-48a1-82f2-dad58a6b653ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDisserta__o___Fernando_Rezende_Zagatti.pdfDisserta__o___Fernando_Rezende_Zagatti.pdfDissertação do mestrado do Fernando Rezende Zagattiapplication/pdf962134https://repositorio.ufscar.br/bitstream/ufscar/14790/1/Disserta__o___Fernando_Rezende_Zagatti.pdf4d0632e4fc58c3b3698f5023867b5185MD51PPGCC_Fernando_Zagatti (3).pdfPPGCC_Fernando_Zagatti (3).pdfCarta de autorização do orientadorapplication/pdf71543https://repositorio.ufscar.br/bitstream/ufscar/14790/2/PPGCC_Fernando_Zagatti%20%283%29.pdfc9574c5e0f0368d85affbdc4697aff78MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufscar.br/bitstream/ufscar/14790/3/license_rdfe39d27027a6cc9cb039ad269a5db8e34MD53TEXTDisserta__o___Fernando_Rezende_Zagatti.pdf.txtDisserta__o___Fernando_Rezende_Zagatti.pdf.txtExtracted texttext/plain150123https://repositorio.ufscar.br/bitstream/ufscar/14790/4/Disserta__o___Fernando_Rezende_Zagatti.pdf.txtf90df939c188bc48a2d4007f267d204fMD54PPGCC_Fernando_Zagatti (3).pdf.txtPPGCC_Fernando_Zagatti (3).pdf.txtExtracted texttext/plain1494https://repositorio.ufscar.br/bitstream/ufscar/14790/6/PPGCC_Fernando_Zagatti%20%283%29.pdf.txt73e3723fff6495ed97fdfb4168453a42MD56THUMBNAILDisserta__o___Fernando_Rezende_Zagatti.pdf.jpgDisserta__o___Fernando_Rezende_Zagatti.pdf.jpgIM Thumbnailimage/jpeg8339https://repositorio.ufscar.br/bitstream/ufscar/14790/5/Disserta__o___Fernando_Rezende_Zagatti.pdf.jpg6986ebf1c9110fa983d94e87d4267ac9MD55PPGCC_Fernando_Zagatti (3).pdf.jpgPPGCC_Fernando_Zagatti (3).pdf.jpgIM Thumbnailimage/jpeg12916https://repositorio.ufscar.br/bitstream/ufscar/14790/7/PPGCC_Fernando_Zagatti%20%283%29.pdf.jpg730e33685c2172d349e03b7ac976566dMD57ufscar/147902023-09-18 18:32:14.602oai:repositorio.ufscar.br:ufscar/14790Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:14Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.eng.fl_str_mv |
Data preparation pipeline recommendation via meta-learning |
dc.title.alternative.por.fl_str_mv |
Recomendação de pipeline de preparação de dados via meta-aprendizado |
title |
Data preparation pipeline recommendation via meta-learning |
spellingShingle |
Data preparation pipeline recommendation via meta-learning Zagatti, Fernando Rezende Automatização Preparação de dados Meta-aprendizado Pré-processamento Aprendizado de máquina Automated Data preparation Meta-learning Preprocessing Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Data preparation pipeline recommendation via meta-learning |
title_full |
Data preparation pipeline recommendation via meta-learning |
title_fullStr |
Data preparation pipeline recommendation via meta-learning |
title_full_unstemmed |
Data preparation pipeline recommendation via meta-learning |
title_sort |
Data preparation pipeline recommendation via meta-learning |
author |
Zagatti, Fernando Rezende |
author_facet |
Zagatti, Fernando Rezende |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/8060946497875227 |
dc.contributor.author.fl_str_mv |
Zagatti, Fernando Rezende |
dc.contributor.advisor1.fl_str_mv |
Silva, Diego Furtado |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7662777934692986 |
dc.contributor.authorID.fl_str_mv |
8c5f3bbe-9c65-4f62-afa8-357fe6991f23 |
contributor_str_mv |
Silva, Diego Furtado |
dc.subject.por.fl_str_mv |
Automatização Preparação de dados Meta-aprendizado Pré-processamento Aprendizado de máquina |
topic |
Automatização Preparação de dados Meta-aprendizado Pré-processamento Aprendizado de máquina Automated Data preparation Meta-learning Preprocessing Machine learning CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Automated Data preparation Meta-learning Preprocessing Machine learning |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
Data preparation is a essential stage in the machine learning pipeline, aiming to convert noisy and disordered data into refined data compatible with the algorithms. However, data preparation is time-consuming and requires specialized knowledge. In this scenario, automating data preparation and decreasing the effort made by data scientists at this stage is a scientific challenge of great practical relevance. Each dataset has its particular characteristics and can be interpreted in different ways. Despite its relevance, current automated machine learning (AutoML) platforms disregard or make simple hardcoded pipelines for data preparation. Trying to fill this gap, we present a meta-learning-based recommendation system for data preparation. Our system recommends five pipelines, ranked by their relevance, so it is useful for users with varied experience levels. Using the top recommendation to simulate an entirely automatic choice of data preparation pipeline, we demonstrate that our proposal allows a better performance of an AutoML system, unable to find a classification model due to the noisy data. Besides, our method's accuracy rates are similar to those achieved by a reinforcement-learning-based algorithm with the same goal, but it is up to two orders of magnitude faster. Morevover, we demonstrate our method in a real-world application and evaluate its benefits and limitations in this scenario. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-08-23T14:16:25Z |
dc.date.available.fl_str_mv |
2021-08-23T14:16:25Z |
dc.date.issued.fl_str_mv |
2021-05-26 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/14790 |
identifier_str_mv |
ZAGATTI, Fernando Rezende. Data preparation pipeline recommendation via meta-learning. 2021. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de São Carlos, São Carlos, 2021. Disponível em: https://repositorio.ufscar.br/handle/ufscar/14790. |
url |
https://repositorio.ufscar.br/handle/ufscar/14790 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
9185a24d-3ee1-48a1-82f2-dad58a6b653e |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação - PPGCC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/14790/1/Disserta__o___Fernando_Rezende_Zagatti.pdf https://repositorio.ufscar.br/bitstream/ufscar/14790/2/PPGCC_Fernando_Zagatti%20%283%29.pdf https://repositorio.ufscar.br/bitstream/ufscar/14790/3/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/14790/4/Disserta__o___Fernando_Rezende_Zagatti.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/14790/6/PPGCC_Fernando_Zagatti%20%283%29.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/14790/5/Disserta__o___Fernando_Rezende_Zagatti.pdf.jpg https://repositorio.ufscar.br/bitstream/ufscar/14790/7/PPGCC_Fernando_Zagatti%20%283%29.pdf.jpg |
bitstream.checksum.fl_str_mv |
4d0632e4fc58c3b3698f5023867b5185 c9574c5e0f0368d85affbdc4697aff78 e39d27027a6cc9cb039ad269a5db8e34 f90df939c188bc48a2d4007f267d204f 73e3723fff6495ed97fdfb4168453a42 6986ebf1c9110fa983d94e87d4267ac9 730e33685c2172d349e03b7ac976566d |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136395227070464 |