Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML

Detalhes bibliográficos
Autor(a) principal: Hosoume, Juliana Mayumi
Data de Publicação: 2020
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Monografias da UnB
Texto Completo: https://bdm.unb.br/handle/10483/27587
Resumo: Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.
id UNB-2_e558cd8d5cb3903224d06fe424ad6b1f
oai_identifier_str oai:bdm.unb.br:10483/27587
network_acronym_str UNB-2
network_name_str Biblioteca Digital de Monografias da UnB
repository_id_str 11571
spelling Hosoume, Juliana MayumiGarcia, Luís Paulo FainaHOSOUME, Juliana Mayumi. Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML. 2020. 73 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020.https://bdm.unb.br/handle/10483/27587Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.O aprendizado de máquina possui uma multitude de algoritmos e técnicas de pré-processamento que tratam de problemas de classificação. Combiná-los para projetar a melhor sequência de téc- nicas, ou pipeline, de aprendizado de máquina é uma tarefa desafiadora. Diferentes abordagens já foram investigadas, entre elas processos manuais de construção de pipelines, até utilização da otimização Bayesiana e de programação genética. No entanto, cada uma destas abordagens tem impedimentos, como a necessidade de um especialista humano ou elevado custo computacional. O meta-aprendizado pode superar estes dificuldades por meio do conhecimento acumulado em experimentos anteriores. Assim, o conhecimento é armazenado em uma meta-base cujos atri- butos preditivos são meta-características extraídas de conjuntos de dados, e os atributos alvo representam o desempenho preditivo de pipelines bem sucedidos aplicados a esses conjuntos de dados. Este estudo propõe o uso do meta-aprendizado como base para desenho de um processo iterativo de construção de pipelines para problemas de classificação. Nesse sentido, o sistema pro- posto é responsável por predizer um conjunto diversificado de algoritmos de desbalanceamento e filtros de ruído. Para tal, foi utilizada uma meta-base composta de 130 meta-características e quase 400 conjuntos de dados para induzir meta-regressores com diferentes vieses. O sistema de recomendação possui duas fases, uma on-line e uma off-line. Na fase on-line do sistema de recomendação de pipelines, as meta-características são extraídas de um novo conjunto de dados. Elas são então utilizadas como entrada de meta-regressores que predizem a acurácia balanceada de uma combinação de um pré-processador e um classificador. Como qualquer nú- mero de algoritmos de pré-processamento pode ser aplicado posteriormente, muitas etapas de predição são realizadas sequencialmente até que nenhuma técnica de pré-processamento seja re- comendada. Em cada etapa, as meta-características são extraídas deste novo conjunto de dados pré-processado, e todos os desempenhos para cada combinação são preditos. Se uma técnica de pré-processamento for recomendada, este algoritmo é aplicado ao conjunto de dados, e o pro- cesso é repetido iterativamente. Na fase off-line, o meta-conjunto de meta-dados, uma coleção de meta-características com acurácia balanceada de cada combinação de algoritmos e classifica- dores de pré-processamento disponíveis, pode ser incrementado pela introdução do desempenho calculado e das meta-características do novo conjunto de dados. Cada meta-regressor é então atualizado ou retreinado. No contexto das combinações selecionadas no papel, 40 meta-modelos são gerados para prever cada desempenho. Na avaliação do sistema, foram analisadas as quatro etapas do meta-aprendizado: a meta-base, o nível meta, o nível base e o nível de construção dos pipelines. Os resultados foram comparados a dois baselines, o aleatório, no qual o pipeline é construído de ao acaso, e o padrão, no qual o pipeline com melhor desempenho na média é sempre selecionado. Os meta-regressores previram a precisão balanceada das combinações com baixo erro, e alguns superaram os baselines. De acordo com os resultados experimentais, a estratégia proposta teve melhor desempenho do que as baselines.Submitted by Talles Brendo (170156583@aluno.unb.br) on 2021-05-17T18:33:06Z No. of bitstreams: 1 2020_JulianaMayumiHosoume_tcc.pdf: 1154648 bytes, checksum: 159b639198c975aa8fafc86cc7171173 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2021-05-21T13:26:58Z (GMT) No. of bitstreams: 1 2020_JulianaMayumiHosoume_tcc.pdf: 1154648 bytes, checksum: 159b639198c975aa8fafc86cc7171173 (MD5)Made available in DSpace on 2021-05-21T13:26:58Z (GMT). No. of bitstreams: 1 2020_JulianaMayumiHosoume_tcc.pdf: 1154648 bytes, checksum: 159b639198c975aa8fafc86cc7171173 (MD5)Machine learning has a multitude of algorithms and preprocessing techniques that address clas- sification problems. Combining them to design the best data classification pipeline is a challeng- ing task. Different approaches have already been investigated, including handmade pipelines, Bayesian optimization and genetic programming. Nevertheless, each of these approaches has hindrances, such as the need of a human specialist for handmade pipelines, or the computa- tional cost of Bayesian optimization, and genetic programming. Meta-learning can overcome these drawbacks through knowledge about pipelines accumulated from previous experiments. Thus, the knowledge is stored in a meta-base whose predictive attributes are meta-features extracted from datasets, and the target attributes represent the predictive performance of suc- cessful pipelines applied to these datasets. This study proposes the use of meta-learning as a pipeline builder to predict the performance of combinations of preprocessing techniques, like noise detection and unbalanced algorithms for classification problems. For such, a meta-base composed of 130 meta-features and almost 400 datasets were used to induce meta-regressors with different biases. The recommendation system has two phases, an on-line and an off-line. In the on-line phase of the recommendation system of pipelines, the metafeatures are extracted from a new data set. They are then used as input meta-regressors that predict the balanced accuracy of a combination of a pre-processor and a classifier. As any number of preprocessing algorithms can be applied later, many prediction steps are performed sequentially until no preprocessing technique is recommended. At each step, meta-features are extracted from this new preprocessed data set, and all performances for each combination are predicted. If a pre-processing technique is recommended, this algorithm is applied to the data set, and the process is repeated iteratively. In the off-line phase, the meta-data set, a collection of meta-characteristics with balanced accu- racy of each combination of available preprocessing algorithms and classifiers, can be enhanced by introducing the calculated performance and meta-characteristics of the new data set. Each meta-regressor is then updated or re-trained. In the context of the selected combinations on paper, 40 meta-models are generated to predict each performance. In the system evaluation, the four steps of the meta-learning were analyzed: the meta-base, the meta level, the base level and the construction level of the pipelines. The results were compared to two baselines, the random baseline, in which the pipeline is constructed according to chance, and the default baseline, in which the pipeline with the best performance on average is always selected. The meta-regressors predicted the balanced accuracy of the combinations with low error, and some outperformed the baselines. According to the experimental results, the proposed strategy performed better than the baselines.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.info:eu-repo/semantics/openAccessAprendizado de máquinaComputadores em pipelineRecomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoMLinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2021-05-21T13:26:58Z2021-05-21T13:26:58Z2020-12-09porreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/27587/2/license.txt21554873e56ad8ddc69c092699b98f95MD52ORIGINAL2020_JulianaMayumiHosoume_tcc.pdf2020_JulianaMayumiHosoume_tcc.pdfapplication/pdf1154648http://bdm.unb.br/xmlui/bitstream/10483/27587/1/2020_JulianaMayumiHosoume_tcc.pdf159b639198c975aa8fafc86cc7171173MD5110483/275872021-05-21 10:26:58.386oai:bdm.unb.br:10483/27587w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712021-05-21T13:26:58Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
title Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
spellingShingle Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
Hosoume, Juliana Mayumi
Aprendizado de máquina
Computadores em pipeline
title_short Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
title_full Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
title_fullStr Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
title_full_unstemmed Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
title_sort Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML
author Hosoume, Juliana Mayumi
author_facet Hosoume, Juliana Mayumi
author_role author
dc.contributor.author.fl_str_mv Hosoume, Juliana Mayumi
dc.contributor.advisor1.fl_str_mv Garcia, Luís Paulo Faina
contributor_str_mv Garcia, Luís Paulo Faina
dc.subject.keyword.pt_BR.fl_str_mv Aprendizado de máquina
Computadores em pipeline
topic Aprendizado de máquina
Computadores em pipeline
description Trabalho de conclusão de curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2020.
publishDate 2020
dc.date.submitted.none.fl_str_mv 2020-12-09
dc.date.accessioned.fl_str_mv 2021-05-21T13:26:58Z
dc.date.available.fl_str_mv 2021-05-21T13:26:58Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv HOSOUME, Juliana Mayumi. Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML. 2020. 73 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020.
dc.identifier.uri.fl_str_mv https://bdm.unb.br/handle/10483/27587
identifier_str_mv HOSOUME, Juliana Mayumi. Recomendação de técnicas de pré-processamento por meta-aprendizado no contexto de AutoML. 2020. 73 f., il. Trabalho de conclusão de curso (Bacharelado em Ciência da Computação)—Universidade de Brasília, Brasília, 2020.
url https://bdm.unb.br/handle/10483/27587
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Monografias da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Biblioteca Digital de Monografias da UnB
collection Biblioteca Digital de Monografias da UnB
bitstream.url.fl_str_mv http://bdm.unb.br/xmlui/bitstream/10483/27587/2/license.txt
http://bdm.unb.br/xmlui/bitstream/10483/27587/1/2020_JulianaMayumiHosoume_tcc.pdf
bitstream.checksum.fl_str_mv 21554873e56ad8ddc69c092699b98f95
159b639198c975aa8fafc86cc7171173
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv bdm@bce.unb.br||patricia@bce.unb.br
_version_ 1801493148367585280