Measuring drift impact : a customizable synthetic data generator
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/271956 |
Resumo: | Concept drift, mudança das propriedades estatísticas dos dados com o tempo, é uma característica comum a dados de múltiplos domínios. Ele pode impactar substancialmente a performance de modelos de Aprendizado de Máquina ao longo do tempo. Por esse motivo, o desenvolvimento de métodos para detectar, avaliar e mitigar essas mudanças no comportamento dos dados é crucial para a otimização, ou mesmo a viabilização, da aplicação de modelos de Aprendizado de Máquina à resolução de problemas reais. Em contextos em que há drift expressivo, para a efetiva aplicação de soluções de Aprendizado de Máquina, é desejável compreender com profundidade e utilizar bem informações sobre o fenômeno. Dessa forma, é imprescindível ter à disposição algoritmos com comprovada robustez. Contudo, para avaliar a robustez teórica de algoritmos, a utilização de dados provenientes de contextos reais pode ser um empecilho, visto que o entendimento da dinâmica que gera o dado em contextos reais é frequentemente deficiente ou desconhecido. É difícil dizer com suficiente precisão quando e por quê alterações por drift ocorrem, ou seu impacto esperado na performance de modelos de Aprendizado de Máquina. Uma solução para esse problema é utilizar dados sintéticos. Ao se utilizar dados sintéticos, é possível compreender melhor os efeitos das mudanças nos dados, por implementar no design da aplicação dinâmicas de mudança da distribuição dos dados que sejam explicáveis e mensuráveis. Outro efeito positivo é a possibilidade de comparar e aprimorar algoritmos, por possuir critérios objetivos. Com esse objetivo, foi desenvolvido uma apli cação para geração de dados com concept drift customizável. A aplicação implementa indicativos dos limites teóricos de máxima performance para modelos e indicativos da perda esperada de performance de algoritmos que não tenham abstraído as dinâmicas do drift, iteração a iteração. Por fim, foi feita uma comparação com outras implementações de geradores de dados sintéticos na literatura, qualitativa e quantitativa. Ao contrário de outras implementações na literatura, que carecem de pelo menos uma das seguintes carac terísticas, o gerador de dados proposto é capaz de gerar problemas com diferentes graus de complexidade e com múltiplas dimensões para entrada e saída. Ele é adequado para problemas de classificação, binária ou multiclasse, e de regressão. |
id |
UFRGS-2_9429fbd3cae1fd8078cb3bf97d67d0ee |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/271956 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Reis, Felipe Führ dosTavares, Anderson Rocha2024-02-16T05:00:08Z2023http://hdl.handle.net/10183/271956001195953Concept drift, mudança das propriedades estatísticas dos dados com o tempo, é uma característica comum a dados de múltiplos domínios. Ele pode impactar substancialmente a performance de modelos de Aprendizado de Máquina ao longo do tempo. Por esse motivo, o desenvolvimento de métodos para detectar, avaliar e mitigar essas mudanças no comportamento dos dados é crucial para a otimização, ou mesmo a viabilização, da aplicação de modelos de Aprendizado de Máquina à resolução de problemas reais. Em contextos em que há drift expressivo, para a efetiva aplicação de soluções de Aprendizado de Máquina, é desejável compreender com profundidade e utilizar bem informações sobre o fenômeno. Dessa forma, é imprescindível ter à disposição algoritmos com comprovada robustez. Contudo, para avaliar a robustez teórica de algoritmos, a utilização de dados provenientes de contextos reais pode ser um empecilho, visto que o entendimento da dinâmica que gera o dado em contextos reais é frequentemente deficiente ou desconhecido. É difícil dizer com suficiente precisão quando e por quê alterações por drift ocorrem, ou seu impacto esperado na performance de modelos de Aprendizado de Máquina. Uma solução para esse problema é utilizar dados sintéticos. Ao se utilizar dados sintéticos, é possível compreender melhor os efeitos das mudanças nos dados, por implementar no design da aplicação dinâmicas de mudança da distribuição dos dados que sejam explicáveis e mensuráveis. Outro efeito positivo é a possibilidade de comparar e aprimorar algoritmos, por possuir critérios objetivos. Com esse objetivo, foi desenvolvido uma apli cação para geração de dados com concept drift customizável. A aplicação implementa indicativos dos limites teóricos de máxima performance para modelos e indicativos da perda esperada de performance de algoritmos que não tenham abstraído as dinâmicas do drift, iteração a iteração. Por fim, foi feita uma comparação com outras implementações de geradores de dados sintéticos na literatura, qualitativa e quantitativa. Ao contrário de outras implementações na literatura, que carecem de pelo menos uma das seguintes carac terísticas, o gerador de dados proposto é capaz de gerar problemas com diferentes graus de complexidade e com múltiplas dimensões para entrada e saída. Ele é adequado para problemas de classificação, binária ou multiclasse, e de regressão.Concept drift, the change of the statistical properties of data over time, is a characteristic common to data from multiple domains. It can substantially impact the performance of Machine Learning models over time. For this reason, developing methods to detect, evalu ate, and mitigate these changes in data behavior is crucial for optimizing or viabilizing the utilization of Machine Learning (ML) models to solve real-world problems. In contexts where expressive drift occurs, it is desirable to understand thoroughly and to effectively utilize information on the phenomenon to apply ML solutions effectively. Hence, it is indispensable to have algorithms with demonstrated robustness. Nevertheless, to evaluate the theoretical robustness of algorithms, using data from real contexts can be a hindrance, for understanding the dynamics that generate the data in real contexts is often deficient or unknown. It is difficult to determine with sufficient precision when and why changes induced by drift occur, nor their expected impact on the performance of ML models. A solution to this problem is to use synthetic data. By using synthetic data, it is possible to better comprehend the effects of the changes in data by making the dynamics of the change of the distributions measurable and explainable by design. Another positive effect is the ability to compare and enhance algorithms, as having measurability and explainabil ity allows the comparison of algorithm performance under drift to be more precise and objective. With this goal, an application for generating data with customizable concept drift has been developed. This application implements indicators of the theoretical limits of maximum achievable performance for models and indicators of expected performance loss for models that have yet to abstract the drift dynamics, iteration by iteration. Finally, a comparison was made with other implementations of synthetic data generators in the literature, comparing qualitative and quantitative characteristics. Contrary to other imple mentations in the literature, which lack at least one of the following characteristics, the proposed data generator can generate problems with varying degrees of complexity and multiple dimensions for input and output. It is suitable for classification problems, binary or multiclass, and regression problems.application/pdfengAprendizado de máquinaDados sintéticosAlgoritmosConcept driftDrift detectionDrift impactMLOpsMeasuring drift impact : a customizable synthetic data generatorMedindo o impacto de drift : um gerador de dados sintéticos customizávelinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Engenharia da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001195953.pdf.txt001195953.pdf.txtExtracted Texttext/plain79103http://www.lume.ufrgs.br/bitstream/10183/271956/2/001195953.pdf.txt947d3513053df75f98bc4a630dac02d9MD52ORIGINAL001195953.pdfTexto completoapplication/pdf2653701http://www.lume.ufrgs.br/bitstream/10183/271956/1/001195953.pdf3dbb3d87704358a3e508935b24052a81MD5110183/2719562024-02-23 05:03:16.640405oai:www.lume.ufrgs.br:10183/271956Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-02-23T08:03:16Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Measuring drift impact : a customizable synthetic data generator |
dc.title.alternative.en.fl_str_mv |
Medindo o impacto de drift : um gerador de dados sintéticos customizável |
title |
Measuring drift impact : a customizable synthetic data generator |
spellingShingle |
Measuring drift impact : a customizable synthetic data generator Reis, Felipe Führ dos Aprendizado de máquina Dados sintéticos Algoritmos Concept drift Drift detection Drift impact MLOps |
title_short |
Measuring drift impact : a customizable synthetic data generator |
title_full |
Measuring drift impact : a customizable synthetic data generator |
title_fullStr |
Measuring drift impact : a customizable synthetic data generator |
title_full_unstemmed |
Measuring drift impact : a customizable synthetic data generator |
title_sort |
Measuring drift impact : a customizable synthetic data generator |
author |
Reis, Felipe Führ dos |
author_facet |
Reis, Felipe Führ dos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Reis, Felipe Führ dos |
dc.contributor.advisor1.fl_str_mv |
Tavares, Anderson Rocha |
contributor_str_mv |
Tavares, Anderson Rocha |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Dados sintéticos Algoritmos |
topic |
Aprendizado de máquina Dados sintéticos Algoritmos Concept drift Drift detection Drift impact MLOps |
dc.subject.eng.fl_str_mv |
Concept drift Drift detection Drift impact MLOps |
description |
Concept drift, mudança das propriedades estatísticas dos dados com o tempo, é uma característica comum a dados de múltiplos domínios. Ele pode impactar substancialmente a performance de modelos de Aprendizado de Máquina ao longo do tempo. Por esse motivo, o desenvolvimento de métodos para detectar, avaliar e mitigar essas mudanças no comportamento dos dados é crucial para a otimização, ou mesmo a viabilização, da aplicação de modelos de Aprendizado de Máquina à resolução de problemas reais. Em contextos em que há drift expressivo, para a efetiva aplicação de soluções de Aprendizado de Máquina, é desejável compreender com profundidade e utilizar bem informações sobre o fenômeno. Dessa forma, é imprescindível ter à disposição algoritmos com comprovada robustez. Contudo, para avaliar a robustez teórica de algoritmos, a utilização de dados provenientes de contextos reais pode ser um empecilho, visto que o entendimento da dinâmica que gera o dado em contextos reais é frequentemente deficiente ou desconhecido. É difícil dizer com suficiente precisão quando e por quê alterações por drift ocorrem, ou seu impacto esperado na performance de modelos de Aprendizado de Máquina. Uma solução para esse problema é utilizar dados sintéticos. Ao se utilizar dados sintéticos, é possível compreender melhor os efeitos das mudanças nos dados, por implementar no design da aplicação dinâmicas de mudança da distribuição dos dados que sejam explicáveis e mensuráveis. Outro efeito positivo é a possibilidade de comparar e aprimorar algoritmos, por possuir critérios objetivos. Com esse objetivo, foi desenvolvido uma apli cação para geração de dados com concept drift customizável. A aplicação implementa indicativos dos limites teóricos de máxima performance para modelos e indicativos da perda esperada de performance de algoritmos que não tenham abstraído as dinâmicas do drift, iteração a iteração. Por fim, foi feita uma comparação com outras implementações de geradores de dados sintéticos na literatura, qualitativa e quantitativa. Ao contrário de outras implementações na literatura, que carecem de pelo menos uma das seguintes carac terísticas, o gerador de dados proposto é capaz de gerar problemas com diferentes graus de complexidade e com múltiplas dimensões para entrada e saída. Ele é adequado para problemas de classificação, binária ou multiclasse, e de regressão. |
publishDate |
2023 |
dc.date.issued.fl_str_mv |
2023 |
dc.date.accessioned.fl_str_mv |
2024-02-16T05:00:08Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/271956 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001195953 |
url |
http://hdl.handle.net/10183/271956 |
identifier_str_mv |
001195953 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/271956/2/001195953.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/271956/1/001195953.pdf |
bitstream.checksum.fl_str_mv |
947d3513053df75f98bc4a630dac02d9 3dbb3d87704358a3e508935b24052a81 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1801224675544530944 |