Label noise injection methods for model robustness assessment in fraud detection datasets
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10362/112794 |
Resumo: | Internship Report presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics |
id |
RCAP_5ed3a696c3da951d4585005d5962552a |
---|---|
oai_identifier_str |
oai:run.unl.pt:10362/112794 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Label noise injection methods for model robustness assessment in fraud detection datasetsLabel noiseFraud detectionRandom ForestLightGBMModel robustnessHyperparameter importanceRótulos IncorretosDeteção de FraudeRobustezImportância dos Hiper-parâmetrosInternship Report presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced AnalyticsLabel noise is a common issue in real-life applications of machine learning for fraud detection, that can lead to sub-optimal decisions during the model building phase, and, ultimately, lead to poor model performance. A key factor to the impact of noisy data on the performance of a model is the algorithm used to train and its robustness to label noise. In this work,we studied the robustness of the models generated by two different supervised tree-based algorithms, Random Forest and LightGBM, to different types of random and not at random artificial label noise injection techniques, at different percentages of noise, and using different datasets to both train and evaluate them. We also observed the impacts of label noise in the evaluation of the performance of a model. Finally, we analyzed the importance of the different hyperparameters of both algorithms in their performance.We show that both algorithms are robust to random label noise at different noise percentages, however they fail to separate between the classes when in the presence of noise not at random. We also show that, for random label noise, the correlation between the model performance over the noisy validation set and the test set decreases as we increase the noise percentage, however, for noise not at random there is no obvious correlation between the two sets. Finally, we conclude which hyperparameters are the most relevant for the performance of Random Forest models in the presence of random label noise, and in most cases, neither of the studied hyperparameters for LightGBM seem to be more relevant than the others for model performance.Um problema comum na aplicação de técnicas de aprendizagem automática para a deteção de fraude é a rotulagem incorreta das instâncias, que pode levar a decisões sub-ótimas durante a fase de construção do modelo, e assim levar a que o mesmo tenha baixo desempenho. Um fator-chave do impacto que a rotulagem incorreta tem no desempenho de um modelo é o algoritmo usado na sua construção e o quão robusto é. Neste trabalho, estudámos a robustez de modelos gerados através de dois tipos diferentes de algoritmos de aprendizagem supervisionado baseados em árvores de decisão, Random Forest e LightGBM, a diferentes tipos de métodos de injeção de ruído, uns aleatórios e outros determinísticos. Avaliámos os resultados adicionando diferentes percentagens de perturbação no treino e na validação e analisámos o impacto do ruído tanto no treino, como na avaliação do desempenho do modelo. Por fim, analisámos a importância dos diferentes hiper-parâmetros têm para o aumento do nível de desempenho do modelo. Os nossos resultados mostram que ambos os algoritmos são robustos a diferentes percentagens de rótulos incorretos, quando estes são introduzidos de forma aleatória, contudo os algoritmos não conseguem distinguir entre casos de fraude e de não fraude quando são usados métodos determinísticos. Vamos também mostrar que, para rótulos incorretos introduzidos de forma aleatória, a correlação entre o desempenho de um modelo nos dados de validação com ruído e o desempenho do modelo nos dados de teste sem ruído, diminui à medida que aumentamos a percentagem de rótulos incorretos. Porém, para métodos determinísticos de inserção de rótulos incorretos, não se verifica nenhuma correlação entre os conjuntos de dados. Concluímos quais os hiper-parâmetros que são mais relevantes para o desempenho dos modelos de Random Forest quando consideramos a inserção aleatória de rótulos incorretos, e que para LightGBM, na maior parte das vezes, nenhum dos hiper-parâmetros estudados se parece destacar quando consideramos o desempenho do modelo.Castelli, MauroSilva, Maria Inês Pastor Pereira daFerreira, João Guilherme Simões BravoRUNSantos, Sofia Jerónimo dos2021-03-01T15:45:36Z2021-01-112021-01-11T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/112794TID:202654672enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T04:56:09Zoai:run.unl.pt:10362/112794Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:42:13.068686Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Label noise injection methods for model robustness assessment in fraud detection datasets |
title |
Label noise injection methods for model robustness assessment in fraud detection datasets |
spellingShingle |
Label noise injection methods for model robustness assessment in fraud detection datasets Santos, Sofia Jerónimo dos Label noise Fraud detection Random Forest LightGBM Model robustness Hyperparameter importance Rótulos Incorretos Deteção de Fraude Robustez Importância dos Hiper-parâmetros |
title_short |
Label noise injection methods for model robustness assessment in fraud detection datasets |
title_full |
Label noise injection methods for model robustness assessment in fraud detection datasets |
title_fullStr |
Label noise injection methods for model robustness assessment in fraud detection datasets |
title_full_unstemmed |
Label noise injection methods for model robustness assessment in fraud detection datasets |
title_sort |
Label noise injection methods for model robustness assessment in fraud detection datasets |
author |
Santos, Sofia Jerónimo dos |
author_facet |
Santos, Sofia Jerónimo dos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Castelli, Mauro Silva, Maria Inês Pastor Pereira da Ferreira, João Guilherme Simões Bravo RUN |
dc.contributor.author.fl_str_mv |
Santos, Sofia Jerónimo dos |
dc.subject.por.fl_str_mv |
Label noise Fraud detection Random Forest LightGBM Model robustness Hyperparameter importance Rótulos Incorretos Deteção de Fraude Robustez Importância dos Hiper-parâmetros |
topic |
Label noise Fraud detection Random Forest LightGBM Model robustness Hyperparameter importance Rótulos Incorretos Deteção de Fraude Robustez Importância dos Hiper-parâmetros |
description |
Internship Report presented as the partial requirement for obtaining a Master's degree in Data Science and Advanced Analytics |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-03-01T15:45:36Z 2021-01-11 2021-01-11T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10362/112794 TID:202654672 |
url |
http://hdl.handle.net/10362/112794 |
identifier_str_mv |
TID:202654672 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799138034263785472 |