Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain

Detalhes bibliográficos
Autor(a) principal: Cardoso, João Francisco Albuquerque de Campos
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/102124
Resumo: Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
id RCAP_5296823b5244c2ea5b872e9326d13116
oai_identifier_str oai:estudogeral.uc.pt:10316/102124
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud DomainGerador de Dados de Fraude: Modelação de Dados Sequenciais com Privacidade no Domínio da Fraude FinanceiraMachine LearningGenerative ModellingVariational AutoencoderDados TabularesDados SequenciaisMachine LearningGenerative ModellingVariational AutoencoderTabular DataSequence DataDissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e TecnologiaNos dias de hoje, a necessidade de ter dados é enorme e a sua recolha pode ser díficil. No domínio da fraude, milhões de transações são processadas diariamente por bancos e processadores de pagamentos que dependem de algoritmos de Machine Learning para detetar e prevenir fraude. Isto é essencial, visto que o fluxo de transações é tão elevado que não é viável que todas as transações sejam revistas por peritos. Para poderem realizar tarefas de classificação afim de discriminar entre transações fraudulentas e não fraudulentas, estes algoritmos precisam de ser treinados com dados de alta qualidade que podem ser dispendiosos de obter e que nem sempre podem ser preservados como dados históricos pelas empresas que prestam este tipo de serviços. Uma solução para este problema pode passar pela criação de um algoritmo capaz de gerar dados sintéticos, com as mesmas características de dados de transações reais, que possam ser armazenados sem comprometer a segurança e a privacidade dos utilizadores. Tais algoritmos são chamados de Modelos Generativos. A Modelação Generativa surgiu há bastante tempo mas tem vindo a tornar-se cada vez mais um tópico da moda nos últimos anos devido ao aparecimento de modelos Deep Learning, tais como Generative Adversarial Networks (GANs) e Variational Autoencoder (VAEs). Neste trabalho fornecemos uma revisão da literatura sobre o Estado da Arte de Modelação Generativa para dados tabulares, lidando também com a sequencialidade e dependência temporal dos mesmos, com foco no domínio da deteção de fraude. De seguida, apresentamos um método inovador, baseado em VAEs, com o objectivo de gerar dados sintéticos, tendo em conta a sequencialidade dos mesmos, separando a geração de dados tabulares e dados sequenciais com modelos generativos que se focam em cada tarefa. Experimentamos os modelos focados em dados tabulares e avaliamos o seu desempenho relativamente à fidelidade e utilidade dos dados sintéticos em tarefas de deteção de fraude, usando conjuntos de dados reais da indústria da Banca e Pagamentos, comparando dados reais com dados sintéticos. Os resultados destas experiências mostram sinais encorajadores de que esta abordagem pode ser aplicada ao nosso caso de uso. Em particular, para um dos conjuntos de dados somos capazes de gerar dados sintéticos com algum grau de fidelidade e usabilidade com diferenças moderadas no desempenho dos modelos de classificação treinados em dados reais e sintéticos.Nowadays the need for data is tremendous and collecting it can be hard. In the fraud domain, millions of transactions are processed everyday by banks and payment processors that rely on Machine Learning algorithms to detect and prevent fraud. This is essential since the flow of transactions is so high that it is not feasible for all transactions to be reviewed by human experts. To be able to perform classification tasks to discriminate between fraudulent and non-fraudulent transactions, these algorithms need to be trained with high quality data that can be costly to get and may not always be preserved as historical data by companies providing this service. One solution to this is through the creation of an algorithm that can generate synthetic data, with the same characteristics of real transaction data, that can be stored without compromising the safety and privacy of the users. Such algorithms are called Generative Models. Generative Modelling has appeared long ago but has become a hot topic in recent years due to the appearance of deep learning models, such as Generative Adversarial Networks (GANs) and Variational Autoencoders (VAEs). In this work we provide a review on the State of the Art of Generative Modelling for tabular data, with and without dealing with time dependencies, focused in the fraud detection domain. We go through some of the methods that have been proposed for tabular data generation, using GANs and VAEs, and the strategies to evaluate their performance. We then present a set of innovative VAE-based methods that aim at generating synthetic data, taking into account the inherent time dependencies, decoupling the generation of tabular data and sequence data, with generators that focus on each task. We experiment the models focused on tabular data and evaluate their performance regarding synthetic data fidelity and usability in fraud detection tasks, with real datasets from the Banking and Payments industry, comparing synthetic data with real data. The results of these experiments show encouraging signs that this approach can be applied to our use case. In particular, for one of the datasets we are able of generating synthetic data with some degree of fidelity and usability with moderate differences in the performance of classification models trained on real and synthetic data.2022-09-152024-09-14T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/102124http://hdl.handle.net/10316/102124TID:203062337engCardoso, João Francisco Albuquerque de Camposinfo:eu-repo/semantics/embargoedAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-10-27T11:08:31Zoai:estudogeral.uc.pt:10316/102124Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:19:11.124013Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
Gerador de Dados de Fraude: Modelação de Dados Sequenciais com Privacidade no Domínio da Fraude Financeira
title Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
spellingShingle Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
Cardoso, João Francisco Albuquerque de Campos
Machine Learning
Generative Modelling
Variational Autoencoder
Dados Tabulares
Dados Sequenciais
Machine Learning
Generative Modelling
Variational Autoencoder
Tabular Data
Sequence Data
title_short Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
title_full Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
title_fullStr Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
title_full_unstemmed Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
title_sort Fraud Data Generator: Modelling Sequence Data with Privacy in the Financial Fraud Domain
author Cardoso, João Francisco Albuquerque de Campos
author_facet Cardoso, João Francisco Albuquerque de Campos
author_role author
dc.contributor.author.fl_str_mv Cardoso, João Francisco Albuquerque de Campos
dc.subject.por.fl_str_mv Machine Learning
Generative Modelling
Variational Autoencoder
Dados Tabulares
Dados Sequenciais
Machine Learning
Generative Modelling
Variational Autoencoder
Tabular Data
Sequence Data
topic Machine Learning
Generative Modelling
Variational Autoencoder
Dados Tabulares
Dados Sequenciais
Machine Learning
Generative Modelling
Variational Autoencoder
Tabular Data
Sequence Data
description Dissertação de Mestrado em Engenharia e Ciência de Dados apresentada à Faculdade de Ciências e Tecnologia
publishDate 2022
dc.date.none.fl_str_mv 2022-09-15
2024-09-14T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/102124
http://hdl.handle.net/10316/102124
TID:203062337
url http://hdl.handle.net/10316/102124
identifier_str_mv TID:203062337
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/embargoedAccess
eu_rights_str_mv embargoedAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134086253510656