Fraude de cartão de crédito: como a estatística e o machine learning se conversam
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/11/11134/tde-14012021-200042/ |
Resumo: | A fraude de cartão de crédito é um mecanismo financeiro responsável por movimentar ilegalmente bilhões de dólares todos os anos, com implicações onerosas para clientes, redes de cartão de crédito e seguradoras. Diante disso, buscar mecanismos que permitam captar situações fraudulentas é um importante movimento para que se possa reduzir os prejuízos tangíveis e intangíveis causados no setor. Dois destes mecanismos são a Estatística e o Machine Learning, áreas que, embora muitas vezes consideradas excludentes, apresentam um potencial sinérgico capaz de oferecer resultados mais consistentes. Nesse sentido, este trabalho buscou explorar tal potencial a partir da utilização de um conjunto de modelos estatísticas e algoritmos de Machine Learning. Para tanto, foi realizada uma Revisão Bibliográfica Sistemática acerca da utilização de algoritmos de Machine Learning em situações de fraude de cartão de crédito, com base nos artigos disponíveis no portal Web of Science e publicados no período de 2008 a 2018. Em seguida, a partir de um conjunto de dados sobre fraude de cartão de crédito disponível na plataforma Kaggle, foram sorteados sete grupos amostrais, por meio de amostragem progressiva, respeitando o balanceamento dos dados, com 30, 60, 120, 180, 360, 540 e 984 observações. Para as análises estatísticas, os conjuntos foram submetidos à NP-ANOVA, NP-MANOVA, Regressão Logarítmica, Análises Discriminantes Linear e Quadrática, Mínimos Quadrados Parciais e à Regressão Logística. Para as classificações por meio do Machine Learning, foram utilizados os algoritmos Naive Bayes, Random Forest, Multilayer Perceptron, CART, K-NN e Support Vector Machine. Os resultados revelaram dois movimentos principais: com base na revisão bibliográfica realizada, foi observado que os principais algoritmos utilizados na detecção de fraude de cartão de crédito são a Regressão Logística, Random Forest, Multilayer Perceptron, Naive Bayes, C4.5 e Redes Neurais. Os melhores desempenhos, considerando o levantamento bibliográfico, foram obtidos através dos algoritmos Naive Bayes, Random Forest e Random Tree. Além disso, a aplicação dos algoritmos e dos métodos estatísticos neste trabalho confirmou que o Random Forest é uma das ferramentas mais eficazes para este tipo de classificação, com bons índices de taxa de acerto e taxa de falsos positivos. Para a taxa de falsos negativos, no entanto, a Regressão Logística, método tradicionalmente estatístico, apresentou melhor desempenho, de modo que, para a busca de um cenário mais assertivo, recomenda-se a utilização de ambos os métodos. |
id |
USP_f132c8e9f6a10d6dd9563dd53865ba31 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-14012021-200042 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Fraude de cartão de crédito: como a estatística e o machine learning se conversamCredit card fraud: how statistics and machine learning talkAlgorithmsAlgoritmosEstatísticaFraudFraudeRevisão bibliográfica sistemáticaStatisticsSystematic reviewA fraude de cartão de crédito é um mecanismo financeiro responsável por movimentar ilegalmente bilhões de dólares todos os anos, com implicações onerosas para clientes, redes de cartão de crédito e seguradoras. Diante disso, buscar mecanismos que permitam captar situações fraudulentas é um importante movimento para que se possa reduzir os prejuízos tangíveis e intangíveis causados no setor. Dois destes mecanismos são a Estatística e o Machine Learning, áreas que, embora muitas vezes consideradas excludentes, apresentam um potencial sinérgico capaz de oferecer resultados mais consistentes. Nesse sentido, este trabalho buscou explorar tal potencial a partir da utilização de um conjunto de modelos estatísticas e algoritmos de Machine Learning. Para tanto, foi realizada uma Revisão Bibliográfica Sistemática acerca da utilização de algoritmos de Machine Learning em situações de fraude de cartão de crédito, com base nos artigos disponíveis no portal Web of Science e publicados no período de 2008 a 2018. Em seguida, a partir de um conjunto de dados sobre fraude de cartão de crédito disponível na plataforma Kaggle, foram sorteados sete grupos amostrais, por meio de amostragem progressiva, respeitando o balanceamento dos dados, com 30, 60, 120, 180, 360, 540 e 984 observações. Para as análises estatísticas, os conjuntos foram submetidos à NP-ANOVA, NP-MANOVA, Regressão Logarítmica, Análises Discriminantes Linear e Quadrática, Mínimos Quadrados Parciais e à Regressão Logística. Para as classificações por meio do Machine Learning, foram utilizados os algoritmos Naive Bayes, Random Forest, Multilayer Perceptron, CART, K-NN e Support Vector Machine. Os resultados revelaram dois movimentos principais: com base na revisão bibliográfica realizada, foi observado que os principais algoritmos utilizados na detecção de fraude de cartão de crédito são a Regressão Logística, Random Forest, Multilayer Perceptron, Naive Bayes, C4.5 e Redes Neurais. Os melhores desempenhos, considerando o levantamento bibliográfico, foram obtidos através dos algoritmos Naive Bayes, Random Forest e Random Tree. Além disso, a aplicação dos algoritmos e dos métodos estatísticos neste trabalho confirmou que o Random Forest é uma das ferramentas mais eficazes para este tipo de classificação, com bons índices de taxa de acerto e taxa de falsos positivos. Para a taxa de falsos negativos, no entanto, a Regressão Logística, método tradicionalmente estatístico, apresentou melhor desempenho, de modo que, para a busca de um cenário mais assertivo, recomenda-se a utilização de ambos os métodos.The credit card fraud is a illegal financial mechanism responsible for moving billions of dollars each year, with costly implications for customers, credit card companies and insurance companies. That said, looking for mechanisms that allow fraudulent situations to be captured is an important move to reduce the tangible and intangible caused by this illegal action. Two of these mechanisms are Statistics and Machine Learning, areas that, although often considered exclusive, have a synergistic potential capable of offering more consistent results. In this sense, this work sought to explore this potential from the use of a set of statistical models and Machine Learning algorithms. For that, a Systematic Bibliographic Review was carried out, considering the use of Machine Learning algorithms in situations of credit card fraud, based on the articles available on the Web of Science portal and published in the period from 2008 to 2018. Then, from a set of data on credit card fraud available on the Kaggle platform, seven sample groups were drawn by means of progressive sampling, respecting the balance of the data, with 30, 60, 120, 180, 360, 540 and 984 observations. For statistical analysis, the subsets were submitted to NP-ANOVA, NP-MANOVA, Logarithmic Regression, Discriminating Linear and Quadratic Analysis, Partial Least Squares and Logistic Regression. For classifications through Machine Learning, the following algorithms were used: Naive Bayes, Random Forest, Multilayer Perceptron, CART, K-NN and Support Vector Machine. The results showed two main movements: based on the bibliographic review, it was observed that the main algorithms used to detect credit card fraud are Logistic Regression, Random Forest, Multilayer Perceptron, Naive Bayes, C4.5 and Neural Networks. The best performances, considering the bibliographic review, were obtained through the Naive Bayes, Random Forest and Random Tree algorithms. In addition, the application of algorithms and statistical methods in this work confirmed that Random Forest is one of the most effective tools for this type of classification, with good rates of accuracy and false positive rates. For false negatives, however, Logistic Regression, traditionally a statistical method, performed better. This way, based on this work, a guide for a more assertive performance is to use both methods together.Biblioteca Digitais de Teses e Dissertações da USPSarries, Gabriel AdrianSilva, Gabriel Ferreira dos Santos2020-11-30info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/11/11134/tde-14012021-200042/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2021-01-26T20:57:01Zoai:teses.usp.br:tde-14012021-200042Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212021-01-26T20:57:01Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam Credit card fraud: how statistics and machine learning talk |
title |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam |
spellingShingle |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam Silva, Gabriel Ferreira dos Santos Algorithms Algoritmos Estatística Fraud Fraude Revisão bibliográfica sistemática Statistics Systematic review |
title_short |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam |
title_full |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam |
title_fullStr |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam |
title_full_unstemmed |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam |
title_sort |
Fraude de cartão de crédito: como a estatística e o machine learning se conversam |
author |
Silva, Gabriel Ferreira dos Santos |
author_facet |
Silva, Gabriel Ferreira dos Santos |
author_role |
author |
dc.contributor.none.fl_str_mv |
Sarries, Gabriel Adrian |
dc.contributor.author.fl_str_mv |
Silva, Gabriel Ferreira dos Santos |
dc.subject.por.fl_str_mv |
Algorithms Algoritmos Estatística Fraud Fraude Revisão bibliográfica sistemática Statistics Systematic review |
topic |
Algorithms Algoritmos Estatística Fraud Fraude Revisão bibliográfica sistemática Statistics Systematic review |
description |
A fraude de cartão de crédito é um mecanismo financeiro responsável por movimentar ilegalmente bilhões de dólares todos os anos, com implicações onerosas para clientes, redes de cartão de crédito e seguradoras. Diante disso, buscar mecanismos que permitam captar situações fraudulentas é um importante movimento para que se possa reduzir os prejuízos tangíveis e intangíveis causados no setor. Dois destes mecanismos são a Estatística e o Machine Learning, áreas que, embora muitas vezes consideradas excludentes, apresentam um potencial sinérgico capaz de oferecer resultados mais consistentes. Nesse sentido, este trabalho buscou explorar tal potencial a partir da utilização de um conjunto de modelos estatísticas e algoritmos de Machine Learning. Para tanto, foi realizada uma Revisão Bibliográfica Sistemática acerca da utilização de algoritmos de Machine Learning em situações de fraude de cartão de crédito, com base nos artigos disponíveis no portal Web of Science e publicados no período de 2008 a 2018. Em seguida, a partir de um conjunto de dados sobre fraude de cartão de crédito disponível na plataforma Kaggle, foram sorteados sete grupos amostrais, por meio de amostragem progressiva, respeitando o balanceamento dos dados, com 30, 60, 120, 180, 360, 540 e 984 observações. Para as análises estatísticas, os conjuntos foram submetidos à NP-ANOVA, NP-MANOVA, Regressão Logarítmica, Análises Discriminantes Linear e Quadrática, Mínimos Quadrados Parciais e à Regressão Logística. Para as classificações por meio do Machine Learning, foram utilizados os algoritmos Naive Bayes, Random Forest, Multilayer Perceptron, CART, K-NN e Support Vector Machine. Os resultados revelaram dois movimentos principais: com base na revisão bibliográfica realizada, foi observado que os principais algoritmos utilizados na detecção de fraude de cartão de crédito são a Regressão Logística, Random Forest, Multilayer Perceptron, Naive Bayes, C4.5 e Redes Neurais. Os melhores desempenhos, considerando o levantamento bibliográfico, foram obtidos através dos algoritmos Naive Bayes, Random Forest e Random Tree. Além disso, a aplicação dos algoritmos e dos métodos estatísticos neste trabalho confirmou que o Random Forest é uma das ferramentas mais eficazes para este tipo de classificação, com bons índices de taxa de acerto e taxa de falsos positivos. Para a taxa de falsos negativos, no entanto, a Regressão Logística, método tradicionalmente estatístico, apresentou melhor desempenho, de modo que, para a busca de um cenário mais assertivo, recomenda-se a utilização de ambos os métodos. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020-11-30 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-14012021-200042/ |
url |
https://www.teses.usp.br/teses/disponiveis/11/11134/tde-14012021-200042/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256955739963392 |