Classificação binária de dados financeiros em problemas com classes desbalanceadas

Detalhes bibliográficos
Autor(a) principal: Moura, Lucas Fernando
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/19504
Resumo: In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score.
id SCAR_330d27fe46f5fcdad7e9eac3e41ac42f
oai_identifier_str oai:repositorio.ufscar.br:ufscar/19504
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Moura, Lucas FernandoFerreira, Ricardo Felipehttp://lattes.cnpq.br/2355076087945221http://lattes.cnpq.br/1753635846383745https://orcid.org/0000-0001-5555-05262024-02-27T12:58:27Z2024-02-27T12:58:27Z2024-01-29MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504.https://repositorio.ufscar.br/handle/ufscar/19504In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score.Com o intuito de diminuir os riscos e incertezas associados à concessão de crédito, as instituições financeiras estão constantemente explorando métodos para aperfeiçoar o sistema de avaliação creditícia. No mesmo contexto, o crescimento no volume de transações com cartões de crédito resultou no aumento das fraudes, ocasionando perdas bilionárias anuais para as instituições financeiras. Logo, é fundamental que as empresas sejam capazes de detectar efetivamente transações fraudulentas. Uma maneira de minimizar as perdas decorrentes da inadimplência ou da fraude é utilizar métodos estatísticos que gerem resultados próximos à realidade, apresentando uma baixa margem de erro. No entanto, a grande dificuldade na execução desse processo é que esses tipos de dados financeiros são desbalanceados, isto é, observamos uma maior proporção de clientes adimplentes e transações legítimas (grupos majoritários) do que de clientes inadimplentes e transações fraudulentas (grupos minoritários). Esse desequilíbrio acarreta em um viés de classificação, uma vez que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, este trabalho tem como proposta realizar um estudo comparativo da performance das máquinas de vetores suporte com a regressão logística na classificação de novas unidades amostrais. Esse estudo será realizado a partir de três conjuntos de dados financeiros com diferentes graus de desbalanceamento, considerando três contextos: (i) sem aplicar técnica alguma para lidar com o desbalanceamento dos conjuntos de dados; (ii) aplicando técnicas de pré-processamento de dados para lidar com os desbalanceamento dos conjuntos de dados; e (iii) utilizando a versão sensível ao custo dos classificadores originais para lidar com o desbalanceamento dos conjuntos de dados. A análise da performance dos classificadores dar-se-á a partir de medidas baseadas na matriz de confusão que tem se mostrado menos sensíveis ao desbalanceamento dos dados, tais como a G-média, o coeficiente de Mathews e o F-Score.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificadores sensíveis ao custoDesbalanceamento de classesMáquinas de vetores suporteMétodos de pré-processamento de dadosRegressão logísticaCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAClassificação binária de dados financeiros em problemas com classes desbalanceadasBinary classification of financial data in problems with imbalanced datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALMonografia TCC - Lucas Moura.pdfMonografia TCC - Lucas Moura.pdfMonografia TCCapplication/pdf609868https://repositorio.ufscar.br/bitstream/ufscar/19504/1/Monografia%20TCC%20-%20Lucas%20Moura.pdf6dbb6d84d199c045bd1d7c2b590b798fMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/19504/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTMonografia TCC - Lucas Moura.pdf.txtMonografia TCC - Lucas Moura.pdf.txtExtracted texttext/plain149444https://repositorio.ufscar.br/bitstream/ufscar/19504/3/Monografia%20TCC%20-%20Lucas%20Moura.pdf.txt5b6e399d2b6e866021566683fecf59a9MD53ufscar/195042024-05-14 17:36:07.49oai:repositorio.ufscar.br:ufscar/19504Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T17:36:07Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Classificação binária de dados financeiros em problemas com classes desbalanceadas
dc.title.alternative.eng.fl_str_mv Binary classification of financial data in problems with imbalanced data
title Classificação binária de dados financeiros em problemas com classes desbalanceadas
spellingShingle Classificação binária de dados financeiros em problemas com classes desbalanceadas
Moura, Lucas Fernando
Classificadores sensíveis ao custo
Desbalanceamento de classes
Máquinas de vetores suporte
Métodos de pré-processamento de dados
Regressão logística
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Classificação binária de dados financeiros em problemas com classes desbalanceadas
title_full Classificação binária de dados financeiros em problemas com classes desbalanceadas
title_fullStr Classificação binária de dados financeiros em problemas com classes desbalanceadas
title_full_unstemmed Classificação binária de dados financeiros em problemas com classes desbalanceadas
title_sort Classificação binária de dados financeiros em problemas com classes desbalanceadas
author Moura, Lucas Fernando
author_facet Moura, Lucas Fernando
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1753635846383745
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0001-5555-0526
dc.contributor.author.fl_str_mv Moura, Lucas Fernando
dc.contributor.advisor1.fl_str_mv Ferreira, Ricardo Felipe
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2355076087945221
contributor_str_mv Ferreira, Ricardo Felipe
dc.subject.por.fl_str_mv Classificadores sensíveis ao custo
Desbalanceamento de classes
Máquinas de vetores suporte
Métodos de pré-processamento de dados
Regressão logística
topic Classificadores sensíveis ao custo
Desbalanceamento de classes
Máquinas de vetores suporte
Métodos de pré-processamento de dados
Regressão logística
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-02-27T12:58:27Z
dc.date.available.fl_str_mv 2024-02-27T12:58:27Z
dc.date.issued.fl_str_mv 2024-01-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/19504
identifier_str_mv MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504.
url https://repositorio.ufscar.br/handle/ufscar/19504
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/19504/1/Monografia%20TCC%20-%20Lucas%20Moura.pdf
https://repositorio.ufscar.br/bitstream/ufscar/19504/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/19504/3/Monografia%20TCC%20-%20Lucas%20Moura.pdf.txt
bitstream.checksum.fl_str_mv 6dbb6d84d199c045bd1d7c2b590b798f
f337d95da1fce0a22c77480e5e9a7aec
5b6e399d2b6e866021566683fecf59a9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136433646895104