Classificação binária de dados financeiros em problemas com classes desbalanceadas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/19504 |
Resumo: | In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score. |
id |
SCAR_330d27fe46f5fcdad7e9eac3e41ac42f |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/19504 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Moura, Lucas FernandoFerreira, Ricardo Felipehttp://lattes.cnpq.br/2355076087945221http://lattes.cnpq.br/1753635846383745https://orcid.org/0000-0001-5555-05262024-02-27T12:58:27Z2024-02-27T12:58:27Z2024-01-29MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504.https://repositorio.ufscar.br/handle/ufscar/19504In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score.Com o intuito de diminuir os riscos e incertezas associados à concessão de crédito, as instituições financeiras estão constantemente explorando métodos para aperfeiçoar o sistema de avaliação creditícia. No mesmo contexto, o crescimento no volume de transações com cartões de crédito resultou no aumento das fraudes, ocasionando perdas bilionárias anuais para as instituições financeiras. Logo, é fundamental que as empresas sejam capazes de detectar efetivamente transações fraudulentas. Uma maneira de minimizar as perdas decorrentes da inadimplência ou da fraude é utilizar métodos estatísticos que gerem resultados próximos à realidade, apresentando uma baixa margem de erro. No entanto, a grande dificuldade na execução desse processo é que esses tipos de dados financeiros são desbalanceados, isto é, observamos uma maior proporção de clientes adimplentes e transações legítimas (grupos majoritários) do que de clientes inadimplentes e transações fraudulentas (grupos minoritários). Esse desequilíbrio acarreta em um viés de classificação, uma vez que os algoritmos de aprendizagem tendem a classificar melhor as observações do grupo majoritário. Nesse sentido, este trabalho tem como proposta realizar um estudo comparativo da performance das máquinas de vetores suporte com a regressão logística na classificação de novas unidades amostrais. Esse estudo será realizado a partir de três conjuntos de dados financeiros com diferentes graus de desbalanceamento, considerando três contextos: (i) sem aplicar técnica alguma para lidar com o desbalanceamento dos conjuntos de dados; (ii) aplicando técnicas de pré-processamento de dados para lidar com os desbalanceamento dos conjuntos de dados; e (iii) utilizando a versão sensível ao custo dos classificadores originais para lidar com o desbalanceamento dos conjuntos de dados. A análise da performance dos classificadores dar-se-á a partir de medidas baseadas na matriz de confusão que tem se mostrado menos sensíveis ao desbalanceamento dos dados, tais como a G-média, o coeficiente de Mathews e o F-Score.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificadores sensíveis ao custoDesbalanceamento de classesMáquinas de vetores suporteMétodos de pré-processamento de dadosRegressão logísticaCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAClassificação binária de dados financeiros em problemas com classes desbalanceadasBinary classification of financial data in problems with imbalanced datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALMonografia TCC - Lucas Moura.pdfMonografia TCC - Lucas Moura.pdfMonografia TCCapplication/pdf609868https://repositorio.ufscar.br/bitstream/ufscar/19504/1/Monografia%20TCC%20-%20Lucas%20Moura.pdf6dbb6d84d199c045bd1d7c2b590b798fMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/19504/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTMonografia TCC - Lucas Moura.pdf.txtMonografia TCC - Lucas Moura.pdf.txtExtracted texttext/plain149444https://repositorio.ufscar.br/bitstream/ufscar/19504/3/Monografia%20TCC%20-%20Lucas%20Moura.pdf.txt5b6e399d2b6e866021566683fecf59a9MD53ufscar/195042024-05-14 17:36:07.49oai:repositorio.ufscar.br:ufscar/19504Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T17:36:07Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
dc.title.alternative.eng.fl_str_mv |
Binary classification of financial data in problems with imbalanced data |
title |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
spellingShingle |
Classificação binária de dados financeiros em problemas com classes desbalanceadas Moura, Lucas Fernando Classificadores sensíveis ao custo Desbalanceamento de classes Máquinas de vetores suporte Métodos de pré-processamento de dados Regressão logística CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
title_short |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
title_full |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
title_fullStr |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
title_full_unstemmed |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
title_sort |
Classificação binária de dados financeiros em problemas com classes desbalanceadas |
author |
Moura, Lucas Fernando |
author_facet |
Moura, Lucas Fernando |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1753635846383745 |
dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0001-5555-0526 |
dc.contributor.author.fl_str_mv |
Moura, Lucas Fernando |
dc.contributor.advisor1.fl_str_mv |
Ferreira, Ricardo Felipe |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2355076087945221 |
contributor_str_mv |
Ferreira, Ricardo Felipe |
dc.subject.por.fl_str_mv |
Classificadores sensíveis ao custo Desbalanceamento de classes Máquinas de vetores suporte Métodos de pré-processamento de dados Regressão logística |
topic |
Classificadores sensíveis ao custo Desbalanceamento de classes Máquinas de vetores suporte Métodos de pré-processamento de dados Regressão logística CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
description |
In order to mitigate the risks and uncertainties associated with credit granting, financial institutions are constantly exploring methods to enhance the credit evaluation system. In the same context, the growth in credit card transactions has led to an increase in fraud, resulting in billions of dollars in annual losses for financial institutions. Therefore, it is crucial for companies to effectively detect fraudulent transactions. One way to minimize losses due to default or fraud is to use statistical methods that yield results close to reality, presenting a low margin of error. However, the major challenge in executing this process is that such financial data is imbalanced, meaning there is a higher proportion of non-defaulting customers and legitimate transactions (majority groups) than delinquent customers and fraudulent transactions (minority groups). This imbalance leads to a classification bias, as learning algorithms tend to classify observations from the majority group better. In this context, this work aims to conduct a comparative study of the performance of support vector machines and logistic regression in classifying new sample units. This study will be carried out using three financial datasets with different degrees of imbalance, considering three contexts: (i) without applying any technique to handle the imbalance of the datasets; (ii) applying data preprocessing techniques to handle the imbalance of the datasets; and (iii) using the cost-sensitive version of the original classifiers to handle the imbalance of the datasets. The analysis of classifier performance will be based on measures derived from the confusion matrix that have been shown to be less sensitive to data imbalance, such as the G-mean, Matthews correlation coefficient, and F-score. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-02-27T12:58:27Z |
dc.date.available.fl_str_mv |
2024-02-27T12:58:27Z |
dc.date.issued.fl_str_mv |
2024-01-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/19504 |
identifier_str_mv |
MOURA, Lucas Fernando. Classificação binária de dados financeiros em problemas com classes desbalanceadas. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19504. |
url |
https://repositorio.ufscar.br/handle/ufscar/19504 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Estatística - Es |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Estatística - Es |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/19504/1/Monografia%20TCC%20-%20Lucas%20Moura.pdf https://repositorio.ufscar.br/bitstream/ufscar/19504/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/19504/3/Monografia%20TCC%20-%20Lucas%20Moura.pdf.txt |
bitstream.checksum.fl_str_mv |
6dbb6d84d199c045bd1d7c2b590b798f f337d95da1fce0a22c77480e5e9a7aec 5b6e399d2b6e866021566683fecf59a9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136433646895104 |