Máquinas de vetores suporte com aplicação em classificação de crédito

Detalhes bibliográficos
Autor(a) principal: Brandini, Bruno Matheus
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/17841
Resumo: The credit granting represents one of the products with the highest profitability within a financial institution. However, to ensure profit, institutions must know to whom they lend their capital. In this scenario, a fundamental tool to assist in decision-making regarding the granting of funds is the credit risk which purpose is to predict the creditworthiness of a borrower, classifying the customer as non-defaulting or a defaulting customer. Therefore, this tool must reproduce results close to reality with a low margin of error to avoid financial losses for the credit-granting institution. Nonetheless, in the context of credit analysis, the databases used in the credit risk contain more observations referring to non-defaulting customers (majority class) than defaulting customers (minority class) turning them imbalanced and prone to lead to bias in credit risk. Alternatives to overcome such bias in the classification and adequately deal with the problem of class imbalance is to apply a pre-processing in the data set to balance the classes or modify the classification algorithm. Therefore, in the credit risk context, this work proposes to apply the support vector machine classifier in the discrimination of customers requesting a loan, comparing the performance of this technique both in balanced and imbalanced data sets. In the former will be used the oversampling SMOTE method and in the later the cost-sensitive support vector machine methodology since it is proposed to deal with imbalaced classes. Furthermore, this work compare the performance of the support vector machine classifier with other classifiers commonly used in the credit scenario, such as logistic regression and random forest. The study will be applied to real data and evaluated regards to some metrics that measure the prediction performance.
id SCAR_a19a1e85f67e8032e415d3446fd825b2
oai_identifier_str oai:repositorio.ufscar.br:ufscar/17841
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Brandini, Bruno MatheusFerreira, Ricardo Felipehttp://lattes.cnpq.br/2355076087945221Zuanetti, Daiane Aparecidahttp://lattes.cnpq.br/8352484284929824http://lattes.cnpq.br/43696996414217187db3c344-680b-4563-ba7f-2e7118da3afa2023-04-20T18:50:05Z2023-04-20T18:50:05Z2023-03-22BRANDINI, Bruno Matheus. Máquinas de vetores suporte com aplicação em classificação de crédito. 2023. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17841.https://repositorio.ufscar.br/handle/ufscar/17841The credit granting represents one of the products with the highest profitability within a financial institution. However, to ensure profit, institutions must know to whom they lend their capital. In this scenario, a fundamental tool to assist in decision-making regarding the granting of funds is the credit risk which purpose is to predict the creditworthiness of a borrower, classifying the customer as non-defaulting or a defaulting customer. Therefore, this tool must reproduce results close to reality with a low margin of error to avoid financial losses for the credit-granting institution. Nonetheless, in the context of credit analysis, the databases used in the credit risk contain more observations referring to non-defaulting customers (majority class) than defaulting customers (minority class) turning them imbalanced and prone to lead to bias in credit risk. Alternatives to overcome such bias in the classification and adequately deal with the problem of class imbalance is to apply a pre-processing in the data set to balance the classes or modify the classification algorithm. Therefore, in the credit risk context, this work proposes to apply the support vector machine classifier in the discrimination of customers requesting a loan, comparing the performance of this technique both in balanced and imbalanced data sets. In the former will be used the oversampling SMOTE method and in the later the cost-sensitive support vector machine methodology since it is proposed to deal with imbalaced classes. Furthermore, this work compare the performance of the support vector machine classifier with other classifiers commonly used in the credit scenario, such as logistic regression and random forest. The study will be applied to real data and evaluated regards to some metrics that measure the prediction performance.A concessão de crédito representa um dos produtos com maior rentabilidade dentro de uma instituição financeira. Entretanto, para garantir lucro é primordial que as instituições saibam a quem estão concedendo seu capital. Nesse cenário, uma ferramenta fundamental para auxiliar na tomada de decisão da concessão de recursos é a classificação de crédito, que tem a finalidade de predizer a qual classe um cliente pertence, se ele tem um comportamento inadimplente ou adimplente. Logo, é de suma importância que essa ferramenta reproduza resultados próximos da realidade, com baixa margem de erro para assim evitar prejuízos financeiros para a empresa concedente do crédito. Entretanto, na conjuntura de análise de crédito, os bancos de dados são, em sua maioria, desbalanceados, uma vez que contém mais observações referentes a clientes adimplentes (classe majoritária) do que clientes inadimplentes (classe minoritária), o que pode acarretar em um viés de classificação. Como uma alternativa para superar tal viés na classificação, podemos aplicar um pré-processamento no conjunto de dados, visando equilibrar as classes, ou realizar modificações no algoritmo de classificação, para que este possa lidar adequadamente com o problema de desequilíbrio entre as classes. Portanto, este trabalho tem como proposta aplicar o classificador de máquina de vetores suporte, no contexto de classificação de crédito, para discriminação de clientes solicitantes de crédito, comparando o desempenho da técnica tanto em conjuntos de dados balanceados, a partir do método de sobreamostragem SMOTE, como também em dados desbalanceados, ao qual também aplicaremos a metodologia de máquina de vetores suporte sensível ao custo, uma técnica proposta para lidar com o desequilíbrio de classes. Além disso, comparamos o desempenho do classificador de máquina de vetores suporte com outros classificadores habitualmente utilizados no cenário de crédito, como a regressão logística e florestas aleatórias. Para esse fim, o estudo será aplicado em conjuntos de dados reais, e avaliado em termos de algumas métricas que mensuram o desempenho de predição.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessClassificaçãoCréditoDados desbalanceadosMáquinas de vetores suporteSMOTECIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOSCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADASMáquinas de vetores suporte com aplicação em classificação de créditoSupport vector machine applied to credit riskinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis6006008c64d439-6f5c-4dfc-88f1-144b0ce1ae8ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALMonografia TCC - Bruno Brandini.pdfMonografia TCC - Bruno Brandini.pdfMonografiaapplication/pdf1382083https://repositorio.ufscar.br/bitstream/ufscar/17841/1/Monografia%20TCC%20-%20Bruno%20Brandini.pdf8724cbbc24df741a8391d8632801b31eMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/17841/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTMonografia TCC - Bruno Brandini.pdf.txtMonografia TCC - Bruno Brandini.pdf.txtExtracted texttext/plain162838https://repositorio.ufscar.br/bitstream/ufscar/17841/3/Monografia%20TCC%20-%20Bruno%20Brandini.pdf.txt2d54a1d096221c944b834dfbc942c277MD53THUMBNAILMonografia TCC - Bruno Brandini.pdf.jpgMonografia TCC - Bruno Brandini.pdf.jpgIM Thumbnailimage/jpeg6638https://repositorio.ufscar.br/bitstream/ufscar/17841/4/Monografia%20TCC%20-%20Bruno%20Brandini.pdf.jpg3c529c445e411eb1a4ffdb717c441c8eMD54ufscar/178412023-09-18 18:32:36.844oai:repositorio.ufscar.br:ufscar/17841Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:36Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Máquinas de vetores suporte com aplicação em classificação de crédito
dc.title.alternative.eng.fl_str_mv Support vector machine applied to credit risk
title Máquinas de vetores suporte com aplicação em classificação de crédito
spellingShingle Máquinas de vetores suporte com aplicação em classificação de crédito
Brandini, Bruno Matheus
Classificação
Crédito
Dados desbalanceados
Máquinas de vetores suporte
SMOTE
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
title_short Máquinas de vetores suporte com aplicação em classificação de crédito
title_full Máquinas de vetores suporte com aplicação em classificação de crédito
title_fullStr Máquinas de vetores suporte com aplicação em classificação de crédito
title_full_unstemmed Máquinas de vetores suporte com aplicação em classificação de crédito
title_sort Máquinas de vetores suporte com aplicação em classificação de crédito
author Brandini, Bruno Matheus
author_facet Brandini, Bruno Matheus
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/4369699641421718
dc.contributor.author.fl_str_mv Brandini, Bruno Matheus
dc.contributor.advisor1.fl_str_mv Ferreira, Ricardo Felipe
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2355076087945221
dc.contributor.advisor-co1.fl_str_mv Zuanetti, Daiane Aparecida
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/8352484284929824
dc.contributor.authorID.fl_str_mv 7db3c344-680b-4563-ba7f-2e7118da3afa
contributor_str_mv Ferreira, Ricardo Felipe
Zuanetti, Daiane Aparecida
dc.subject.por.fl_str_mv Classificação
Crédito
Dados desbalanceados
Máquinas de vetores suporte
SMOTE
topic Classificação
Crédito
Dados desbalanceados
Máquinas de vetores suporte
SMOTE
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::ANALISE DE DADOS
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE E ESTATISTICA APLICADAS
description The credit granting represents one of the products with the highest profitability within a financial institution. However, to ensure profit, institutions must know to whom they lend their capital. In this scenario, a fundamental tool to assist in decision-making regarding the granting of funds is the credit risk which purpose is to predict the creditworthiness of a borrower, classifying the customer as non-defaulting or a defaulting customer. Therefore, this tool must reproduce results close to reality with a low margin of error to avoid financial losses for the credit-granting institution. Nonetheless, in the context of credit analysis, the databases used in the credit risk contain more observations referring to non-defaulting customers (majority class) than defaulting customers (minority class) turning them imbalanced and prone to lead to bias in credit risk. Alternatives to overcome such bias in the classification and adequately deal with the problem of class imbalance is to apply a pre-processing in the data set to balance the classes or modify the classification algorithm. Therefore, in the credit risk context, this work proposes to apply the support vector machine classifier in the discrimination of customers requesting a loan, comparing the performance of this technique both in balanced and imbalanced data sets. In the former will be used the oversampling SMOTE method and in the later the cost-sensitive support vector machine methodology since it is proposed to deal with imbalaced classes. Furthermore, this work compare the performance of the support vector machine classifier with other classifiers commonly used in the credit scenario, such as logistic regression and random forest. The study will be applied to real data and evaluated regards to some metrics that measure the prediction performance.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-04-20T18:50:05Z
dc.date.available.fl_str_mv 2023-04-20T18:50:05Z
dc.date.issued.fl_str_mv 2023-03-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv BRANDINI, Bruno Matheus. Máquinas de vetores suporte com aplicação em classificação de crédito. 2023. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17841.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/17841
identifier_str_mv BRANDINI, Bruno Matheus. Máquinas de vetores suporte com aplicação em classificação de crédito. 2023. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17841.
url https://repositorio.ufscar.br/handle/ufscar/17841
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 8c64d439-6f5c-4dfc-88f1-144b0ce1ae8e
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/17841/1/Monografia%20TCC%20-%20Bruno%20Brandini.pdf
https://repositorio.ufscar.br/bitstream/ufscar/17841/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/17841/3/Monografia%20TCC%20-%20Bruno%20Brandini.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/17841/4/Monografia%20TCC%20-%20Bruno%20Brandini.pdf.jpg
bitstream.checksum.fl_str_mv 8724cbbc24df741a8391d8632801b31e
f337d95da1fce0a22c77480e5e9a7aec
2d54a1d096221c944b834dfbc942c277
3c529c445e411eb1a4ffdb717c441c8e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136421250629632