Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFS |
Texto Completo: | http://ri.ufs.br/jspui/handle/riufs/17494 |
Resumo: | Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process. |
id |
UFS-2_8fec96f082c6ad2a1b9c65e6e2a8e3af |
---|---|
oai_identifier_str |
oai:ufs.br:riufs/17494 |
network_acronym_str |
UFS-2 |
network_name_str |
Repositório Institucional da UFS |
repository_id_str |
|
spelling |
Santos, Thiago de Jesus dosDaniel, Carlos Raphael AraújoXavier, Cleber Martins2023-04-28T13:40:32Z2023-04-28T13:40:32Z2022-06-03Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022http://ri.ufs.br/jspui/handle/riufs/17494Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process.Devido ao grande avanço computacional, o desenvolvimento de modelos na área de crédito com o intuito de classificar o tipo dos clientes, mensurar a probabilidade de inadimplência e outras informações têm sido sofisticado pelas técnicas de Machine Learning. Neste contexto, o presente estudo teve como objetivo o desenvolvimento de modelos preditivos utilizando técnicas de machine learning, a fim de identificar os clientes que estão mais propensos a não honrar com suas dívidas perante as instituições financeiras dos Estados Unidos vinculadas à entidade US Small Business Administration (SBA). Por meio do estudo descritivo, observou-se um desbalanceamento nos dados ocorrido na variável resposta, referente à inadimplência, pois 82% dos clientes, que gozaram do crédito ofertado pelas instituições, honraram com o pagamento do débito, enquanto 18% tornaram-se inadimplentes. Sendo assim, neste estudo foi proposto que os métodos de regressão logística, Naive Bayes, Decision tree e Random Forest (RF) gerassem modelos treinados em três situações: 1) Cenário real (desbalanceado); 2) Cenário Undersampling e 3) Cenário Oversampling. Os resultados encontrados apontam que a aplicação das técnicas de Undersampling e Oversampling ocasionou a redução da acurácia e sensibilidade na maior parte dos modelos, porém gerou um aumento considerável da especificidade de todos os ajustes. Ademais, o Random Forest obteve as melhores métricas de avaliação entre os demais algoritmos utilizados, independente do cenário de treinamento proposto. Por fim, utilizando como métrica de avaliação a Area Under the Curve (AUC) tem-se que o modelo (M12) gerado pelo algoritmo RF utilizando a técnica de Oversampling resultou no melhor desempenho no processo de generalização.São Cristóvão, SEporCiências atuariaisEnsino de ciências atuariaisAprendizado de máquinaCréditoInadimplênciaBalanceamento dos dadosRandom forestMachine learningCreditDefaultData balancingRandom forestOUTROS::CIENCIAS ATUARIAISAplicações de algoritmos de machine learning para previsão de inadimplência em concessão de créditoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal de SergipeDECAT - Departamento de Estatística e Ciências Atuariais – Ciências Atuariais – São Cristóvão – Presencialreponame:Repositório Institucional da UFSinstname:Universidade Federal de Sergipe (UFS)instacron:UFSinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81475https://ri.ufs.br/jspui/bitstream/riufs/17494/1/license.txt098cbbf65c2c15e1fb2e49c5d306a44cMD51ORIGINALThiago_Jesus_Santos.pdfThiago_Jesus_Santos.pdfapplication/pdf976332https://ri.ufs.br/jspui/bitstream/riufs/17494/2/Thiago_Jesus_Santos.pdf5eb1fa060f7f47838878fbf97ecc6cbfMD52TEXTThiago_Jesus_Santos.pdf.txtThiago_Jesus_Santos.pdf.txtExtracted texttext/plain91151https://ri.ufs.br/jspui/bitstream/riufs/17494/3/Thiago_Jesus_Santos.pdf.txt4078c81f533ee2774e58262712059374MD53THUMBNAILThiago_Jesus_Santos.pdf.jpgThiago_Jesus_Santos.pdf.jpgGenerated Thumbnailimage/jpeg1219https://ri.ufs.br/jspui/bitstream/riufs/17494/4/Thiago_Jesus_Santos.pdf.jpg6e038d6ff2642e08d760866bdc84871fMD54riufs/174942023-04-28 10:40:32.159oai:ufs.br:riufs/17494TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvcihlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyIHNldSB0cmFiYWxobyBubyBmb3JtYXRvIGVsZXRyw7RuaWNvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFNlcmdpcGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIHNldSB0cmFiYWxobyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZGUgc2V1IHRyYWJhbGhvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0bywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgbsOjbyBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5ndcOpbS4KCkNhc28gbyB0cmFiYWxobyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRvIHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuIAo=Repositório InstitucionalPUBhttps://ri.ufs.br/oai/requestrepositorio@academico.ufs.bropendoar:2023-04-28T13:40:32Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)false |
dc.title.pt_BR.fl_str_mv |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
title |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
spellingShingle |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito Santos, Thiago de Jesus dos Ciências atuariais Ensino de ciências atuariais Aprendizado de máquina Crédito Inadimplência Balanceamento dos dados Random forest Machine learning Credit Default Data balancing Random forest OUTROS::CIENCIAS ATUARIAIS |
title_short |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
title_full |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
title_fullStr |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
title_full_unstemmed |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
title_sort |
Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito |
author |
Santos, Thiago de Jesus dos |
author_facet |
Santos, Thiago de Jesus dos |
author_role |
author |
dc.contributor.author.fl_str_mv |
Santos, Thiago de Jesus dos |
dc.contributor.advisor1.fl_str_mv |
Daniel, Carlos Raphael Araújo |
dc.contributor.advisor-co1.fl_str_mv |
Xavier, Cleber Martins |
contributor_str_mv |
Daniel, Carlos Raphael Araújo Xavier, Cleber Martins |
dc.subject.por.fl_str_mv |
Ciências atuariais Ensino de ciências atuariais Aprendizado de máquina Crédito Inadimplência Balanceamento dos dados Random forest |
topic |
Ciências atuariais Ensino de ciências atuariais Aprendizado de máquina Crédito Inadimplência Balanceamento dos dados Random forest Machine learning Credit Default Data balancing Random forest OUTROS::CIENCIAS ATUARIAIS |
dc.subject.eng.fl_str_mv |
Machine learning Credit Default Data balancing Random forest |
dc.subject.cnpq.fl_str_mv |
OUTROS::CIENCIAS ATUARIAIS |
description |
Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022-06-03 |
dc.date.accessioned.fl_str_mv |
2023-04-28T13:40:32Z |
dc.date.available.fl_str_mv |
2023-04-28T13:40:32Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022 |
dc.identifier.uri.fl_str_mv |
http://ri.ufs.br/jspui/handle/riufs/17494 |
identifier_str_mv |
Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022 |
url |
http://ri.ufs.br/jspui/handle/riufs/17494 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.initials.fl_str_mv |
Universidade Federal de Sergipe |
dc.publisher.department.fl_str_mv |
DECAT - Departamento de Estatística e Ciências Atuariais – Ciências Atuariais – São Cristóvão – Presencial |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFS instname:Universidade Federal de Sergipe (UFS) instacron:UFS |
instname_str |
Universidade Federal de Sergipe (UFS) |
instacron_str |
UFS |
institution |
UFS |
reponame_str |
Repositório Institucional da UFS |
collection |
Repositório Institucional da UFS |
bitstream.url.fl_str_mv |
https://ri.ufs.br/jspui/bitstream/riufs/17494/1/license.txt https://ri.ufs.br/jspui/bitstream/riufs/17494/2/Thiago_Jesus_Santos.pdf https://ri.ufs.br/jspui/bitstream/riufs/17494/3/Thiago_Jesus_Santos.pdf.txt https://ri.ufs.br/jspui/bitstream/riufs/17494/4/Thiago_Jesus_Santos.pdf.jpg |
bitstream.checksum.fl_str_mv |
098cbbf65c2c15e1fb2e49c5d306a44c 5eb1fa060f7f47838878fbf97ecc6cbf 4078c81f533ee2774e58262712059374 6e038d6ff2642e08d760866bdc84871f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS) |
repository.mail.fl_str_mv |
repositorio@academico.ufs.br |
_version_ |
1802110642185830400 |