Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito

Detalhes bibliográficos
Autor(a) principal: Santos, Thiago de Jesus dos
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFS
Texto Completo: http://ri.ufs.br/jspui/handle/riufs/17494
Resumo: Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process.
id UFS-2_8fec96f082c6ad2a1b9c65e6e2a8e3af
oai_identifier_str oai:ufs.br:riufs/17494
network_acronym_str UFS-2
network_name_str Repositório Institucional da UFS
repository_id_str
spelling Santos, Thiago de Jesus dosDaniel, Carlos Raphael AraújoXavier, Cleber Martins2023-04-28T13:40:32Z2023-04-28T13:40:32Z2022-06-03Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022http://ri.ufs.br/jspui/handle/riufs/17494Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process.Devido ao grande avanço computacional, o desenvolvimento de modelos na área de crédito com o intuito de classificar o tipo dos clientes, mensurar a probabilidade de inadimplência e outras informações têm sido sofisticado pelas técnicas de Machine Learning. Neste contexto, o presente estudo teve como objetivo o desenvolvimento de modelos preditivos utilizando técnicas de machine learning, a fim de identificar os clientes que estão mais propensos a não honrar com suas dívidas perante as instituições financeiras dos Estados Unidos vinculadas à entidade US Small Business Administration (SBA). Por meio do estudo descritivo, observou-se um desbalanceamento nos dados ocorrido na variável resposta, referente à inadimplência, pois 82% dos clientes, que gozaram do crédito ofertado pelas instituições, honraram com o pagamento do débito, enquanto 18% tornaram-se inadimplentes. Sendo assim, neste estudo foi proposto que os métodos de regressão logística, Naive Bayes, Decision tree e Random Forest (RF) gerassem modelos treinados em três situações: 1) Cenário real (desbalanceado); 2) Cenário Undersampling e 3) Cenário Oversampling. Os resultados encontrados apontam que a aplicação das técnicas de Undersampling e Oversampling ocasionou a redução da acurácia e sensibilidade na maior parte dos modelos, porém gerou um aumento considerável da especificidade de todos os ajustes. Ademais, o Random Forest obteve as melhores métricas de avaliação entre os demais algoritmos utilizados, independente do cenário de treinamento proposto. Por fim, utilizando como métrica de avaliação a Area Under the Curve (AUC) tem-se que o modelo (M12) gerado pelo algoritmo RF utilizando a técnica de Oversampling resultou no melhor desempenho no processo de generalização.São Cristóvão, SEporCiências atuariaisEnsino de ciências atuariaisAprendizado de máquinaCréditoInadimplênciaBalanceamento dos dadosRandom forestMachine learningCreditDefaultData balancingRandom forestOUTROS::CIENCIAS ATUARIAISAplicações de algoritmos de machine learning para previsão de inadimplência em concessão de créditoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal de SergipeDECAT - Departamento de Estatística e Ciências Atuariais – Ciências Atuariais – São Cristóvão – Presencialreponame:Repositório Institucional da UFSinstname:Universidade Federal de Sergipe (UFS)instacron:UFSinfo:eu-repo/semantics/openAccessLICENSElicense.txtlicense.txttext/plain; charset=utf-81475https://ri.ufs.br/jspui/bitstream/riufs/17494/1/license.txt098cbbf65c2c15e1fb2e49c5d306a44cMD51ORIGINALThiago_Jesus_Santos.pdfThiago_Jesus_Santos.pdfapplication/pdf976332https://ri.ufs.br/jspui/bitstream/riufs/17494/2/Thiago_Jesus_Santos.pdf5eb1fa060f7f47838878fbf97ecc6cbfMD52TEXTThiago_Jesus_Santos.pdf.txtThiago_Jesus_Santos.pdf.txtExtracted texttext/plain91151https://ri.ufs.br/jspui/bitstream/riufs/17494/3/Thiago_Jesus_Santos.pdf.txt4078c81f533ee2774e58262712059374MD53THUMBNAILThiago_Jesus_Santos.pdf.jpgThiago_Jesus_Santos.pdf.jpgGenerated Thumbnailimage/jpeg1219https://ri.ufs.br/jspui/bitstream/riufs/17494/4/Thiago_Jesus_Santos.pdf.jpg6e038d6ff2642e08d760866bdc84871fMD54riufs/174942023-04-28 10:40:32.159oai:ufs.br:riufs/17494TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvcihlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyIHNldSB0cmFiYWxobyBubyBmb3JtYXRvIGVsZXRyw7RuaWNvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFNlcmdpcGUgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIHNldSB0cmFiYWxobyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgZGUgc2V1IHRyYWJhbGhvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIHNldSB0cmFiYWxobyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0bywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgbsOjbyBpbmZyaW5nZSBkaXJlaXRvcyBhdXRvcmFpcyBkZSBuaW5ndcOpbS4KCkNhc28gbyB0cmFiYWxobyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZGUgU2VyZ2lwZSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvLgoKQSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBTZXJnaXBlIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUocykgb3UgbyhzKSBub21lKHMpIGRvKHMpIApkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRvIHRyYWJhbGhvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIGNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuIAo=Repositório InstitucionalPUBhttps://ri.ufs.br/oai/requestrepositorio@academico.ufs.bropendoar:2023-04-28T13:40:32Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)false
dc.title.pt_BR.fl_str_mv Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
title Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
spellingShingle Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
Santos, Thiago de Jesus dos
Ciências atuariais
Ensino de ciências atuariais
Aprendizado de máquina
Crédito
Inadimplência
Balanceamento dos dados
Random forest
Machine learning
Credit
Default
Data balancing
Random forest
OUTROS::CIENCIAS ATUARIAIS
title_short Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
title_full Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
title_fullStr Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
title_full_unstemmed Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
title_sort Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito
author Santos, Thiago de Jesus dos
author_facet Santos, Thiago de Jesus dos
author_role author
dc.contributor.author.fl_str_mv Santos, Thiago de Jesus dos
dc.contributor.advisor1.fl_str_mv Daniel, Carlos Raphael Araújo
dc.contributor.advisor-co1.fl_str_mv Xavier, Cleber Martins
contributor_str_mv Daniel, Carlos Raphael Araújo
Xavier, Cleber Martins
dc.subject.por.fl_str_mv Ciências atuariais
Ensino de ciências atuariais
Aprendizado de máquina
Crédito
Inadimplência
Balanceamento dos dados
Random forest
topic Ciências atuariais
Ensino de ciências atuariais
Aprendizado de máquina
Crédito
Inadimplência
Balanceamento dos dados
Random forest
Machine learning
Credit
Default
Data balancing
Random forest
OUTROS::CIENCIAS ATUARIAIS
dc.subject.eng.fl_str_mv Machine learning
Credit
Default
Data balancing
Random forest
dc.subject.cnpq.fl_str_mv OUTROS::CIENCIAS ATUARIAIS
description Due to the great computational advances, the development of models in the credit area in order to classify, measure the probability of implementation and other ways has been improved by machine learning techniques. In this context, the present study aimed to develop predictive models using machine learning techniques, in order to identify customers who are more likely to default on their debts to US financial institutions linked to a US Small Business Administration entity (SBA). Through descriptive analysis, an imbalance was observed in the data distribution of the response variable, referring to the credit to the implementation by the institutions, since 82% of the customers paid on time, while 18% became defaulter. Therefore, in this study it was proposed that Logistic Regression, Naive Bayes, Decision Tree and Random Forest (RF) methods generated models trained in three situations: 1) Real scenario (unbalanced); 2) Undersampling Scenario and 3) Oversampling Scenario. The results found indicate that the application of balancing techniques cause a reduction in accuracy and sensitivity in the part of the models, with an even larger increase in specificity of all adjustments. In addition, Random Forest obtained the best evaluation measurements among all methods used, regardless of the proposed scenario for the training set. Finally, using the “area under the curve” as an evaluation metric (AUC), the model (M12) generated by the RF model on a sampling technique resulted in the best performance in the generalization process.
publishDate 2022
dc.date.issued.fl_str_mv 2022-06-03
dc.date.accessioned.fl_str_mv 2023-04-28T13:40:32Z
dc.date.available.fl_str_mv 2023-04-28T13:40:32Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022
dc.identifier.uri.fl_str_mv http://ri.ufs.br/jspui/handle/riufs/17494
identifier_str_mv Santos, Thiago de Jesus dos. Aplicações de algoritmos de machine learning para previsão de inadimplência em concessão de crédito. São Cristóvão, 2022. Monografia (graduação em Ciências Atuariais) – Departamento de Estatística e Ciências Atuariais, Centro de Ciências Exatas e Tecnologia, Universidade Federal de Sergipe, São Cristóvão, SE, 2022
url http://ri.ufs.br/jspui/handle/riufs/17494
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.initials.fl_str_mv Universidade Federal de Sergipe
dc.publisher.department.fl_str_mv DECAT - Departamento de Estatística e Ciências Atuariais – Ciências Atuariais – São Cristóvão – Presencial
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFS
instname:Universidade Federal de Sergipe (UFS)
instacron:UFS
instname_str Universidade Federal de Sergipe (UFS)
instacron_str UFS
institution UFS
reponame_str Repositório Institucional da UFS
collection Repositório Institucional da UFS
bitstream.url.fl_str_mv https://ri.ufs.br/jspui/bitstream/riufs/17494/1/license.txt
https://ri.ufs.br/jspui/bitstream/riufs/17494/2/Thiago_Jesus_Santos.pdf
https://ri.ufs.br/jspui/bitstream/riufs/17494/3/Thiago_Jesus_Santos.pdf.txt
https://ri.ufs.br/jspui/bitstream/riufs/17494/4/Thiago_Jesus_Santos.pdf.jpg
bitstream.checksum.fl_str_mv 098cbbf65c2c15e1fb2e49c5d306a44c
5eb1fa060f7f47838878fbf97ecc6cbf
4078c81f533ee2774e58262712059374
6e038d6ff2642e08d760866bdc84871f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFS - Universidade Federal de Sergipe (UFS)
repository.mail.fl_str_mv repositorio@academico.ufs.br
_version_ 1802110642185830400