Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil

Detalhes bibliográficos
Autor(a) principal: Brito Filho, Daniel Alves De
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do INSPER
Texto Completo: https://www.repositorio.insper.edu.br/handle/11224/1720
Resumo: A análise de crédito é uma atividade fundamental para as instituições financeiras. Os modelos de escore de crédito tornaram-se uma ferramenta importante, devido à necessidade de padronização e agilidade nas análises de crédito, existindo situações em que a aprovação ou recusa do crédito é totalmente automatizada. Segundo Thomas (2009), a técnica mais utilizada na construção de modelos de escore de crédito é a regressão logística. Por outro lado, outras técnicas, reunidas sob o termo aprendizado de máquina, têm sido aplicadas em modelos de classificação. Como podemos observar em Kruppa et al. (2013) e Lessmann et al. (2015), esses modelos têm apresentado resultados superiores aos modelos de regressão logística. Este trabalho propõe uma comparação entre o modelo de regressão logística e os modelos de aprendizado de máquina BART e Random Forests. Para o desenvolvimento dos modelos foi utilizada uma base de dados fornecida pela empresa Serasa Experian contendo informações do bureau de crédito referente a clientes de operações de crédito direto ao consumidor no varejo. Para a avaliação da performance dos modelos foram utilizadas a estatística de Kolmogorov-Smirnov e o coeficiente de Gini. Também foi gerado um intervalo de confiança para a métrica área sob a curva (AUC) para testar a hipótese dos modelos possuírem a mesma performance. Como principal resultado, a análise realizada confirma a superioridade do modelo BART sobre o modelo de regressão logística no banco de dados analisado. Além disso, os resultados sugerem que o modelo Random Forests é superior ao modelo de regressão logística somente quando ajustado na amostra balanceada analisada, dado que a performance da regressão logística melhorou quanto ajustado na base de desenvolvimento desbalanceada. Os melhores modelos BART ajustados, tanto na amostra balanceada quanto na amostra desbalanceada, foram superiores ao modelo Random Forests, nos dados analisados. Porém, o modelo BART padrão e Random Forests apresentaram performance similar e não podemos afirmar que um modelo foi superior ao outro.
id INSP_c8382d073cfb483cb457a1fd5fd2b66d
oai_identifier_str oai:repositorio.insper.edu.br:11224/1720
network_acronym_str INSP
network_name_str Biblioteca Digital de Teses e Dissertações do INSPER
repository_id_str
spelling Brito Filho, Daniel Alves DeBarroso, LúciaMinardi, Andrea Maria Accioly FonsecaArtes, RinaldoSão Paulo2021-09-13T03:17:57Z2017-12-13T12:54:43Z2021-09-13T03:17:57Z20162017-12-13T12:54:43Z20162016https://www.repositorio.insper.edu.br/handle/11224/1720A análise de crédito é uma atividade fundamental para as instituições financeiras. Os modelos de escore de crédito tornaram-se uma ferramenta importante, devido à necessidade de padronização e agilidade nas análises de crédito, existindo situações em que a aprovação ou recusa do crédito é totalmente automatizada. Segundo Thomas (2009), a técnica mais utilizada na construção de modelos de escore de crédito é a regressão logística. Por outro lado, outras técnicas, reunidas sob o termo aprendizado de máquina, têm sido aplicadas em modelos de classificação. Como podemos observar em Kruppa et al. (2013) e Lessmann et al. (2015), esses modelos têm apresentado resultados superiores aos modelos de regressão logística. Este trabalho propõe uma comparação entre o modelo de regressão logística e os modelos de aprendizado de máquina BART e Random Forests. Para o desenvolvimento dos modelos foi utilizada uma base de dados fornecida pela empresa Serasa Experian contendo informações do bureau de crédito referente a clientes de operações de crédito direto ao consumidor no varejo. Para a avaliação da performance dos modelos foram utilizadas a estatística de Kolmogorov-Smirnov e o coeficiente de Gini. Também foi gerado um intervalo de confiança para a métrica área sob a curva (AUC) para testar a hipótese dos modelos possuírem a mesma performance. Como principal resultado, a análise realizada confirma a superioridade do modelo BART sobre o modelo de regressão logística no banco de dados analisado. Além disso, os resultados sugerem que o modelo Random Forests é superior ao modelo de regressão logística somente quando ajustado na amostra balanceada analisada, dado que a performance da regressão logística melhorou quanto ajustado na base de desenvolvimento desbalanceada. Os melhores modelos BART ajustados, tanto na amostra balanceada quanto na amostra desbalanceada, foram superiores ao modelo Random Forests, nos dados analisados. Porém, o modelo BART padrão e Random Forests apresentaram performance similar e não podemos afirmar que um modelo foi superior ao outro.The credit risk assessment is a vital activity for any financial institution. The credit scoring models become an important tool due to the standardization and speed necessities on the credit process, having situations where the credit approval or rejection is fully automated. According to Thomas (2009), the logistic regression has been the most used technique to build up credit scoring models. This paper proposes a comparison between the logistic regression model and models created using machine learning techniques BART and Random Forests. The database used to develop these models was provided by Serasa Experian, which was related to retail credit transactions for consumers. The performance of these models was assessed using the Kolmogorov-Smirnov statistic and the Gini coefficient. A confidence internal was also generated to the area under curve (AUC) metric also to support models performance comparison. The main result of this paper confirms the superiority of the machine learning model BART against the logistic regression. On the other hand, results suggest a superiority of the machine learning model Random Forests model against the logistic regression only when fitted in the under sampling data base, however, the logistic regression improved when fitted in the unbalanced development data base with bias correction and its performance was the same of the Random Forests model. The best chosen BART models, fitted in both the under sampling data base and the unbalanced data base, have had a better performance against the Random Forests model. However, the standard BART model presented similar results against Random Forests and we could not conclude which one was better than the other.65 p.TODOS OS DOCUMENTOS DESSA COLEÇÃO PODEM SER ACESSADOS, MANTENDO-SE OS DIREITOS DOS AUTORES PELA CITAÇÃO DA ORIGEM.info:eu-repo/semantics/openAccessEscore de créditoAprendizado de máquinaRegressão logísticaBARTRandom forestsCredit scoringMachine learningLogistic regressionAplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasilinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Biblioteca Digital de Teses e Dissertações do INSPERinstname:Instituição de Ensino Superior e de Pesquisa (INSPER)instacron:INSPERTEXTDANIEL ALVES DE BRITO FILHO_Trabalho.pdf.txtExtracted texttext/plain132732https://repositorio.insper.edu.br/bitstream/11224/1720/1/DANIEL%20ALVES%20DE%20BRITO%20FILHO_Trabalho.pdf.txtd9b822781dad227f99e51d9b87efb98eMD51LICENSElicense.txttext/plain1748https://repositorio.insper.edu.br/bitstream/11224/1720/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52ORIGINALDANIEL ALVES DE BRITO FILHO_Trabalho.pdfTEXTO COMPLETOapplication/pdf1602654https://repositorio.insper.edu.br/bitstream/11224/1720/3/DANIEL%20ALVES%20DE%20BRITO%20FILHO_Trabalho.pdf8565fc626316de31ada176b7d3d22ff6MD53THUMBNAILDANIEL ALVES DE BRITO FILHO_Trabalho.pdf.jpgDANIEL ALVES DE BRITO FILHO_Trabalho.pdf.jpgGenerated Thumbnailimage/jpeg1207https://repositorio.insper.edu.br/bitstream/11224/1720/4/DANIEL%20ALVES%20DE%20BRITO%20FILHO_Trabalho.pdf.jpg1e34b8ccb85258b49165717a137629f9MD5411224/17202022-12-02 12:54:04.392oai:repositorio.insper.edu.br:11224/1720Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://www.insper.edu.br/biblioteca-telles/PRIhttps://repositorio.insper.edu.br/oai/requestbiblioteca@insper.edu.br ||opendoar:2022-12-02T17:54:04Biblioteca Digital de Teses e Dissertações do INSPER - Instituição de Ensino Superior e de Pesquisa (INSPER)false
dc.title.pt_BR.fl_str_mv Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
title Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
spellingShingle Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
Brito Filho, Daniel Alves De
Escore de crédito
Aprendizado de máquina
Regressão logística
BART
Random forests
Credit scoring
Machine learning
Logistic regression
title_short Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
title_full Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
title_fullStr Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
title_full_unstemmed Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
title_sort Aplicação de árvores de regressão aditivas bayesianas no desenvolvimento de modelos de escore de crédito no Brasil
author Brito Filho, Daniel Alves De
author_facet Brito Filho, Daniel Alves De
author_role author
dc.contributor.defensecommittee.none.fl_str_mv Barroso, Lúcia
Minardi, Andrea Maria Accioly Fonseca
dc.contributor.author.fl_str_mv Brito Filho, Daniel Alves De
dc.contributor.advisor1.fl_str_mv Artes, Rinaldo
contributor_str_mv Artes, Rinaldo
dc.subject.por.fl_str_mv Escore de crédito
Aprendizado de máquina
Regressão logística
BART
Random forests
Credit scoring
Machine learning
Logistic regression
topic Escore de crédito
Aprendizado de máquina
Regressão logística
BART
Random forests
Credit scoring
Machine learning
Logistic regression
description A análise de crédito é uma atividade fundamental para as instituições financeiras. Os modelos de escore de crédito tornaram-se uma ferramenta importante, devido à necessidade de padronização e agilidade nas análises de crédito, existindo situações em que a aprovação ou recusa do crédito é totalmente automatizada. Segundo Thomas (2009), a técnica mais utilizada na construção de modelos de escore de crédito é a regressão logística. Por outro lado, outras técnicas, reunidas sob o termo aprendizado de máquina, têm sido aplicadas em modelos de classificação. Como podemos observar em Kruppa et al. (2013) e Lessmann et al. (2015), esses modelos têm apresentado resultados superiores aos modelos de regressão logística. Este trabalho propõe uma comparação entre o modelo de regressão logística e os modelos de aprendizado de máquina BART e Random Forests. Para o desenvolvimento dos modelos foi utilizada uma base de dados fornecida pela empresa Serasa Experian contendo informações do bureau de crédito referente a clientes de operações de crédito direto ao consumidor no varejo. Para a avaliação da performance dos modelos foram utilizadas a estatística de Kolmogorov-Smirnov e o coeficiente de Gini. Também foi gerado um intervalo de confiança para a métrica área sob a curva (AUC) para testar a hipótese dos modelos possuírem a mesma performance. Como principal resultado, a análise realizada confirma a superioridade do modelo BART sobre o modelo de regressão logística no banco de dados analisado. Além disso, os resultados sugerem que o modelo Random Forests é superior ao modelo de regressão logística somente quando ajustado na amostra balanceada analisada, dado que a performance da regressão logística melhorou quanto ajustado na base de desenvolvimento desbalanceada. Os melhores modelos BART ajustados, tanto na amostra balanceada quanto na amostra desbalanceada, foram superiores ao modelo Random Forests, nos dados analisados. Porém, o modelo BART padrão e Random Forests apresentaram performance similar e não podemos afirmar que um modelo foi superior ao outro.
publishDate 2016
dc.date.submitted.none.fl_str_mv 2016
dc.date.available.fl_str_mv 2016
2017-12-13T12:54:43Z
2021-09-13T03:17:57Z
dc.date.issued.fl_str_mv 2016
dc.date.accessioned.fl_str_mv 2017-12-13T12:54:43Z
2021-09-13T03:17:57Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.repositorio.insper.edu.br/handle/11224/1720
url https://www.repositorio.insper.edu.br/handle/11224/1720
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 65 p.
dc.coverage.spatial.pt_BR.fl_str_mv São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do INSPER
instname:Instituição de Ensino Superior e de Pesquisa (INSPER)
instacron:INSPER
instname_str Instituição de Ensino Superior e de Pesquisa (INSPER)
instacron_str INSPER
institution INSPER
reponame_str Biblioteca Digital de Teses e Dissertações do INSPER
collection Biblioteca Digital de Teses e Dissertações do INSPER
bitstream.url.fl_str_mv https://repositorio.insper.edu.br/bitstream/11224/1720/1/DANIEL%20ALVES%20DE%20BRITO%20FILHO_Trabalho.pdf.txt
https://repositorio.insper.edu.br/bitstream/11224/1720/2/license.txt
https://repositorio.insper.edu.br/bitstream/11224/1720/3/DANIEL%20ALVES%20DE%20BRITO%20FILHO_Trabalho.pdf
https://repositorio.insper.edu.br/bitstream/11224/1720/4/DANIEL%20ALVES%20DE%20BRITO%20FILHO_Trabalho.pdf.jpg
bitstream.checksum.fl_str_mv d9b822781dad227f99e51d9b87efb98e
8a4605be74aa9ea9d79846c1fba20a33
8565fc626316de31ada176b7d3d22ff6
1e34b8ccb85258b49165717a137629f9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do INSPER - Instituição de Ensino Superior e de Pesquisa (INSPER)
repository.mail.fl_str_mv biblioteca@insper.edu.br ||
_version_ 1791085952209256448