Métodos de seleção de variáveis em modelos de credit scoring
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/158038 |
Resumo: | Nos últimos anos, houve aumento na demanda e popularização do mercado de crédito no Brasil. A concessão de crédito envolve riscos, o que pode significar um grande prejuízo monetário para as empresas. Sendo assim, surgiram os modelos de crédito, que buscam identificar características que diferenciam o bom e o mau pagador. Os modelos de Credit Scoring são diferenciados conforme a etapa do ciclo de crédito do cliente, sendo divididos geralmente em Application Scoring, Behavioral Scoring e Collection Scoring. Esses modelos são geralmente construídos com base em uma grande quantidade de características (variáveis) dos clientes, pois podem utilizar informações cadastrais, de crédito, de conta corrente e outras. Dessa forma, é necessário um processo refinado de extração e seleção das variáveis mais importantes na explicação do bom e mau pagador. Existem diversas técnicas de mineração de dados que realizam redução da dimensão de dados originais e/ou seleção de variáveis para utilização em modelos estatísticos que incluem a Análise de Componentes Principais e o método Stepwise. Embora amplamente utilizados, nenhum desses dois métodos de seleção de variáveis considera as medidas de desempenho práticas dos modelos (como o resultado do teste KS). Dessa forma, surge a necessidade de verificação da utilização dessas medidas como forma de seleção de variáveis para os modelos de crédito. Sendo assim, o objetivo do presente estudo é comparar modelos de Credit Scoring utilizando diferentes métodos de seleção de variáveis: PCA, Stepwise e um novo método de seleção baseado no resultado do teste KS, denominado como método Eilert. As informações utilizadas no estudo são provenientes de uma base de dados reais, com duas composições amostrais (desenvolvimento e validação), de um total de 240.000 clientes. Os métodos de seleção foram testados com a utilização de 90 variáveis de cadastro e comportamento dos clientes na empresa. Os modelos finais de crédito foram construídos com a técnica de Regressão Logística, e as medidas de desempenho utilizadas para comparação dos resultados foi o percentual de acerto, o resultado do KS e a curva ROC. Na comparação dos modelos de crédito, construídos com as variáveis indicadas pelos três métodos de seleção, verifica-se que os desempenhos dos modelos, tanto na amostra de desenvolvimento quanto de validação, foram semelhantes, com valores de KS em torno de 57%, ROC em torno de 0,85 e percentual de acerto por volta de 93%. Após a seleção de variáveis com os métodos Eilert, PCA e Stepwise com significância de 0,05 e 0,01 os modelos finais apresentaram respectivamente 22, 20, 63 e 56 variáveis. Diante disso, observa-se que os três métodos de seleção de variáveis foram eficazes na redução da dimensão final de variáveis aplicadas nos modelos de Credit Scoring construídos no estudo. Sendo assim, a definição do método adotado deve ser considerada através da facilidade de análise, interpretação e apresentação dos resultados dos modelos. |
id |
UFRGS-2_e49f5624e7644e3352ada1fbabd62ba9 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/158038 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Pacheco, Mariana NoldeSelau, Lisiane Priscila Roldão2017-05-17T02:35:49Z2016http://hdl.handle.net/10183/158038001020166Nos últimos anos, houve aumento na demanda e popularização do mercado de crédito no Brasil. A concessão de crédito envolve riscos, o que pode significar um grande prejuízo monetário para as empresas. Sendo assim, surgiram os modelos de crédito, que buscam identificar características que diferenciam o bom e o mau pagador. Os modelos de Credit Scoring são diferenciados conforme a etapa do ciclo de crédito do cliente, sendo divididos geralmente em Application Scoring, Behavioral Scoring e Collection Scoring. Esses modelos são geralmente construídos com base em uma grande quantidade de características (variáveis) dos clientes, pois podem utilizar informações cadastrais, de crédito, de conta corrente e outras. Dessa forma, é necessário um processo refinado de extração e seleção das variáveis mais importantes na explicação do bom e mau pagador. Existem diversas técnicas de mineração de dados que realizam redução da dimensão de dados originais e/ou seleção de variáveis para utilização em modelos estatísticos que incluem a Análise de Componentes Principais e o método Stepwise. Embora amplamente utilizados, nenhum desses dois métodos de seleção de variáveis considera as medidas de desempenho práticas dos modelos (como o resultado do teste KS). Dessa forma, surge a necessidade de verificação da utilização dessas medidas como forma de seleção de variáveis para os modelos de crédito. Sendo assim, o objetivo do presente estudo é comparar modelos de Credit Scoring utilizando diferentes métodos de seleção de variáveis: PCA, Stepwise e um novo método de seleção baseado no resultado do teste KS, denominado como método Eilert. As informações utilizadas no estudo são provenientes de uma base de dados reais, com duas composições amostrais (desenvolvimento e validação), de um total de 240.000 clientes. Os métodos de seleção foram testados com a utilização de 90 variáveis de cadastro e comportamento dos clientes na empresa. Os modelos finais de crédito foram construídos com a técnica de Regressão Logística, e as medidas de desempenho utilizadas para comparação dos resultados foi o percentual de acerto, o resultado do KS e a curva ROC. Na comparação dos modelos de crédito, construídos com as variáveis indicadas pelos três métodos de seleção, verifica-se que os desempenhos dos modelos, tanto na amostra de desenvolvimento quanto de validação, foram semelhantes, com valores de KS em torno de 57%, ROC em torno de 0,85 e percentual de acerto por volta de 93%. Após a seleção de variáveis com os métodos Eilert, PCA e Stepwise com significância de 0,05 e 0,01 os modelos finais apresentaram respectivamente 22, 20, 63 e 56 variáveis. Diante disso, observa-se que os três métodos de seleção de variáveis foram eficazes na redução da dimensão final de variáveis aplicadas nos modelos de Credit Scoring construídos no estudo. Sendo assim, a definição do método adotado deve ser considerada através da facilidade de análise, interpretação e apresentação dos resultados dos modelos.In the last years, there has been an increase in the demand and popularization of the credit market in Brazil. The granting of credit involves risks, which can mean a great deal of monetary loss to companies. Thus, credit models emerged, which seek to identify characteristics that differentiate the good and the bad payer. Credit Scoring models are differentiated according to the stage of the customer's credit cycle, and are usually divided into Application Scoring, Behavioral Scoring and Collection Scoring. These models are usually constructed based on a large number of characteristics (variables) of the clients, since they can use cadastral information, credit, checking account and others. Thus, a refined process of extraction and selection of the most important variables in the explanation of good and bad payer is necessary. There are several data mining techniques that perform the reduction of the original data dimension and / or selection of variables for use in statistical models that include the PCA and the Stepwise method. Although widely used, neither of these two methods of variable selection considers the practical performance measures of the models (such as the KS test result). Thus, there is a need to verify the use of these measures as a way of choosing and selecting variables for credit models. Thus, the objective of the present study is to compare Credit Scoring models using different methods of variable selection: PCA, Stepwise and a new selection method based on the KS test result, denominated Eilert method. The information used in the study comes from a real database, with two sample compositions (development and validation), of a total of 240,000 clients. The selection methods were tested using 90 variables of customer registration and behavior in the company. The final credit models were constructed using the RL technique, and the performance measures used to compare the results were the percentage hit, the KS result and the ROC curve. In the comparison of the credit models constructed with the variables indicated by the three selection methods, it was verified that the performance of the models, both in the development sample and in the validation were similar, with KS values around 57%, ROC around of 0.85 and percentage of accuracy around 93%. However, after selecting variables with the Eilert, PCA and Stepwise methods with significance of 0.05 and 0.01, the final models presented 22, 20, 63 and 56 variables, respectively. Therefore, it is observed that the three methods of variable selection were effective in reducing the final dimension of variables applied in the Credit Scoring models constructed in the study. Therefore, the definition of the adopted method must be considered through the ease of analysis, interpretation and presentation of the results of the models.application/pdfporRegressão logísticaAnálise de dadosModelos de dados estatisticosSelection of variablesCredit scoringLogistic regressionMétodos de seleção de variáveis em modelos de credit scoringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2016Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001020166.pdf001020166.pdfTexto completoapplication/pdf1466998http://www.lume.ufrgs.br/bitstream/10183/158038/1/001020166.pdf547ab635e5b0c2e90cb5f9b43a9d9e5cMD51TEXT001020166.pdf.txt001020166.pdf.txtExtracted Texttext/plain67676http://www.lume.ufrgs.br/bitstream/10183/158038/2/001020166.pdf.txt3774f7cb0567e81392c035543d8f075eMD52THUMBNAIL001020166.pdf.jpg001020166.pdf.jpgGenerated Thumbnailimage/jpeg1221http://www.lume.ufrgs.br/bitstream/10183/158038/3/001020166.pdf.jpg8e9199be319688503ff1128626740cc7MD5310183/1580382018-10-30 08:05:47.773oai:www.lume.ufrgs.br:10183/158038Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-30T11:05:47Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Métodos de seleção de variáveis em modelos de credit scoring |
title |
Métodos de seleção de variáveis em modelos de credit scoring |
spellingShingle |
Métodos de seleção de variáveis em modelos de credit scoring Pacheco, Mariana Nolde Regressão logística Análise de dados Modelos de dados estatisticos Selection of variables Credit scoring Logistic regression |
title_short |
Métodos de seleção de variáveis em modelos de credit scoring |
title_full |
Métodos de seleção de variáveis em modelos de credit scoring |
title_fullStr |
Métodos de seleção de variáveis em modelos de credit scoring |
title_full_unstemmed |
Métodos de seleção de variáveis em modelos de credit scoring |
title_sort |
Métodos de seleção de variáveis em modelos de credit scoring |
author |
Pacheco, Mariana Nolde |
author_facet |
Pacheco, Mariana Nolde |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pacheco, Mariana Nolde |
dc.contributor.advisor1.fl_str_mv |
Selau, Lisiane Priscila Roldão |
contributor_str_mv |
Selau, Lisiane Priscila Roldão |
dc.subject.por.fl_str_mv |
Regressão logística Análise de dados Modelos de dados estatisticos |
topic |
Regressão logística Análise de dados Modelos de dados estatisticos Selection of variables Credit scoring Logistic regression |
dc.subject.eng.fl_str_mv |
Selection of variables Credit scoring Logistic regression |
description |
Nos últimos anos, houve aumento na demanda e popularização do mercado de crédito no Brasil. A concessão de crédito envolve riscos, o que pode significar um grande prejuízo monetário para as empresas. Sendo assim, surgiram os modelos de crédito, que buscam identificar características que diferenciam o bom e o mau pagador. Os modelos de Credit Scoring são diferenciados conforme a etapa do ciclo de crédito do cliente, sendo divididos geralmente em Application Scoring, Behavioral Scoring e Collection Scoring. Esses modelos são geralmente construídos com base em uma grande quantidade de características (variáveis) dos clientes, pois podem utilizar informações cadastrais, de crédito, de conta corrente e outras. Dessa forma, é necessário um processo refinado de extração e seleção das variáveis mais importantes na explicação do bom e mau pagador. Existem diversas técnicas de mineração de dados que realizam redução da dimensão de dados originais e/ou seleção de variáveis para utilização em modelos estatísticos que incluem a Análise de Componentes Principais e o método Stepwise. Embora amplamente utilizados, nenhum desses dois métodos de seleção de variáveis considera as medidas de desempenho práticas dos modelos (como o resultado do teste KS). Dessa forma, surge a necessidade de verificação da utilização dessas medidas como forma de seleção de variáveis para os modelos de crédito. Sendo assim, o objetivo do presente estudo é comparar modelos de Credit Scoring utilizando diferentes métodos de seleção de variáveis: PCA, Stepwise e um novo método de seleção baseado no resultado do teste KS, denominado como método Eilert. As informações utilizadas no estudo são provenientes de uma base de dados reais, com duas composições amostrais (desenvolvimento e validação), de um total de 240.000 clientes. Os métodos de seleção foram testados com a utilização de 90 variáveis de cadastro e comportamento dos clientes na empresa. Os modelos finais de crédito foram construídos com a técnica de Regressão Logística, e as medidas de desempenho utilizadas para comparação dos resultados foi o percentual de acerto, o resultado do KS e a curva ROC. Na comparação dos modelos de crédito, construídos com as variáveis indicadas pelos três métodos de seleção, verifica-se que os desempenhos dos modelos, tanto na amostra de desenvolvimento quanto de validação, foram semelhantes, com valores de KS em torno de 57%, ROC em torno de 0,85 e percentual de acerto por volta de 93%. Após a seleção de variáveis com os métodos Eilert, PCA e Stepwise com significância de 0,05 e 0,01 os modelos finais apresentaram respectivamente 22, 20, 63 e 56 variáveis. Diante disso, observa-se que os três métodos de seleção de variáveis foram eficazes na redução da dimensão final de variáveis aplicadas nos modelos de Credit Scoring construídos no estudo. Sendo assim, a definição do método adotado deve ser considerada através da facilidade de análise, interpretação e apresentação dos resultados dos modelos. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016 |
dc.date.accessioned.fl_str_mv |
2017-05-17T02:35:49Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/158038 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001020166 |
url |
http://hdl.handle.net/10183/158038 |
identifier_str_mv |
001020166 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/158038/1/001020166.pdf http://www.lume.ufrgs.br/bitstream/10183/158038/2/001020166.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/158038/3/001020166.pdf.jpg |
bitstream.checksum.fl_str_mv |
547ab635e5b0c2e90cb5f9b43a9d9e5c 3774f7cb0567e81392c035543d8f075e 8e9199be319688503ff1128626740cc7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447196183560192 |