Métodos de seleção de variáveis em modelos de credit scoring

Pacheco, Mariana Nolde

Métodos de seleção de variáveis em modelos de credit scoring

Detalhes bibliográficos
Autor(a) principal:	Pacheco, Mariana Nolde
Data de Publicação:	2016
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/158038
Resumo:	Nos últimos anos, houve aumento na demanda e popularização do mercado de crédito no Brasil. A concessão de crédito envolve riscos, o que pode significar um grande prejuízo monetário para as empresas. Sendo assim, surgiram os modelos de crédito, que buscam identificar características que diferenciam o bom e o mau pagador. Os modelos de Credit Scoring são diferenciados conforme a etapa do ciclo de crédito do cliente, sendo divididos geralmente em Application Scoring, Behavioral Scoring e Collection Scoring. Esses modelos são geralmente construídos com base em uma grande quantidade de características (variáveis) dos clientes, pois podem utilizar informações cadastrais, de crédito, de conta corrente e outras. Dessa forma, é necessário um processo refinado de extração e seleção das variáveis mais importantes na explicação do bom e mau pagador. Existem diversas técnicas de mineração de dados que realizam redução da dimensão de dados originais e/ou seleção de variáveis para utilização em modelos estatísticos que incluem a Análise de Componentes Principais e o método Stepwise. Embora amplamente utilizados, nenhum desses dois métodos de seleção de variáveis considera as medidas de desempenho práticas dos modelos (como o resultado do teste KS). Dessa forma, surge a necessidade de verificação da utilização dessas medidas como forma de seleção de variáveis para os modelos de crédito. Sendo assim, o objetivo do presente estudo é comparar modelos de Credit Scoring utilizando diferentes métodos de seleção de variáveis: PCA, Stepwise e um novo método de seleção baseado no resultado do teste KS, denominado como método Eilert. As informações utilizadas no estudo são provenientes de uma base de dados reais, com duas composições amostrais (desenvolvimento e validação), de um total de 240.000 clientes. Os métodos de seleção foram testados com a utilização de 90 variáveis de cadastro e comportamento dos clientes na empresa. Os modelos finais de crédito foram construídos com a técnica de Regressão Logística, e as medidas de desempenho utilizadas para comparação dos resultados foi o percentual de acerto, o resultado do KS e a curva ROC. Na comparação dos modelos de crédito, construídos com as variáveis indicadas pelos três métodos de seleção, verifica-se que os desempenhos dos modelos, tanto na amostra de desenvolvimento quanto de validação, foram semelhantes, com valores de KS em torno de 57%, ROC em torno de 0,85 e percentual de acerto por volta de 93%. Após a seleção de variáveis com os métodos Eilert, PCA e Stepwise com significância de 0,05 e 0,01 os modelos finais apresentaram respectivamente 22, 20, 63 e 56 variáveis. Diante disso, observa-se que os três métodos de seleção de variáveis foram eficazes na redução da dimensão final de variáveis aplicadas nos modelos de Credit Scoring construídos no estudo. Sendo assim, a definição do método adotado deve ser considerada através da facilidade de análise, interpretação e apresentação dos resultados dos modelos.

Metadados do item

id	UFRGS-2_e49f5624e7644e3352ada1fbabd62ba9
oai_identifier_str	oai:www.lume.ufrgs.br:10183/158038
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Pacheco, Mariana NoldeSelau, Lisiane Priscila Roldão2017-05-17T02:35:49Z2016http://hdl.handle.net/10183/158038001020166Nos últimos anos, houve aumento na demanda e popularização do mercado de crédito no Brasil. A concessão de crédito envolve riscos, o que pode significar um grande prejuízo monetário para as empresas. Sendo assim, surgiram os modelos de crédito, que buscam identificar características que diferenciam o bom e o mau pagador. Os modelos de Credit Scoring são diferenciados conforme a etapa do ciclo de crédito do cliente, sendo divididos geralmente em Application Scoring, Behavioral Scoring e Collection Scoring. Esses modelos são geralmente construídos com base em uma grande quantidade de características (variáveis) dos clientes, pois podem utilizar informações cadastrais, de crédito, de conta corrente e outras. Dessa forma, é necessário um processo refinado de extração e seleção das variáveis mais importantes na explicação do bom e mau pagador. Existem diversas técnicas de mineração de dados que realizam redução da dimensão de dados originais e/ou seleção de variáveis para utilização em modelos estatísticos que incluem a Análise de Componentes Principais e o método Stepwise. Embora amplamente utilizados, nenhum desses dois métodos de seleção de variáveis considera as medidas de desempenho práticas dos modelos (como o resultado do teste KS). Dessa forma, surge a necessidade de verificação da utilização dessas medidas como forma de seleção de variáveis para os modelos de crédito. Sendo assim, o objetivo do presente estudo é comparar modelos de Credit Scoring utilizando diferentes métodos de seleção de variáveis: PCA, Stepwise e um novo método de seleção baseado no resultado do teste KS, denominado como método Eilert. As informações utilizadas no estudo são provenientes de uma base de dados reais, com duas composições amostrais (desenvolvimento e validação), de um total de 240.000 clientes. Os métodos de seleção foram testados com a utilização de 90 variáveis de cadastro e comportamento dos clientes na empresa. Os modelos finais de crédito foram construídos com a técnica de Regressão Logística, e as medidas de desempenho utilizadas para comparação dos resultados foi o percentual de acerto, o resultado do KS e a curva ROC. Na comparação dos modelos de crédito, construídos com as variáveis indicadas pelos três métodos de seleção, verifica-se que os desempenhos dos modelos, tanto na amostra de desenvolvimento quanto de validação, foram semelhantes, com valores de KS em torno de 57%, ROC em torno de 0,85 e percentual de acerto por volta de 93%. Após a seleção de variáveis com os métodos Eilert, PCA e Stepwise com significância de 0,05 e 0,01 os modelos finais apresentaram respectivamente 22, 20, 63 e 56 variáveis. Diante disso, observa-se que os três métodos de seleção de variáveis foram eficazes na redução da dimensão final de variáveis aplicadas nos modelos de Credit Scoring construídos no estudo. Sendo assim, a definição do método adotado deve ser considerada através da facilidade de análise, interpretação e apresentação dos resultados dos modelos.In the last years, there has been an increase in the demand and popularization of the credit market in Brazil. The granting of credit involves risks, which can mean a great deal of monetary loss to companies. Thus, credit models emerged, which seek to identify characteristics that differentiate the good and the bad payer. Credit Scoring models are differentiated according to the stage of the customer's credit cycle, and are usually divided into Application Scoring, Behavioral Scoring and Collection Scoring. These models are usually constructed based on a large number of characteristics (variables) of the clients, since they can use cadastral information, credit, checking account and others. Thus, a refined process of extraction and selection of the most important variables in the explanation of good and bad payer is necessary. There are several data mining techniques that perform the reduction of the original data dimension and / or selection of variables for use in statistical models that include the PCA and the Stepwise method. Although widely used, neither of these two methods of variable selection considers the practical performance measures of the models (such as the KS test result). Thus, there is a need to verify the use of these measures as a way of choosing and selecting variables for credit models. Thus, the objective of the present study is to compare Credit Scoring models using different methods of variable selection: PCA, Stepwise and a new selection method based on the KS test result, denominated Eilert method. The information used in the study comes from a real database, with two sample compositions (development and validation), of a total of 240,000 clients. The selection methods were tested using 90 variables of customer registration and behavior in the company. The final credit models were constructed using the RL technique, and the performance measures used to compare the results were the percentage hit, the KS result and the ROC curve. In the comparison of the credit models constructed with the variables indicated by the three selection methods, it was verified that the performance of the models, both in the development sample and in the validation were similar, with KS values around 57%, ROC around of 0.85 and percentage of accuracy around 93%. However, after selecting variables with the Eilert, PCA and Stepwise methods with significance of 0.05 and 0.01, the final models presented 22, 20, 63 and 56 variables, respectively. Therefore, it is observed that the three methods of variable selection were effective in reducing the final dimension of variables applied in the Credit Scoring models constructed in the study. Therefore, the definition of the adopted method must be considered through the ease of analysis, interpretation and presentation of the results of the models.application/pdfporRegressão logísticaAnálise de dadosModelos de dados estatisticosSelection of variablesCredit scoringLogistic regressionMétodos de seleção de variáveis em modelos de credit scoringinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de Matemática e EstatísticaPorto Alegre, BR-RS2016Estatística: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSORIGINAL001020166.pdf001020166.pdfTexto completoapplication/pdf1466998http://www.lume.ufrgs.br/bitstream/10183/158038/1/001020166.pdf547ab635e5b0c2e90cb5f9b43a9d9e5cMD51TEXT001020166.pdf.txt001020166.pdf.txtExtracted Texttext/plain67676http://www.lume.ufrgs.br/bitstream/10183/158038/2/001020166.pdf.txt3774f7cb0567e81392c035543d8f075eMD52THUMBNAIL001020166.pdf.jpg001020166.pdf.jpgGenerated Thumbnailimage/jpeg1221http://www.lume.ufrgs.br/bitstream/10183/158038/3/001020166.pdf.jpg8e9199be319688503ff1128626740cc7MD5310183/1580382018-10-30 08:05:47.773oai:www.lume.ufrgs.br:10183/158038Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2018-10-30T11:05:47Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Métodos de seleção de variáveis em modelos de credit scoring
title	Métodos de seleção de variáveis em modelos de credit scoring
spellingShingle	Métodos de seleção de variáveis em modelos de credit scoring Pacheco, Mariana Nolde Regressão logística Análise de dados Modelos de dados estatisticos Selection of variables Credit scoring Logistic regression
title_short	Métodos de seleção de variáveis em modelos de credit scoring
title_full	Métodos de seleção de variáveis em modelos de credit scoring
title_fullStr	Métodos de seleção de variáveis em modelos de credit scoring
title_full_unstemmed	Métodos de seleção de variáveis em modelos de credit scoring
title_sort	Métodos de seleção de variáveis em modelos de credit scoring
author	Pacheco, Mariana Nolde
author_facet	Pacheco, Mariana Nolde
author_role	author
dc.contributor.author.fl_str_mv	Pacheco, Mariana Nolde
dc.contributor.advisor1.fl_str_mv	Selau, Lisiane Priscila Roldão
contributor_str_mv	Selau, Lisiane Priscila Roldão
dc.subject.por.fl_str_mv	Regressão logística Análise de dados Modelos de dados estatisticos
topic	Regressão logística Análise de dados Modelos de dados estatisticos Selection of variables Credit scoring Logistic regression
dc.subject.eng.fl_str_mv	Selection of variables Credit scoring Logistic regression
description	Nos últimos anos, houve aumento na demanda e popularização do mercado de crédito no Brasil. A concessão de crédito envolve riscos, o que pode significar um grande prejuízo monetário para as empresas. Sendo assim, surgiram os modelos de crédito, que buscam identificar características que diferenciam o bom e o mau pagador. Os modelos de Credit Scoring são diferenciados conforme a etapa do ciclo de crédito do cliente, sendo divididos geralmente em Application Scoring, Behavioral Scoring e Collection Scoring. Esses modelos são geralmente construídos com base em uma grande quantidade de características (variáveis) dos clientes, pois podem utilizar informações cadastrais, de crédito, de conta corrente e outras. Dessa forma, é necessário um processo refinado de extração e seleção das variáveis mais importantes na explicação do bom e mau pagador. Existem diversas técnicas de mineração de dados que realizam redução da dimensão de dados originais e/ou seleção de variáveis para utilização em modelos estatísticos que incluem a Análise de Componentes Principais e o método Stepwise. Embora amplamente utilizados, nenhum desses dois métodos de seleção de variáveis considera as medidas de desempenho práticas dos modelos (como o resultado do teste KS). Dessa forma, surge a necessidade de verificação da utilização dessas medidas como forma de seleção de variáveis para os modelos de crédito. Sendo assim, o objetivo do presente estudo é comparar modelos de Credit Scoring utilizando diferentes métodos de seleção de variáveis: PCA, Stepwise e um novo método de seleção baseado no resultado do teste KS, denominado como método Eilert. As informações utilizadas no estudo são provenientes de uma base de dados reais, com duas composições amostrais (desenvolvimento e validação), de um total de 240.000 clientes. Os métodos de seleção foram testados com a utilização de 90 variáveis de cadastro e comportamento dos clientes na empresa. Os modelos finais de crédito foram construídos com a técnica de Regressão Logística, e as medidas de desempenho utilizadas para comparação dos resultados foi o percentual de acerto, o resultado do KS e a curva ROC. Na comparação dos modelos de crédito, construídos com as variáveis indicadas pelos três métodos de seleção, verifica-se que os desempenhos dos modelos, tanto na amostra de desenvolvimento quanto de validação, foram semelhantes, com valores de KS em torno de 57%, ROC em torno de 0,85 e percentual de acerto por volta de 93%. Após a seleção de variáveis com os métodos Eilert, PCA e Stepwise com significância de 0,05 e 0,01 os modelos finais apresentaram respectivamente 22, 20, 63 e 56 variáveis. Diante disso, observa-se que os três métodos de seleção de variáveis foram eficazes na redução da dimensão final de variáveis aplicadas nos modelos de Credit Scoring construídos no estudo. Sendo assim, a definição do método adotado deve ser considerada através da facilidade de análise, interpretação e apresentação dos resultados dos modelos.
publishDate	2016
dc.date.issued.fl_str_mv	2016
dc.date.accessioned.fl_str_mv	2017-05-17T02:35:49Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/158038
dc.identifier.nrb.pt_BR.fl_str_mv	001020166
url	http://hdl.handle.net/10183/158038
identifier_str_mv	001020166
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/158038/1/001020166.pdf http://www.lume.ufrgs.br/bitstream/10183/158038/2/001020166.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/158038/3/001020166.pdf.jpg
bitstream.checksum.fl_str_mv	547ab635e5b0c2e90cb5f9b43a9d9e5c 3774f7cb0567e81392c035543d8f075e 8e9199be319688503ff1128626740cc7
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224531158761472

Métodos de seleção de variáveis em modelos de credit scoring

Registros relacionados