Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/104/104131/tde-27092017-092122/ |
Resumo: | Modelos de regressão para variáveis resposta binárias são muito comuns em diversas áreas do conhecimento. O modelo mais utilizado nessas situações é o modelo de regressão logística, que assume que o logito da probabilidade de ocorrência de um dos valores da variável resposta é uma função linear das variáveis preditoras. Quando essa suposição não é razoável, algumas possíveis alternativas são: realizar transformação das variáveis preditoras e/ou inserir termos quadráticos ou cúbicos no modelo. O problema dessa abordagem é que ela dificulta bastante a interpretação dos parâmetros do modelo e, em algumas áreas, é fundamental que eles sejam interpretáveis. Assim, uma abordagem muitas vezes utilizada é a categorização das variáveis preditoras quantitativas do modelo. Sendo assim, este trabalho tem como objetivo propor duas novas classes de métodos de categorização de variáveis contínuas em modelos de regressão para variáveis resposta binárias. A primeira classe de métodos é univariada e busca maximizar a associação entre a variável resposta e a covariável categorizada utilizando medidas de associação para variáveis qualitativas. Já a classe de métodos multivariada tenta incorporar a estrutura de dependência entre as covariáveis do modelo através da categorização conjunta de todas as variáveis preditoras. Para avaliar o desempenho, aplicamos as classes de métodos propostas e quatro métodos de categorização existentes em 3 bases de dados relacionadas à área de risco de crédito e a dois cenários de dados simulados. Os resultados nas bases reais sugerem que a classe univariada proposta têm um desempenho superior aos métodos existentes quando comparamos o poder preditivo do modelo de regressão logística. Já os resultados nas bases de dados simuladas sugerem que ambas as classes propostas possuem um desempenho superior aos métodos existentes. Em relação ao desempenho computacional, o método multivariado mostrou-se inferior e o univariado é superior aos métodos existentes. |
id |
USP_d99a0ab7fed1509c0f155d9aae879c54 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-27092017-092122 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis bináriasCategorization methods for predictor variables in binary regression modelsCategorização de variáveis preditorasCategorization of predictor variablesCredit scoringRegressãoRegressionRisco de créditoModelos de regressão para variáveis resposta binárias são muito comuns em diversas áreas do conhecimento. O modelo mais utilizado nessas situações é o modelo de regressão logística, que assume que o logito da probabilidade de ocorrência de um dos valores da variável resposta é uma função linear das variáveis preditoras. Quando essa suposição não é razoável, algumas possíveis alternativas são: realizar transformação das variáveis preditoras e/ou inserir termos quadráticos ou cúbicos no modelo. O problema dessa abordagem é que ela dificulta bastante a interpretação dos parâmetros do modelo e, em algumas áreas, é fundamental que eles sejam interpretáveis. Assim, uma abordagem muitas vezes utilizada é a categorização das variáveis preditoras quantitativas do modelo. Sendo assim, este trabalho tem como objetivo propor duas novas classes de métodos de categorização de variáveis contínuas em modelos de regressão para variáveis resposta binárias. A primeira classe de métodos é univariada e busca maximizar a associação entre a variável resposta e a covariável categorizada utilizando medidas de associação para variáveis qualitativas. Já a classe de métodos multivariada tenta incorporar a estrutura de dependência entre as covariáveis do modelo através da categorização conjunta de todas as variáveis preditoras. Para avaliar o desempenho, aplicamos as classes de métodos propostas e quatro métodos de categorização existentes em 3 bases de dados relacionadas à área de risco de crédito e a dois cenários de dados simulados. Os resultados nas bases reais sugerem que a classe univariada proposta têm um desempenho superior aos métodos existentes quando comparamos o poder preditivo do modelo de regressão logística. Já os resultados nas bases de dados simuladas sugerem que ambas as classes propostas possuem um desempenho superior aos métodos existentes. Em relação ao desempenho computacional, o método multivariado mostrou-se inferior e o univariado é superior aos métodos existentes.Regression models for binary response variables are very common in several areas of knowledge. The most used model in these situations is the logistic regression model, which assumes that the logit of the probability of a certain event is a linear function of the predictors variables. When this assumption is not reasonable, it is common to make some changes in the model, such as: transformation of predictor variables and/or add quadratic or cubic terms to the model. The problem with this approach is that it hinders parameter interpretation, and in some areas it is fundamental to interpret the parameters. Thus, a common approach is to categorize the quantitative covariates. This work aims to propose two new classes of categorization methods for continuous variables in binary regression models. The first class of methods is univariate and seeks to maximize the association between the response variable and the categorized covariate using measures of association for qualitative variables. The second class of methods is multivariate and incorporates the predictor variables correlation structure through the joint categorization of all covariates. To evaluate the performance, we applied the proposed methods and four existing categorization methods in 3 credit scoring databases and in two simulated cenarios. The results in the real databases suggest that the proposed univariate class of categorization methods performs better than the existing methods when we compare the predictive power of the logistic regression model. The results in the simulated databases suggest that both proposed classes perform better than the existing methods. Regarding computational performance, the multivariate method is inferior and the univariate method is superior to the existing methods.Biblioteca Digitais de Teses e Dissertações da USPPereira, Gustavo Henrique de AraujoSilva, Diego Mattozo Bernardes da2017-06-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/104/104131/tde-27092017-092122/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2018-07-17T16:38:18Zoai:teses.usp.br:tde-27092017-092122Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212018-07-17T16:38:18Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias Categorization methods for predictor variables in binary regression models |
title |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias |
spellingShingle |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias Silva, Diego Mattozo Bernardes da Categorização de variáveis preditoras Categorization of predictor variables Credit scoring Regressão Regression Risco de crédito |
title_short |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias |
title_full |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias |
title_fullStr |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias |
title_full_unstemmed |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias |
title_sort |
Métodos de categorização de variáveis preditoras em modelos de regressão para variáveis binárias |
author |
Silva, Diego Mattozo Bernardes da |
author_facet |
Silva, Diego Mattozo Bernardes da |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pereira, Gustavo Henrique de Araujo |
dc.contributor.author.fl_str_mv |
Silva, Diego Mattozo Bernardes da |
dc.subject.por.fl_str_mv |
Categorização de variáveis preditoras Categorization of predictor variables Credit scoring Regressão Regression Risco de crédito |
topic |
Categorização de variáveis preditoras Categorization of predictor variables Credit scoring Regressão Regression Risco de crédito |
description |
Modelos de regressão para variáveis resposta binárias são muito comuns em diversas áreas do conhecimento. O modelo mais utilizado nessas situações é o modelo de regressão logística, que assume que o logito da probabilidade de ocorrência de um dos valores da variável resposta é uma função linear das variáveis preditoras. Quando essa suposição não é razoável, algumas possíveis alternativas são: realizar transformação das variáveis preditoras e/ou inserir termos quadráticos ou cúbicos no modelo. O problema dessa abordagem é que ela dificulta bastante a interpretação dos parâmetros do modelo e, em algumas áreas, é fundamental que eles sejam interpretáveis. Assim, uma abordagem muitas vezes utilizada é a categorização das variáveis preditoras quantitativas do modelo. Sendo assim, este trabalho tem como objetivo propor duas novas classes de métodos de categorização de variáveis contínuas em modelos de regressão para variáveis resposta binárias. A primeira classe de métodos é univariada e busca maximizar a associação entre a variável resposta e a covariável categorizada utilizando medidas de associação para variáveis qualitativas. Já a classe de métodos multivariada tenta incorporar a estrutura de dependência entre as covariáveis do modelo através da categorização conjunta de todas as variáveis preditoras. Para avaliar o desempenho, aplicamos as classes de métodos propostas e quatro métodos de categorização existentes em 3 bases de dados relacionadas à área de risco de crédito e a dois cenários de dados simulados. Os resultados nas bases reais sugerem que a classe univariada proposta têm um desempenho superior aos métodos existentes quando comparamos o poder preditivo do modelo de regressão logística. Já os resultados nas bases de dados simuladas sugerem que ambas as classes propostas possuem um desempenho superior aos métodos existentes. Em relação ao desempenho computacional, o método multivariado mostrou-se inferior e o univariado é superior aos métodos existentes. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-06-13 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/104/104131/tde-27092017-092122/ |
url |
http://www.teses.usp.br/teses/disponiveis/104/104131/tde-27092017-092122/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257460467826688 |