Modelos de regressão para resposta binária na presença de dados desbalanceados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/ |
Resumo: | Na regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos. |
id |
USP_7ce81b04c7cd740ed00bdd53f37d43a2 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-08082019-103210 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Modelos de regressão para resposta binária na presença de dados desbalanceadosRegression models for binary response in the presence of imbalanced dataAsymmetric linkBinary regressionDados desbalanceadosImbalanced dataLigação assimétricaMedidas de similaridadeQuantile residualsRegressão bináriaResíduos quantílicosSimilarity measuresNa regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos.In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residualsBiblioteca Digitais de Teses e Dissertações da USPGuzmán, Jorge Luis BazánHuayanay, Alex de la Cruz2019-02-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-11-08T20:49:37Zoai:teses.usp.br:tde-08082019-103210Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-11-08T20:49:37Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Modelos de regressão para resposta binária na presença de dados desbalanceados Regression models for binary response in the presence of imbalanced data |
title |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
spellingShingle |
Modelos de regressão para resposta binária na presença de dados desbalanceados Huayanay, Alex de la Cruz Asymmetric link Binary regression Dados desbalanceados Imbalanced data Ligação assimétrica Medidas de similaridade Quantile residuals Regressão binária Resíduos quantílicos Similarity measures |
title_short |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_full |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_fullStr |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_full_unstemmed |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_sort |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
author |
Huayanay, Alex de la Cruz |
author_facet |
Huayanay, Alex de la Cruz |
author_role |
author |
dc.contributor.none.fl_str_mv |
Guzmán, Jorge Luis Bazán |
dc.contributor.author.fl_str_mv |
Huayanay, Alex de la Cruz |
dc.subject.por.fl_str_mv |
Asymmetric link Binary regression Dados desbalanceados Imbalanced data Ligação assimétrica Medidas de similaridade Quantile residuals Regressão binária Resíduos quantílicos Similarity measures |
topic |
Asymmetric link Binary regression Dados desbalanceados Imbalanced data Ligação assimétrica Medidas de similaridade Quantile residuals Regressão binária Resíduos quantílicos Similarity measures |
description |
Na regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-02-22 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/ |
url |
http://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256807618117632 |