Modelos de regressão para resposta binária na presença de dados desbalanceados

Detalhes bibliográficos
Autor(a) principal: Huayanay, Alex de la Cruz
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/
Resumo: Na regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos.
id USP_7ce81b04c7cd740ed00bdd53f37d43a2
oai_identifier_str oai:teses.usp.br:tde-08082019-103210
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Modelos de regressão para resposta binária na presença de dados desbalanceadosRegression models for binary response in the presence of imbalanced dataAsymmetric linkBinary regressionDados desbalanceadosImbalanced dataLigação assimétricaMedidas de similaridadeQuantile residualsRegressão bináriaResíduos quantílicosSimilarity measuresNa regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos.In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residualsBiblioteca Digitais de Teses e Dissertações da USPGuzmán, Jorge Luis BazánHuayanay, Alex de la Cruz2019-02-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-11-08T20:49:37Zoai:teses.usp.br:tde-08082019-103210Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-11-08T20:49:37Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Modelos de regressão para resposta binária na presença de dados desbalanceados
Regression models for binary response in the presence of imbalanced data
title Modelos de regressão para resposta binária na presença de dados desbalanceados
spellingShingle Modelos de regressão para resposta binária na presença de dados desbalanceados
Huayanay, Alex de la Cruz
Asymmetric link
Binary regression
Dados desbalanceados
Imbalanced data
Ligação assimétrica
Medidas de similaridade
Quantile residuals
Regressão binária
Resíduos quantílicos
Similarity measures
title_short Modelos de regressão para resposta binária na presença de dados desbalanceados
title_full Modelos de regressão para resposta binária na presença de dados desbalanceados
title_fullStr Modelos de regressão para resposta binária na presença de dados desbalanceados
title_full_unstemmed Modelos de regressão para resposta binária na presença de dados desbalanceados
title_sort Modelos de regressão para resposta binária na presença de dados desbalanceados
author Huayanay, Alex de la Cruz
author_facet Huayanay, Alex de la Cruz
author_role author
dc.contributor.none.fl_str_mv Guzmán, Jorge Luis Bazán
dc.contributor.author.fl_str_mv Huayanay, Alex de la Cruz
dc.subject.por.fl_str_mv Asymmetric link
Binary regression
Dados desbalanceados
Imbalanced data
Ligação assimétrica
Medidas de similaridade
Quantile residuals
Regressão binária
Resíduos quantílicos
Similarity measures
topic Asymmetric link
Binary regression
Dados desbalanceados
Imbalanced data
Ligação assimétrica
Medidas de similaridade
Quantile residuals
Regressão binária
Resíduos quantílicos
Similarity measures
description Na regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos.
publishDate 2019
dc.date.none.fl_str_mv 2019-02-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/
url http://www.teses.usp.br/teses/disponiveis/104/104131/tde-08082019-103210/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256807618117632