Modelos de regressão para resposta binária na presença de dados desbalanceados

Detalhes bibliográficos
Autor(a) principal: Huayanay, Alex de La Cruz
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/11103
Resumo: In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residuals.
id SCAR_41b9ee39f9a92a6a954ac7168e80f23f
oai_identifier_str oai:repositorio.ufscar.br:ufscar/11103
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Huayanay, Alex de La CruzBazán Guzmán, Jorge Luishttp://lattes.cnpq.br/7302778157579178http://lattes.cnpq.br/51749004952521395e0a0a4f-67a7-45c7-84e5-b54605105fe32019-03-19T21:57:07Z2019-03-19T21:57:07Z2019-02-22HUAYANAY, Alex de La Cruz. Modelos de regressão para resposta binária na presença de dados desbalanceados. 2019. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11103.https://repositorio.ufscar.br/handle/ufscar/11103In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residuals.Na regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código do financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarLigação assimétricaRegressão bináriaDados desbalanceadosResíduos quantílicosMedidas de similaridadeAsymmetric linkBinary regressionImbalanced dataQuantile residualsSimilarity measuresCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAModelos de regressão para resposta binária na presença de dados desbalanceadosRegression models for binary response in the presence of imbalanced datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOnline712d7773-fe6a-4a4f-a2f1-42684ef30b44info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacaoAlex.pdfDissertacaoAlex.pdfDissertação de mestradoapplication/pdf3392686https://repositorio.ufscar.br/bitstream/ufscar/11103/1/DissertacaoAlex.pdfadbe646da53ddfb1c95b11da2028b12bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81957https://repositorio.ufscar.br/bitstream/ufscar/11103/3/license.txtae0398b6f8b235e40ad82cba6c50031dMD53TEXTDissertacaoAlex.pdf.txtDissertacaoAlex.pdf.txtExtracted texttext/plain149151https://repositorio.ufscar.br/bitstream/ufscar/11103/4/DissertacaoAlex.pdf.txt5088c332576e4280c449268cada81088MD54THUMBNAILDissertacaoAlex.pdf.jpgDissertacaoAlex.pdf.jpgIM Thumbnailimage/jpeg8210https://repositorio.ufscar.br/bitstream/ufscar/11103/5/DissertacaoAlex.pdf.jpgfecd26caec7035656901e9adadad01dbMD55ufscar/111032023-09-18 18:31:22.006oai:repositorio.ufscar.br:ufscar/11103TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlCkZlZGVyYWwgZGUgU8OjbyBDYXJsb3MgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdQpkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlCmVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZTQ2FyIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28KcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGU0NhciBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdQpkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcwpuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldQpjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6oKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVGU0NhcgpvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRlNDYXIsClZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBVRlNDYXIgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzCmNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:22Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelos de regressão para resposta binária na presença de dados desbalanceados
dc.title.alternative.eng.fl_str_mv Regression models for binary response in the presence of imbalanced data
title Modelos de regressão para resposta binária na presença de dados desbalanceados
spellingShingle Modelos de regressão para resposta binária na presença de dados desbalanceados
Huayanay, Alex de La Cruz
Ligação assimétrica
Regressão binária
Dados desbalanceados
Resíduos quantílicos
Medidas de similaridade
Asymmetric link
Binary regression
Imbalanced data
Quantile residuals
Similarity measures
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
title_short Modelos de regressão para resposta binária na presença de dados desbalanceados
title_full Modelos de regressão para resposta binária na presença de dados desbalanceados
title_fullStr Modelos de regressão para resposta binária na presença de dados desbalanceados
title_full_unstemmed Modelos de regressão para resposta binária na presença de dados desbalanceados
title_sort Modelos de regressão para resposta binária na presença de dados desbalanceados
author Huayanay, Alex de La Cruz
author_facet Huayanay, Alex de La Cruz
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/5174900495252139
dc.contributor.author.fl_str_mv Huayanay, Alex de La Cruz
dc.contributor.advisor1.fl_str_mv Bazán Guzmán, Jorge Luis
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/7302778157579178
dc.contributor.authorID.fl_str_mv 5e0a0a4f-67a7-45c7-84e5-b54605105fe3
contributor_str_mv Bazán Guzmán, Jorge Luis
dc.subject.por.fl_str_mv Ligação assimétrica
Regressão binária
Dados desbalanceados
Resíduos quantílicos
Medidas de similaridade
topic Ligação assimétrica
Regressão binária
Dados desbalanceados
Resíduos quantílicos
Medidas de similaridade
Asymmetric link
Binary regression
Imbalanced data
Quantile residuals
Similarity measures
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
dc.subject.eng.fl_str_mv Asymmetric link
Binary regression
Imbalanced data
Quantile residuals
Similarity measures
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA
description In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residuals.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-03-19T21:57:07Z
dc.date.available.fl_str_mv 2019-03-19T21:57:07Z
dc.date.issued.fl_str_mv 2019-02-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv HUAYANAY, Alex de La Cruz. Modelos de regressão para resposta binária na presença de dados desbalanceados. 2019. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11103.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/11103
identifier_str_mv HUAYANAY, Alex de La Cruz. Modelos de regressão para resposta binária na presença de dados desbalanceados. 2019. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11103.
url https://repositorio.ufscar.br/handle/ufscar/11103
dc.language.iso.fl_str_mv por
language por
dc.relation.authority.fl_str_mv 712d7773-fe6a-4a4f-a2f1-42684ef30b44
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/11103/1/DissertacaoAlex.pdf
https://repositorio.ufscar.br/bitstream/ufscar/11103/3/license.txt
https://repositorio.ufscar.br/bitstream/ufscar/11103/4/DissertacaoAlex.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/11103/5/DissertacaoAlex.pdf.jpg
bitstream.checksum.fl_str_mv adbe646da53ddfb1c95b11da2028b12b
ae0398b6f8b235e40ad82cba6c50031d
5088c332576e4280c449268cada81088
fecd26caec7035656901e9adadad01db
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1813715600982147072