Modelos de regressão para resposta binária na presença de dados desbalanceados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/11103 |
Resumo: | In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residuals. |
id |
SCAR_41b9ee39f9a92a6a954ac7168e80f23f |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/11103 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Huayanay, Alex de La CruzBazán Guzmán, Jorge Luishttp://lattes.cnpq.br/7302778157579178http://lattes.cnpq.br/51749004952521395e0a0a4f-67a7-45c7-84e5-b54605105fe32019-03-19T21:57:07Z2019-03-19T21:57:07Z2019-02-22HUAYANAY, Alex de La Cruz. Modelos de regressão para resposta binária na presença de dados desbalanceados. 2019. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11103.https://repositorio.ufscar.br/handle/ufscar/11103In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residuals.Na regressão binária, o desbalanceamento de dados refere-se à presença de valores zeros (ou uns) numa proporção significativamente maior do que os correspondentes valores uns (ou zeros). Neste trabalho, estudamos dois métodos desenvolvidos para lidar com o desbalanceamento e comparamos eles com o uso de funções de ligação assimétrica potência e reversa de potência. Os resultados mostram que esses métodos não corrigem adequadamente o viés nas estimativas dos coeficientes de regressão e que os modelos com função de ligação assimétrica considerados produzem melhores resultados para certo tipo de desbalanceamento. Adicionalmente, apresentamos uma aplicação para dados desbalanceados identificando o melhor modelo entre vários modelos propostos. A estimação dos parâmetros é realizada sob abordagem Bayesiana considerando o método de estimação Monte Carlo Hamiltoniano usando o algoritmo No-U-Turn Sampler e as comparações dos modelos são desenvolvidas utilizando diferentes critérios para comparação de modelos, avaliação preditiva e resíduos quantílicos.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: Código do financiamento 001porUniversidade Federal de São CarlosCâmpus São CarlosPrograma Interinstitucional de Pós-Graduação em Estatística - PIPGEsUFSCarLigação assimétricaRegressão bináriaDados desbalanceadosResíduos quantílicosMedidas de similaridadeAsymmetric linkBinary regressionImbalanced dataQuantile residualsSimilarity measuresCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICAModelos de regressão para resposta binária na presença de dados desbalanceadosRegression models for binary response in the presence of imbalanced datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisOnline712d7773-fe6a-4a4f-a2f1-42684ef30b44info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALDissertacaoAlex.pdfDissertacaoAlex.pdfDissertação de mestradoapplication/pdf3392686https://repositorio.ufscar.br/bitstream/ufscar/11103/1/DissertacaoAlex.pdfadbe646da53ddfb1c95b11da2028b12bMD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81957https://repositorio.ufscar.br/bitstream/ufscar/11103/3/license.txtae0398b6f8b235e40ad82cba6c50031dMD53TEXTDissertacaoAlex.pdf.txtDissertacaoAlex.pdf.txtExtracted texttext/plain149151https://repositorio.ufscar.br/bitstream/ufscar/11103/4/DissertacaoAlex.pdf.txt5088c332576e4280c449268cada81088MD54THUMBNAILDissertacaoAlex.pdf.jpgDissertacaoAlex.pdf.jpgIM Thumbnailimage/jpeg8210https://repositorio.ufscar.br/bitstream/ufscar/11103/5/DissertacaoAlex.pdf.jpgfecd26caec7035656901e9adadad01dbMD55ufscar/111032023-09-18 18:31:22.006oai:repositorio.ufscar.br:ufscar/11103TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgw6AgVW5pdmVyc2lkYWRlCkZlZGVyYWwgZGUgU8OjbyBDYXJsb3MgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsICB0cmFkdXppciAoY29uZm9ybWUgZGVmaW5pZG8gYWJhaXhvKSwgZS9vdQpkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlCmVtIHF1YWxxdWVyIG1laW8sIGluY2x1aW5kbyBvcyBmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIGEgVUZTQ2FyIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28KcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGU0NhciBwb2RlIG1hbnRlciBtYWlzIGRlIHVtYSBjw7NwaWEgYSBzdWEgdGVzZSBvdQpkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcwpuZXN0YSBsaWNlbsOnYS4gVm9jw6ogdGFtYsOpbSBkZWNsYXJhIHF1ZSBvIGRlcMOzc2l0byBkYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG7Do28sIHF1ZSBzZWphIGRlIHNldQpjb25oZWNpbWVudG8sIGluZnJpbmdlIGRpcmVpdG9zIGF1dG9yYWlzIGRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6oKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFVGU0NhcgpvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUKaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRlNDYXIsClZPQ8OKIERFQ0xBUkEgUVVFIFJFU1BFSVRPVSBUT0RPUyBFIFFVQUlTUVVFUiBESVJFSVRPUyBERSBSRVZJU8ODTyBDT01PClRBTULDiU0gQVMgREVNQUlTIE9CUklHQcOHw5VFUyBFWElHSURBUyBQT1IgQ09OVFJBVE8gT1UgQUNPUkRPLgoKQSBVRlNDYXIgc2UgY29tcHJvbWV0ZSBhIGlkZW50aWZpY2FyIGNsYXJhbWVudGUgbyBzZXUgbm9tZSAocykgb3UgbyhzKSBub21lKHMpIGRvKHMpCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzCmNvbmNlZGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:31:22Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
dc.title.alternative.eng.fl_str_mv |
Regression models for binary response in the presence of imbalanced data |
title |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
spellingShingle |
Modelos de regressão para resposta binária na presença de dados desbalanceados Huayanay, Alex de La Cruz Ligação assimétrica Regressão binária Dados desbalanceados Resíduos quantílicos Medidas de similaridade Asymmetric link Binary regression Imbalanced data Quantile residuals Similarity measures CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
title_short |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_full |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_fullStr |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_full_unstemmed |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
title_sort |
Modelos de regressão para resposta binária na presença de dados desbalanceados |
author |
Huayanay, Alex de La Cruz |
author_facet |
Huayanay, Alex de La Cruz |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/5174900495252139 |
dc.contributor.author.fl_str_mv |
Huayanay, Alex de La Cruz |
dc.contributor.advisor1.fl_str_mv |
Bazán Guzmán, Jorge Luis |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7302778157579178 |
dc.contributor.authorID.fl_str_mv |
5e0a0a4f-67a7-45c7-84e5-b54605105fe3 |
contributor_str_mv |
Bazán Guzmán, Jorge Luis |
dc.subject.por.fl_str_mv |
Ligação assimétrica Regressão binária Dados desbalanceados Resíduos quantílicos Medidas de similaridade |
topic |
Ligação assimétrica Regressão binária Dados desbalanceados Resíduos quantílicos Medidas de similaridade Asymmetric link Binary regression Imbalanced data Quantile residuals Similarity measures CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
dc.subject.eng.fl_str_mv |
Asymmetric link Binary regression Imbalanced data Quantile residuals Similarity measures |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA |
description |
In binary regression, imbalanced data result from the presence of values equal to zero (or one) in a proportion that is significantly greater than the corresponding real values of one (or zero). In this work, we evaluate two methods developed to deal with imbalanced data and compare them to the use of asymmetric links. The results based on simulation study show, that correction methods do not adequately correct bias in the estimation of regression coefficients and that the models with power links and reverse power considered produce better results for certain types of imbalanced data. Additionally, we present an application for imbalanced data, identifying the best model among the various ones proposed. The parameters are estimated using a Bayesian approach, considering the Hamiltonian Monte-Carlo method, utilizing the No-U-Turn Sampler algorithm and the comparisons of models were developed using different criteria for model comparison, predictive evaluation and quantile residuals. |
publishDate |
2019 |
dc.date.accessioned.fl_str_mv |
2019-03-19T21:57:07Z |
dc.date.available.fl_str_mv |
2019-03-19T21:57:07Z |
dc.date.issued.fl_str_mv |
2019-02-22 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
HUAYANAY, Alex de La Cruz. Modelos de regressão para resposta binária na presença de dados desbalanceados. 2019. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11103. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/11103 |
identifier_str_mv |
HUAYANAY, Alex de La Cruz. Modelos de regressão para resposta binária na presença de dados desbalanceados. 2019. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2019. Disponível em: https://repositorio.ufscar.br/handle/ufscar/11103. |
url |
https://repositorio.ufscar.br/handle/ufscar/11103 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.authority.fl_str_mv |
712d7773-fe6a-4a4f-a2f1-42684ef30b44 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa Interinstitucional de Pós-Graduação em Estatística - PIPGEs |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/11103/1/DissertacaoAlex.pdf https://repositorio.ufscar.br/bitstream/ufscar/11103/3/license.txt https://repositorio.ufscar.br/bitstream/ufscar/11103/4/DissertacaoAlex.pdf.txt https://repositorio.ufscar.br/bitstream/ufscar/11103/5/DissertacaoAlex.pdf.jpg |
bitstream.checksum.fl_str_mv |
adbe646da53ddfb1c95b11da2028b12b ae0398b6f8b235e40ad82cba6c50031d 5088c332576e4280c449268cada81088 fecd26caec7035656901e9adadad01db |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1813715600982147072 |