Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/18245 |
Resumo: | Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications. |
id |
SCAR_483371689afc93ab64c9f490dd5fbc9a |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/18245 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Reis, Leticia Ferreira MurçaLouzada Neto, Franciscohttp://lattes.cnpq.br/0994050156415890http://lattes.cnpq.br/1853894627465547https://orcid.org/0000-0001-7815-95548dc2c4ff-655d-43d8-b5ca-35fe7fe416fe2023-07-06T16:24:31Z2023-07-06T16:24:31Z2023-05-17REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245.https://repositorio.ufscar.br/handle/ufscar/18245Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications.A expressão "dados binários desbalanceados" refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: \textit{logit} e \textit{probit}. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Essa é uma solução que gera modelos probabilísticos, os quais se destacam na tomada de decisão em comparação com aqueles que simplesmente atribuem uma única classe, sem levar em consideração a probabilidade associada a ela. Portanto, o objetivo deste trabalho é introduzir novas funções de ligação assimétricas que são geradas por meio de transformações da distribuição Lomax. Essas funções incluem as distribuições Double Lomax (DLomax), Potência Double Lomax (PDLomax) e Reversa de Potência Double Lomax (RPDLomax). As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em \textit{softwares} estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o \textit{link} logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)33001014045P7porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Estatística - PPGEsUFSCarCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessDados desbalanceadosDistribuição LomaxEstimação BayesianaLinks assimétricosRegressão bináriaCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOModelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceadosAsymmetric Lomax models: a new approach to imbalanced binary data classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600d0f3b31a-38c4-4c28-aa5b-837ad377108ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALversao_final_dissertacao.pdfversao_final_dissertacao.pdfVersão final da dissertaçãoapplication/pdf3385199https://repositorio.ufscar.br/bitstream/ufscar/18245/1/versao_final_dissertacao.pdf8fba5505efb785480915cf3ea68d2e16MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8700https://repositorio.ufscar.br/bitstream/ufscar/18245/2/license_rdf79da7ba44461b593b4f6afc1f09853c4MD52TEXTversao_final_dissertacao.pdf.txtversao_final_dissertacao.pdf.txtExtracted texttext/plain134505https://repositorio.ufscar.br/bitstream/ufscar/18245/3/versao_final_dissertacao.pdf.txt71922a2dcaf33ec5492c2cd4b1af9cf4MD53ufscar/182452024-05-14 18:34:03.203oai:repositorio.ufscar.br:ufscar/18245Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T18:34:03Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
dc.title.alternative.eng.fl_str_mv |
Asymmetric Lomax models: a new approach to imbalanced binary data classification |
title |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
spellingShingle |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados Reis, Leticia Ferreira Murça Dados desbalanceados Distribuição Lomax Estimação Bayesiana Links assimétricos Regressão binária CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
title_short |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_full |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_fullStr |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_full_unstemmed |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_sort |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
author |
Reis, Leticia Ferreira Murça |
author_facet |
Reis, Leticia Ferreira Murça |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1853894627465547 |
dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0001-7815-9554 |
dc.contributor.author.fl_str_mv |
Reis, Leticia Ferreira Murça |
dc.contributor.advisor1.fl_str_mv |
Louzada Neto, Francisco |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/0994050156415890 |
dc.contributor.authorID.fl_str_mv |
8dc2c4ff-655d-43d8-b5ca-35fe7fe416fe |
contributor_str_mv |
Louzada Neto, Francisco |
dc.subject.por.fl_str_mv |
Dados desbalanceados Distribuição Lomax Estimação Bayesiana Links assimétricos Regressão binária |
topic |
Dados desbalanceados Distribuição Lomax Estimação Bayesiana Links assimétricos Regressão binária CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
description |
Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-07-06T16:24:31Z |
dc.date.available.fl_str_mv |
2023-07-06T16:24:31Z |
dc.date.issued.fl_str_mv |
2023-05-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/18245 |
identifier_str_mv |
REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245. |
url |
https://repositorio.ufscar.br/handle/ufscar/18245 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 |
dc.relation.authority.fl_str_mv |
d0f3b31a-38c4-4c28-aa5b-837ad377108e |
dc.rights.driver.fl_str_mv |
CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC0 1.0 Universal http://creativecommons.org/publicdomain/zero/1.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Estatística - PPGEs |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/18245/1/versao_final_dissertacao.pdf https://repositorio.ufscar.br/bitstream/ufscar/18245/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/18245/3/versao_final_dissertacao.pdf.txt |
bitstream.checksum.fl_str_mv |
8fba5505efb785480915cf3ea68d2e16 79da7ba44461b593b4f6afc1f09853c4 71922a2dcaf33ec5492c2cd4b1af9cf4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136424628092928 |