Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados

Detalhes bibliográficos
Autor(a) principal: Reis, Leticia Ferreira Murça
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/18245
Resumo: Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications.
id SCAR_483371689afc93ab64c9f490dd5fbc9a
oai_identifier_str oai:repositorio.ufscar.br:ufscar/18245
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Reis, Leticia Ferreira MurçaLouzada Neto, Franciscohttp://lattes.cnpq.br/0994050156415890http://lattes.cnpq.br/1853894627465547https://orcid.org/0000-0001-7815-95548dc2c4ff-655d-43d8-b5ca-35fe7fe416fe2023-07-06T16:24:31Z2023-07-06T16:24:31Z2023-05-17REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245.https://repositorio.ufscar.br/handle/ufscar/18245Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications.A expressão "dados binários desbalanceados" refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: \textit{logit} e \textit{probit}. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Essa é uma solução que gera modelos probabilísticos, os quais se destacam na tomada de decisão em comparação com aqueles que simplesmente atribuem uma única classe, sem levar em consideração a probabilidade associada a ela. Portanto, o objetivo deste trabalho é introduzir novas funções de ligação assimétricas que são geradas por meio de transformações da distribuição Lomax. Essas funções incluem as distribuições Double Lomax (DLomax), Potência Double Lomax (PDLomax) e Reversa de Potência Double Lomax (RPDLomax). As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em \textit{softwares} estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o \textit{link} logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)33001014045P7porUniversidade Federal de São CarlosCâmpus São CarlosPrograma de Pós-Graduação em Estatística - PPGEsUFSCarCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessDados desbalanceadosDistribuição LomaxEstimação BayesianaLinks assimétricosRegressão bináriaCIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOModelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceadosAsymmetric Lomax models: a new approach to imbalanced binary data classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis600d0f3b31a-38c4-4c28-aa5b-837ad377108ereponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALversao_final_dissertacao.pdfversao_final_dissertacao.pdfVersão final da dissertaçãoapplication/pdf3385199https://repositorio.ufscar.br/bitstream/ufscar/18245/1/versao_final_dissertacao.pdf8fba5505efb785480915cf3ea68d2e16MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8700https://repositorio.ufscar.br/bitstream/ufscar/18245/2/license_rdf79da7ba44461b593b4f6afc1f09853c4MD52TEXTversao_final_dissertacao.pdf.txtversao_final_dissertacao.pdf.txtExtracted texttext/plain134505https://repositorio.ufscar.br/bitstream/ufscar/18245/3/versao_final_dissertacao.pdf.txt71922a2dcaf33ec5492c2cd4b1af9cf4MD53ufscar/182452024-05-14 18:34:03.203oai:repositorio.ufscar.br:ufscar/18245Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T18:34:03Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
dc.title.alternative.eng.fl_str_mv Asymmetric Lomax models: a new approach to imbalanced binary data classification
title Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
spellingShingle Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
Reis, Leticia Ferreira Murça
Dados desbalanceados
Distribuição Lomax
Estimação Bayesiana
Links assimétricos
Regressão binária
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
title_short Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_full Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_fullStr Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_full_unstemmed Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_sort Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
author Reis, Leticia Ferreira Murça
author_facet Reis, Leticia Ferreira Murça
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1853894627465547
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0001-7815-9554
dc.contributor.author.fl_str_mv Reis, Leticia Ferreira Murça
dc.contributor.advisor1.fl_str_mv Louzada Neto, Francisco
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0994050156415890
dc.contributor.authorID.fl_str_mv 8dc2c4ff-655d-43d8-b5ca-35fe7fe416fe
contributor_str_mv Louzada Neto, Francisco
dc.subject.por.fl_str_mv Dados desbalanceados
Distribuição Lomax
Estimação Bayesiana
Links assimétricos
Regressão binária
topic Dados desbalanceados
Distribuição Lomax
Estimação Bayesiana
Links assimétricos
Regressão binária
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
description Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. This is a solution that generates probabilistic models, which excel in decision-making compared to those that simply assign a single class without considering the associated probability. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. These functions include the Double Lomax (DLomax), Power Double Lomax (PDLomax), and Reverse Power Double Lomax (RPDLomax) distributions. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two applications.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-07-06T16:24:31Z
dc.date.available.fl_str_mv 2023-07-06T16:24:31Z
dc.date.issued.fl_str_mv 2023-05-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/18245
identifier_str_mv REIS, Leticia Ferreira Murça. Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados. 2023. Dissertação (Mestrado em Estatística) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18245.
url https://repositorio.ufscar.br/handle/ufscar/18245
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
dc.relation.authority.fl_str_mv d0f3b31a-38c4-4c28-aa5b-837ad377108e
dc.rights.driver.fl_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Estatística - PPGEs
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/18245/1/versao_final_dissertacao.pdf
https://repositorio.ufscar.br/bitstream/ufscar/18245/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/18245/3/versao_final_dissertacao.pdf.txt
bitstream.checksum.fl_str_mv 8fba5505efb785480915cf3ea68d2e16
79da7ba44461b593b4f6afc1f09853c4
71922a2dcaf33ec5492c2cd4b1af9cf4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136424628092928