Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados

Detalhes bibliográficos
Autor(a) principal: Reis, Leticia Ferreira Murça
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/
Resumo: A expressão dados binários desbalanceados refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: logit e probit. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Portanto, este trabalho tem como objetivo apresentar novas funções de ligação assimétricas geradas a partir de transformações da distribuição Lomax. As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em softwares estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o link logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações.
id USP_5bf8db772ae93d9346b9d8362f671996
oai_identifier_str oai:teses.usp.br:tde-28082023-201136
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceadosAsymmetric Lomax models: a new approach to imbalanced binary data classificationAsymmetric linksBayesian estimationBinary regressionDados desbalanceadosDistribuição LomaxEstimação BayesianaImbalanced dataLinks assimétricosLomax distributionRegressão bináriaA expressão dados binários desbalanceados refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: logit e probit. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Portanto, este trabalho tem como objetivo apresentar novas funções de ligação assimétricas geradas a partir de transformações da distribuição Lomax. As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em softwares estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o link logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações.Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two application.Biblioteca Digitais de Teses e Dissertações da USPLouzada Neto, FranciscoReis, Leticia Ferreira Murça2023-05-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-08-28T23:19:02Zoai:teses.usp.br:tde-28082023-201136Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-08-28T23:19:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
Asymmetric Lomax models: a new approach to imbalanced binary data classification
title Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
spellingShingle Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
Reis, Leticia Ferreira Murça
Asymmetric links
Bayesian estimation
Binary regression
Dados desbalanceados
Distribuição Lomax
Estimação Bayesiana
Imbalanced data
Links assimétricos
Lomax distribution
Regressão binária
title_short Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_full Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_fullStr Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_full_unstemmed Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
title_sort Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
author Reis, Leticia Ferreira Murça
author_facet Reis, Leticia Ferreira Murça
author_role author
dc.contributor.none.fl_str_mv Louzada Neto, Francisco
dc.contributor.author.fl_str_mv Reis, Leticia Ferreira Murça
dc.subject.por.fl_str_mv Asymmetric links
Bayesian estimation
Binary regression
Dados desbalanceados
Distribuição Lomax
Estimação Bayesiana
Imbalanced data
Links assimétricos
Lomax distribution
Regressão binária
topic Asymmetric links
Bayesian estimation
Binary regression
Dados desbalanceados
Distribuição Lomax
Estimação Bayesiana
Imbalanced data
Links assimétricos
Lomax distribution
Regressão binária
description A expressão dados binários desbalanceados refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: logit e probit. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Portanto, este trabalho tem como objetivo apresentar novas funções de ligação assimétricas geradas a partir de transformações da distribuição Lomax. As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em softwares estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o link logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações.
publishDate 2023
dc.date.none.fl_str_mv 2023-05-17
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/
url https://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257440480919552