Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/ |
Resumo: | A expressão dados binários desbalanceados refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: logit e probit. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Portanto, este trabalho tem como objetivo apresentar novas funções de ligação assimétricas geradas a partir de transformações da distribuição Lomax. As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em softwares estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o link logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações. |
id |
USP_5bf8db772ae93d9346b9d8362f671996 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-28082023-201136 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceadosAsymmetric Lomax models: a new approach to imbalanced binary data classificationAsymmetric linksBayesian estimationBinary regressionDados desbalanceadosDistribuição LomaxEstimação BayesianaImbalanced dataLinks assimétricosLomax distributionRegressão bináriaA expressão dados binários desbalanceados refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: logit e probit. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Portanto, este trabalho tem como objetivo apresentar novas funções de ligação assimétricas geradas a partir de transformações da distribuição Lomax. As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em softwares estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o link logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações.Imbalanced data refers to a dataset where one class has significantly fewer observations than the other class. This can lead to poor performance of both machine learning algorithms and statistical models, since most of these tools assume that the data has the same proportion of observations in both categories. To deal with this challenge, several authors suggest the use of asymmetric link functions in binary regression, instead of the well-known symmetric link functions: logit and probit. Thus, it is possible not only to improve the predictive performance of the model, but also to reduce the bias in the estimation of parameters and probabilities. Therefore, this work aims to present new asymmetric link functions generated from the transformations of the Lomax distribution. The proposed functions have proven asymmetry and can be easily implemented in statistical softwares. In addition, the simulation study indicates that these functions can perform better than logistic regression in various imbalanced classification scenarios. They also proved to be promising in modeling real-world datasets, as in this work we obtained better results than classic link functions in two application.Biblioteca Digitais de Teses e Dissertações da USPLouzada Neto, FranciscoReis, Leticia Ferreira Murça2023-05-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-08-28T23:19:02Zoai:teses.usp.br:tde-28082023-201136Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-08-28T23:19:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados Asymmetric Lomax models: a new approach to imbalanced binary data classification |
title |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
spellingShingle |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados Reis, Leticia Ferreira Murça Asymmetric links Bayesian estimation Binary regression Dados desbalanceados Distribuição Lomax Estimação Bayesiana Imbalanced data Links assimétricos Lomax distribution Regressão binária |
title_short |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_full |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_fullStr |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_full_unstemmed |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
title_sort |
Modelos Lomax assimétricos: uma nova abordagem para a classificação de dados binários desbalanceados |
author |
Reis, Leticia Ferreira Murça |
author_facet |
Reis, Leticia Ferreira Murça |
author_role |
author |
dc.contributor.none.fl_str_mv |
Louzada Neto, Francisco |
dc.contributor.author.fl_str_mv |
Reis, Leticia Ferreira Murça |
dc.subject.por.fl_str_mv |
Asymmetric links Bayesian estimation Binary regression Dados desbalanceados Distribuição Lomax Estimação Bayesiana Imbalanced data Links assimétricos Lomax distribution Regressão binária |
topic |
Asymmetric links Bayesian estimation Binary regression Dados desbalanceados Distribuição Lomax Estimação Bayesiana Imbalanced data Links assimétricos Lomax distribution Regressão binária |
description |
A expressão dados binários desbalanceados refere-se a um conjunto de dados em que uma das classes apresenta significativamente menos observações do que a outra. Isso prejudica a performance tanto de algoritmos de aprendizado de máquina como de modelos estatísticos, visto que a maioria dessas ferramentas supõe que os dados apresentam a mesma proporção de observações nas duas categorias. Para lidar com esse desafio, vários autores sugerem o uso de funções de ligação assimétricas na regressão binária, em detrimento das conhecidas funções de ligação simétricas: logit e probit. Assim, é possível não só melhorar a performance preditiva do modelo, como também reduzir o viés na estimação de parâmetros e de probabilidades. Portanto, este trabalho tem como objetivo apresentar novas funções de ligação assimétricas geradas a partir de transformações da distribuição Lomax. As funções propostas possuem assimetria comprovada e podem ser facilmente implementadas em softwares estatísticos. Além disso, o estudo de simulações aponta que as funções de ligação propostas neste trabalho podem performar melhor que o link logístico em diversos cenários de desbalanceamento. O uso dessas funções também se mostrou promissor na modelagem de dados reais, visto que neste trabalho obteve melhores métricas que as funções de ligação clássicas em duas aplicações. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-05-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/ |
url |
https://www.teses.usp.br/teses/disponiveis/104/104131/tde-28082023-201136/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257440480919552 |