Medidas de avaliação de classificadores binários para classes desbalanceadas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ |
Resumo: | Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor. |
id |
USP_4c29e001672e3a70db496732998a4833 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-13122022-173125 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Medidas de avaliação de classificadores binários para classes desbalanceadasEvaluation measures of binary classifiers for unbalanced classesAprendizado de máquinaAvaliação de modelosBinary regressionClassificadorClassificationDesbalanceamento de classesMachine learningModel evaluationRegressão bináriaUnbalanced classesQuando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.When we talk about machine learning it is very common to get into the context of automatic classifiers, and an even more common process is when we talk about classifiers with only two classification options or also called binary regressions. We find in the literature several models and algorithms that allow the binary classification to be done in different ways from explanatory variables, such as: decision trees, ensemble methods, support vector machines, neural networks and the logistic regression model itself. Besides the algorithms themselves, there are also several measures of how to measure the performance of these models, such as: accuracy, sensitivity, specificity, f1-score and area under the ROC curve. However, we can easily face the situation that the classes in which we want to label our observations are not proportional, that is, we have unbalanced groups in which the proportion of elements of a certain class is much higher than the proportion of the remaining class. And an even bigger problem than fitting models for these scenarios is to be able to evaluate them correctly. In this paper we intend to evaluate some of the main model performance measures found in the literature and understand their behavior when evaluating binary classifiers. From this, we intend to propose a measure or methodology based on a simulation study, which can be a practical alternative in real data situations with unbalanced binary classes and thus a more efficient alternative in model evaluation. From the analysis of 12 measures of predictive evaluation, measures of goodness of fit and other measures of overall model performance, we were able to define 3 factors in the way that the measures can be grouped according to the different levels of unbalance of our response variable to ensure a complete evaluation of the classifiers. And even in a real data application with the use of binary classifiers it was possible to understand how the nuances of the obtained values can be observed to define a winning model.Biblioteca Digitais de Teses e Dissertações da USPGuzmán, Jorge Luis BazánFerreira, Gabriel Gomes2022-10-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-12-13T19:40:51Zoai:teses.usp.br:tde-13122022-173125Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-12-13T19:40:51Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Medidas de avaliação de classificadores binários para classes desbalanceadas Evaluation measures of binary classifiers for unbalanced classes |
title |
Medidas de avaliação de classificadores binários para classes desbalanceadas |
spellingShingle |
Medidas de avaliação de classificadores binários para classes desbalanceadas Ferreira, Gabriel Gomes Aprendizado de máquina Avaliação de modelos Binary regression Classificador Classification Desbalanceamento de classes Machine learning Model evaluation Regressão binária Unbalanced classes |
title_short |
Medidas de avaliação de classificadores binários para classes desbalanceadas |
title_full |
Medidas de avaliação de classificadores binários para classes desbalanceadas |
title_fullStr |
Medidas de avaliação de classificadores binários para classes desbalanceadas |
title_full_unstemmed |
Medidas de avaliação de classificadores binários para classes desbalanceadas |
title_sort |
Medidas de avaliação de classificadores binários para classes desbalanceadas |
author |
Ferreira, Gabriel Gomes |
author_facet |
Ferreira, Gabriel Gomes |
author_role |
author |
dc.contributor.none.fl_str_mv |
Guzmán, Jorge Luis Bazán |
dc.contributor.author.fl_str_mv |
Ferreira, Gabriel Gomes |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Avaliação de modelos Binary regression Classificador Classification Desbalanceamento de classes Machine learning Model evaluation Regressão binária Unbalanced classes |
topic |
Aprendizado de máquina Avaliação de modelos Binary regression Classificador Classification Desbalanceamento de classes Machine learning Model evaluation Regressão binária Unbalanced classes |
description |
Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-10-06 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090698233774080 |