Medidas de avaliação de classificadores binários para classes desbalanceadas

Detalhes bibliográficos
Autor(a) principal: Ferreira, Gabriel Gomes
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/
Resumo: Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
id USP_4c29e001672e3a70db496732998a4833
oai_identifier_str oai:teses.usp.br:tde-13122022-173125
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Medidas de avaliação de classificadores binários para classes desbalanceadasEvaluation measures of binary classifiers for unbalanced classesAprendizado de máquinaAvaliação de modelosBinary regressionClassificadorClassificationDesbalanceamento de classesMachine learningModel evaluationRegressão bináriaUnbalanced classesQuando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.When we talk about machine learning it is very common to get into the context of automatic classifiers, and an even more common process is when we talk about classifiers with only two classification options or also called binary regressions. We find in the literature several models and algorithms that allow the binary classification to be done in different ways from explanatory variables, such as: decision trees, ensemble methods, support vector machines, neural networks and the logistic regression model itself. Besides the algorithms themselves, there are also several measures of how to measure the performance of these models, such as: accuracy, sensitivity, specificity, f1-score and area under the ROC curve. However, we can easily face the situation that the classes in which we want to label our observations are not proportional, that is, we have unbalanced groups in which the proportion of elements of a certain class is much higher than the proportion of the remaining class. And an even bigger problem than fitting models for these scenarios is to be able to evaluate them correctly. In this paper we intend to evaluate some of the main model performance measures found in the literature and understand their behavior when evaluating binary classifiers. From this, we intend to propose a measure or methodology based on a simulation study, which can be a practical alternative in real data situations with unbalanced binary classes and thus a more efficient alternative in model evaluation. From the analysis of 12 measures of predictive evaluation, measures of goodness of fit and other measures of overall model performance, we were able to define 3 factors in the way that the measures can be grouped according to the different levels of unbalance of our response variable to ensure a complete evaluation of the classifiers. And even in a real data application with the use of binary classifiers it was possible to understand how the nuances of the obtained values can be observed to define a winning model.Biblioteca Digitais de Teses e Dissertações da USPGuzmán, Jorge Luis BazánFerreira, Gabriel Gomes2022-10-06info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2022-12-13T19:40:51Zoai:teses.usp.br:tde-13122022-173125Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-12-13T19:40:51Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Medidas de avaliação de classificadores binários para classes desbalanceadas
Evaluation measures of binary classifiers for unbalanced classes
title Medidas de avaliação de classificadores binários para classes desbalanceadas
spellingShingle Medidas de avaliação de classificadores binários para classes desbalanceadas
Ferreira, Gabriel Gomes
Aprendizado de máquina
Avaliação de modelos
Binary regression
Classificador
Classification
Desbalanceamento de classes
Machine learning
Model evaluation
Regressão binária
Unbalanced classes
title_short Medidas de avaliação de classificadores binários para classes desbalanceadas
title_full Medidas de avaliação de classificadores binários para classes desbalanceadas
title_fullStr Medidas de avaliação de classificadores binários para classes desbalanceadas
title_full_unstemmed Medidas de avaliação de classificadores binários para classes desbalanceadas
title_sort Medidas de avaliação de classificadores binários para classes desbalanceadas
author Ferreira, Gabriel Gomes
author_facet Ferreira, Gabriel Gomes
author_role author
dc.contributor.none.fl_str_mv Guzmán, Jorge Luis Bazán
dc.contributor.author.fl_str_mv Ferreira, Gabriel Gomes
dc.subject.por.fl_str_mv Aprendizado de máquina
Avaliação de modelos
Binary regression
Classificador
Classification
Desbalanceamento de classes
Machine learning
Model evaluation
Regressão binária
Unbalanced classes
topic Aprendizado de máquina
Avaliação de modelos
Binary regression
Classificador
Classification
Desbalanceamento de classes
Machine learning
Model evaluation
Regressão binária
Unbalanced classes
description Quando falamos de aprendizado de máquina é muito comum entrarmos no contexto de classificadores automáticos, e um processo ainda mais comum ainda é quando falamos de classificadores com apenas duas opções de classificação ou também chamados de regressões binárias. Encontramos na literatura diversos modelos e algoritmos que permitem que a classificação binária seja feita de diferentes maneiras a partir de variáveis explicativas, como por exemplo: as árvores de decisão, os métodos de ensemble, as máquinas de vetores de suporte, as redes neurais e o próprio modelo de regressão logística. Além dos próprios algoritmos, existem também diversas medidas de como mensurar a performance desses modelos, como por exemplo: acurácia, sensibilidade, especificidade, f1-score e área sob a curva ROC. Porém, podemos facilmente nos deparar com a situação das classes em que queremos rotular nossas observações não serem proporcionais, ou seja, temos grupos desiquilibrados em que a proporção de elementos de determinada classe é muito maior que a proporção da classe restante. E um problema maior ainda do que ajustar modelos para estes cenários é conseguir avaliá-los corretamente. Nesse trabalho pretendemos trazer uma avaliação de algumas das principais medidas de performance de modelos encontradas na literatura e entender seus comportamentos ao avaliar classificadores binários. A partir disso, pretendemos propor uma medida ou metodologia fundamentada a partir de um estudo de simulação, que possa ser uma alternativa prática em situações de dados reais com classes binárias desbalanceadas e assim, uma alternativa mais eficiente na avaliação de modelos. A partir da análise de 12 medidas de avaliação preditiva, medidas de bondade de ajuste e outras medidas de performance geral dos modelos, pudemos definir 3 fatores da forma que as medidas podem ser agrupadas de acordo com os diferentes níveis de desbalanceamento da nossa variável resposta para garantir uma avaliação completa dos classificadores. E mesmo em uma aplicação de dados reais com o uso de classificadores binários foi possível entender como as nuances de valores obtidos podem ser observados apra definir um modelo vencedor.
publishDate 2022
dc.date.none.fl_str_mv 2022-10-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/
url https://www.teses.usp.br/teses/disponiveis/55/55137/tde-13122022-173125/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090698233774080