Modelo de classificação para dados desbalanceados: método SMOTE e variantes

Detalhes bibliográficos
Autor(a) principal: Nora, Andrielle Couto
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/19545
Resumo: Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.
id SCAR_94b64449f22813e346d3603665edd575
oai_identifier_str oai:repositorio.ufscar.br:ufscar/19545
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Nora, Andrielle CoutoDiniz, Carlos Alberto Ribeirohttp://lattes.cnpq.br/3277371897783194http://lattes.cnpq.br/7319129806979557https://orcid.org/0000-0003-3464-11082024-02-28T21:45:16Z2024-02-28T21:45:16Z2024-01-29NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545.https://repositorio.ufscar.br/handle/ufscar/19545Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.Frequentemente, em modelos de classificação, nos deparamos com bancos de dados que possuem classes muito desbalanceadas, como por exemplo: dados de diagnóstico de doenças raras, defeitos de fabricação, transações fraudulentas, etc. Treinar um modelo em um conjunto de dados com poucas observações de uma determinada classe resulta em um desempenho preditivo ruim do mesmo, especialmente para as observações pertencentes à classe minoritária. Neste Trabalho de Conclusão de Curso (TCC), apresentamos e comparamos diferentes variantes do método SMOTE (Synthetic Minority Over-sampling TEchnique) de sobreamostragem de dados desbalanceados utilizados em modelos de classificação, especificamente, a Regressão Logística, a fim de demonstrar como essas técnicas podem melhorar a capacidade de identificar e prever observações da classe minoritária em cenários realistas e desbalanceados, além de determinar qual combinação entre a técnica de amostragem e o modelo de classificação de Regressão Logística leva a um melhor desempenho.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessDados desbalanceadosModelo de classificaçãoRegressão logísticaSobreamostragemMétodo SMOTECIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOModelo de classificação para dados desbalanceados: método SMOTE e variantesClassification model for unbalanced data: SMOTE method and variantsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdfMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdfRelatório de pesquisaapplication/pdf1075521https://repositorio.ufscar.br/bitstream/ufscar/19545/1/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf7de29ba12a8d58fc4d9e5acd11587fccMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/19545/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.txtMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.txtExtracted texttext/plain151356https://repositorio.ufscar.br/bitstream/ufscar/19545/3/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf.txt792a6a7001ae4c5533be31911d99c6d7MD53ufscar/195452024-05-14 17:35:44.286oai:repositorio.ufscar.br:ufscar/19545Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T17:35:44Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Modelo de classificação para dados desbalanceados: método SMOTE e variantes
dc.title.alternative.eng.fl_str_mv Classification model for unbalanced data: SMOTE method and variants
title Modelo de classificação para dados desbalanceados: método SMOTE e variantes
spellingShingle Modelo de classificação para dados desbalanceados: método SMOTE e variantes
Nora, Andrielle Couto
Dados desbalanceados
Modelo de classificação
Regressão logística
Sobreamostragem
Método SMOTE
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
title_short Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_full Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_fullStr Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_full_unstemmed Modelo de classificação para dados desbalanceados: método SMOTE e variantes
title_sort Modelo de classificação para dados desbalanceados: método SMOTE e variantes
author Nora, Andrielle Couto
author_facet Nora, Andrielle Couto
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/7319129806979557
dc.contributor.advisor1orcid.por.fl_str_mv https://orcid.org/0000-0003-3464-1108
dc.contributor.author.fl_str_mv Nora, Andrielle Couto
dc.contributor.advisor1.fl_str_mv Diniz, Carlos Alberto Ribeiro
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3277371897783194
contributor_str_mv Diniz, Carlos Alberto Ribeiro
dc.subject.por.fl_str_mv Dados desbalanceados
Modelo de classificação
Regressão logística
Sobreamostragem
Método SMOTE
topic Dados desbalanceados
Modelo de classificação
Regressão logística
Sobreamostragem
Método SMOTE
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO
description Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-02-28T21:45:16Z
dc.date.available.fl_str_mv 2024-02-28T21:45:16Z
dc.date.issued.fl_str_mv 2024-01-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/19545
identifier_str_mv NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545.
url https://repositorio.ufscar.br/handle/ufscar/19545
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution-NonCommercial-NoDerivs 3.0 Brazil
http://creativecommons.org/licenses/by-nc-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Estatística - Es
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/19545/1/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf
https://repositorio.ufscar.br/bitstream/ufscar/19545/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/19545/3/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf.txt
bitstream.checksum.fl_str_mv 7de29ba12a8d58fc4d9e5acd11587fcc
f337d95da1fce0a22c77480e5e9a7aec
792a6a7001ae4c5533be31911d99c6d7
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136434039062528