Modelo de classificação para dados desbalanceados: método SMOTE e variantes
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/19545 |
Resumo: | Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance. |
id |
SCAR_94b64449f22813e346d3603665edd575 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/19545 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Nora, Andrielle CoutoDiniz, Carlos Alberto Ribeirohttp://lattes.cnpq.br/3277371897783194http://lattes.cnpq.br/7319129806979557https://orcid.org/0000-0003-3464-11082024-02-28T21:45:16Z2024-02-28T21:45:16Z2024-01-29NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545.https://repositorio.ufscar.br/handle/ufscar/19545Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance.Frequentemente, em modelos de classificação, nos deparamos com bancos de dados que possuem classes muito desbalanceadas, como por exemplo: dados de diagnóstico de doenças raras, defeitos de fabricação, transações fraudulentas, etc. Treinar um modelo em um conjunto de dados com poucas observações de uma determinada classe resulta em um desempenho preditivo ruim do mesmo, especialmente para as observações pertencentes à classe minoritária. Neste Trabalho de Conclusão de Curso (TCC), apresentamos e comparamos diferentes variantes do método SMOTE (Synthetic Minority Over-sampling TEchnique) de sobreamostragem de dados desbalanceados utilizados em modelos de classificação, especificamente, a Regressão Logística, a fim de demonstrar como essas técnicas podem melhorar a capacidade de identificar e prever observações da classe minoritária em cenários realistas e desbalanceados, além de determinar qual combinação entre a técnica de amostragem e o modelo de classificação de Regressão Logística leva a um melhor desempenho.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEstatística - EsUFSCarAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessDados desbalanceadosModelo de classificaçãoRegressão logísticaSobreamostragemMétodo SMOTECIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAOModelo de classificação para dados desbalanceados: método SMOTE e variantesClassification model for unbalanced data: SMOTE method and variantsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisreponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARORIGINALMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdfMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdfRelatório de pesquisaapplication/pdf1075521https://repositorio.ufscar.br/bitstream/ufscar/19545/1/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf7de29ba12a8d58fc4d9e5acd11587fccMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8810https://repositorio.ufscar.br/bitstream/ufscar/19545/2/license_rdff337d95da1fce0a22c77480e5e9a7aecMD52TEXTMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.txtMonografia TCC - Andrielle Couto Nora - Versão Final - Corrigido.pdf.txtExtracted texttext/plain151356https://repositorio.ufscar.br/bitstream/ufscar/19545/3/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf.txt792a6a7001ae4c5533be31911d99c6d7MD53ufscar/195452024-05-14 17:35:44.286oai:repositorio.ufscar.br:ufscar/19545Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T17:35:44Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
dc.title.alternative.eng.fl_str_mv |
Classification model for unbalanced data: SMOTE method and variants |
title |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
spellingShingle |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes Nora, Andrielle Couto Dados desbalanceados Modelo de classificação Regressão logística Sobreamostragem Método SMOTE CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
title_short |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
title_full |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
title_fullStr |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
title_full_unstemmed |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
title_sort |
Modelo de classificação para dados desbalanceados: método SMOTE e variantes |
author |
Nora, Andrielle Couto |
author_facet |
Nora, Andrielle Couto |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/7319129806979557 |
dc.contributor.advisor1orcid.por.fl_str_mv |
https://orcid.org/0000-0003-3464-1108 |
dc.contributor.author.fl_str_mv |
Nora, Andrielle Couto |
dc.contributor.advisor1.fl_str_mv |
Diniz, Carlos Alberto Ribeiro |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/3277371897783194 |
contributor_str_mv |
Diniz, Carlos Alberto Ribeiro |
dc.subject.por.fl_str_mv |
Dados desbalanceados Modelo de classificação Regressão logística Sobreamostragem Método SMOTE |
topic |
Dados desbalanceados Modelo de classificação Regressão logística Sobreamostragem Método SMOTE CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA::REGRESSAO E CORRELACAO |
description |
Often, in classification models, we encounter databases that have highly imbalanced classes, such as: rare disease diagnostic data, manufacturing defects, fraudulent transactions, etc. Training a model on a dataset with few observations of a particular class results in poor predictive performance, especially for observations belonging to the minority class. In this Undergraduate Thesis, we present and compare different variants of the Synthetic Minority Over-sampling TEchnique (SMOTE) method for oversampling imbalanced data used in classification models, specifically Logistic Regression, in order to demonstrate how these techniques can improve the ability to identify and predict observations from the minority class in realistic and imbalanced scenarios, as well as to determine which combination of sampling technique and Logistic Regression classification model leads to better performance. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-02-28T21:45:16Z |
dc.date.available.fl_str_mv |
2024-02-28T21:45:16Z |
dc.date.issued.fl_str_mv |
2024-01-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/19545 |
identifier_str_mv |
NORA, Andrielle Couto. Modelo de classificação para dados desbalanceados: método SMOTE e variantes. 2024. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de São Carlos, São Carlos, 2024. Disponível em: https://repositorio.ufscar.br/handle/ufscar/19545. |
url |
https://repositorio.ufscar.br/handle/ufscar/19545 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Estatística - Es |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Estatística - Es |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/19545/1/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf https://repositorio.ufscar.br/bitstream/ufscar/19545/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/19545/3/Monografia%20TCC%20-%20Andrielle%20Couto%20Nora%20-%20Vers%c3%a3o%20Final%20-%20Corrigido.pdf.txt |
bitstream.checksum.fl_str_mv |
7de29ba12a8d58fc4d9e5acd11587fcc f337d95da1fce0a22c77480e5e9a7aec 792a6a7001ae4c5533be31911d99c6d7 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136434039062528 |