Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNESP |
Texto Completo: | http://hdl.handle.net/11449/214516 |
Resumo: | There are many applications of machine learning models in various areas, and it is an area of research with continuous development. This work proposes a study of 5 classifier models with supervised learning. Using the Python programming language and some libraries allows the improvement in the approach to prevent credit card fraud. For the development of the work, a public database of European credit card transactions was used to minimize the data modeling problems arising from the imbalanced data. Two data split techniques were also tested (undersampling and oversampling) to obtain the best performance of the models analyzed. This performance was evaluated using some performance metrics such as accuracy, f1-score, precision, and recall. The academic work explores possible improvements for further work, such as dimensionality reduction of the feature dataset, parameter optimization of the tested models, and regularization of the modeling using penalization for the optimizers. |
id |
UNSP_ceb5c24e7cd6509af0756a549804545e |
---|---|
oai_identifier_str |
oai:repositorio.unesp.br:11449/214516 |
network_acronym_str |
UNSP |
network_name_str |
Repositório Institucional da UNESP |
repository_id_str |
2946 |
spelling |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem pythonComparison of some machine learning models using public data and python programming languageComparación de algunos modelos de aprendizaje de máquinas utilizando datos de dominio público y lenguaje de programación pythonNaive BayesMachine learningLogistic regressionNaive-bayesDecision treeTransaction classificationMachine LearningRegressão LogísticaSVMÁrvore de decisãoKNNClassificação de transaçõesThere are many applications of machine learning models in various areas, and it is an area of research with continuous development. This work proposes a study of 5 classifier models with supervised learning. Using the Python programming language and some libraries allows the improvement in the approach to prevent credit card fraud. For the development of the work, a public database of European credit card transactions was used to minimize the data modeling problems arising from the imbalanced data. Two data split techniques were also tested (undersampling and oversampling) to obtain the best performance of the models analyzed. This performance was evaluated using some performance metrics such as accuracy, f1-score, precision, and recall. The academic work explores possible improvements for further work, such as dimensionality reduction of the feature dataset, parameter optimization of the tested models, and regularization of the modeling using penalization for the optimizers.São muitas as aplicações de modelos de machine learning em situações de diversas áreas, sendo uma área de pesquisa com desenvolvimento contínuo. Este trabalho propõe um estudo de 5 modelos classificadores com aprendizagem supervisionada. Utilizando a linguagem Python e algumas bibliotecas dessa ferramenta que permitem a melhoria na abordagem do problema de fraude em uma transação. Para o desenvolvimento do trabalho, uma base de dados pública de transações europeias foi utilizada de forma a minimizar os problemas de modelagem decorrentes do desbalanceamento de classes no conjunto de dados. Foram ainda testadas duas técnicas de partição de dados – Hold-out e validação cruzada - com reamostragem com e sem reposição, de forma a se obter a melhor performance para os modelos analisados. Esta performance foi avaliada utilizando algumas métricas de desempenho: acurácia, f1-score, precisão e recall. Ainda, o trabalho explora possíveis melhorias para continuidade de trabalhos futuros como: a diminuição da dimensionalidade do conjunto de features através de PCA, otimização de parâmetros dos modelos testados e a regularização da modelagem utilizando ferramentas de penalização dos otimizadores.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Lopes, Mara Lúcia Martins [UNESP]Universidade Estadual Paulista (Unesp)Viana, Wesley Muller Oliveira2021-09-22T18:48:19Z2021-09-22T18:48:19Z2021-08-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/214516porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-11-20T06:09:10Zoai:repositorio.unesp.br:11449/214516Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T18:10:21.452596Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false |
dc.title.none.fl_str_mv |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python Comparison of some machine learning models using public data and python programming language Comparación de algunos modelos de aprendizaje de máquinas utilizando datos de dominio público y lenguaje de programación python |
title |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python |
spellingShingle |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python Viana, Wesley Muller Oliveira Naive Bayes Machine learning Logistic regression Naive-bayes Decision tree Transaction classification Machine Learning Regressão Logística SVM Árvore de decisão KNN Classificação de transações |
title_short |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python |
title_full |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python |
title_fullStr |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python |
title_full_unstemmed |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python |
title_sort |
Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python |
author |
Viana, Wesley Muller Oliveira |
author_facet |
Viana, Wesley Muller Oliveira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Lopes, Mara Lúcia Martins [UNESP] Universidade Estadual Paulista (Unesp) |
dc.contributor.author.fl_str_mv |
Viana, Wesley Muller Oliveira |
dc.subject.por.fl_str_mv |
Naive Bayes Machine learning Logistic regression Naive-bayes Decision tree Transaction classification Machine Learning Regressão Logística SVM Árvore de decisão KNN Classificação de transações |
topic |
Naive Bayes Machine learning Logistic regression Naive-bayes Decision tree Transaction classification Machine Learning Regressão Logística SVM Árvore de decisão KNN Classificação de transações |
description |
There are many applications of machine learning models in various areas, and it is an area of research with continuous development. This work proposes a study of 5 classifier models with supervised learning. Using the Python programming language and some libraries allows the improvement in the approach to prevent credit card fraud. For the development of the work, a public database of European credit card transactions was used to minimize the data modeling problems arising from the imbalanced data. Two data split techniques were also tested (undersampling and oversampling) to obtain the best performance of the models analyzed. This performance was evaluated using some performance metrics such as accuracy, f1-score, precision, and recall. The academic work explores possible improvements for further work, such as dimensionality reduction of the feature dataset, parameter optimization of the tested models, and regularization of the modeling using penalization for the optimizers. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-09-22T18:48:19Z 2021-09-22T18:48:19Z 2021-08-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/11449/214516 |
url |
http://hdl.handle.net/11449/214516 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
publisher.none.fl_str_mv |
Universidade Estadual Paulista (Unesp) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNESP instname:Universidade Estadual Paulista (UNESP) instacron:UNESP |
instname_str |
Universidade Estadual Paulista (UNESP) |
instacron_str |
UNESP |
institution |
UNESP |
reponame_str |
Repositório Institucional da UNESP |
collection |
Repositório Institucional da UNESP |
repository.name.fl_str_mv |
Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP) |
repository.mail.fl_str_mv |
|
_version_ |
1808128905044819968 |