Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python

Detalhes bibliográficos
Autor(a) principal: Viana, Wesley Muller Oliveira
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/214516
Resumo: There are many applications of machine learning models in various areas, and it is an area of research with continuous development. This work proposes a study of 5 classifier models with supervised learning. Using the Python programming language and some libraries allows the improvement in the approach to prevent credit card fraud. For the development of the work, a public database of European credit card transactions was used to minimize the data modeling problems arising from the imbalanced data. Two data split techniques were also tested (undersampling and oversampling) to obtain the best performance of the models analyzed. This performance was evaluated using some performance metrics such as accuracy, f1-score, precision, and recall. The academic work explores possible improvements for further work, such as dimensionality reduction of the feature dataset, parameter optimization of the tested models, and regularization of the modeling using penalization for the optimizers.
id UNSP_ceb5c24e7cd6509af0756a549804545e
oai_identifier_str oai:repositorio.unesp.br:11449/214516
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem pythonComparison of some machine learning models using public data and python programming languageComparación de algunos modelos de aprendizaje de máquinas utilizando datos de dominio público y lenguaje de programación pythonNaive BayesMachine learningLogistic regressionNaive-bayesDecision treeTransaction classificationMachine LearningRegressão LogísticaSVMÁrvore de decisãoKNNClassificação de transaçõesThere are many applications of machine learning models in various areas, and it is an area of research with continuous development. This work proposes a study of 5 classifier models with supervised learning. Using the Python programming language and some libraries allows the improvement in the approach to prevent credit card fraud. For the development of the work, a public database of European credit card transactions was used to minimize the data modeling problems arising from the imbalanced data. Two data split techniques were also tested (undersampling and oversampling) to obtain the best performance of the models analyzed. This performance was evaluated using some performance metrics such as accuracy, f1-score, precision, and recall. The academic work explores possible improvements for further work, such as dimensionality reduction of the feature dataset, parameter optimization of the tested models, and regularization of the modeling using penalization for the optimizers.São muitas as aplicações de modelos de machine learning em situações de diversas áreas, sendo uma área de pesquisa com desenvolvimento contínuo. Este trabalho propõe um estudo de 5 modelos classificadores com aprendizagem supervisionada. Utilizando a linguagem Python e algumas bibliotecas dessa ferramenta que permitem a melhoria na abordagem do problema de fraude em uma transação. Para o desenvolvimento do trabalho, uma base de dados pública de transações europeias foi utilizada de forma a minimizar os problemas de modelagem decorrentes do desbalanceamento de classes no conjunto de dados. Foram ainda testadas duas técnicas de partição de dados – Hold-out e validação cruzada - com reamostragem com e sem reposição, de forma a se obter a melhor performance para os modelos analisados. Esta performance foi avaliada utilizando algumas métricas de desempenho: acurácia, f1-score, precisão e recall. Ainda, o trabalho explora possíveis melhorias para continuidade de trabalhos futuros como: a diminuição da dimensionalidade do conjunto de features através de PCA, otimização de parâmetros dos modelos testados e a regularização da modelagem utilizando ferramentas de penalização dos otimizadores.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Lopes, Mara Lúcia Martins [UNESP]Universidade Estadual Paulista (Unesp)Viana, Wesley Muller Oliveira2021-09-22T18:48:19Z2021-09-22T18:48:19Z2021-08-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/214516porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-11-20T06:09:10Zoai:repositorio.unesp.br:11449/214516Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462023-11-20T06:09:10Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
Comparison of some machine learning models using public data and python programming language
Comparación de algunos modelos de aprendizaje de máquinas utilizando datos de dominio público y lenguaje de programación python
title Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
spellingShingle Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
Viana, Wesley Muller Oliveira
Naive Bayes
Machine learning
Logistic regression
Naive-bayes
Decision tree
Transaction classification
Machine Learning
Regressão Logística
SVM
Árvore de decisão
KNN
Classificação de transações
title_short Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
title_full Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
title_fullStr Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
title_full_unstemmed Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
title_sort Comparativo de alguns modelos de machine learning utilizando dados de domínio público e a linguagem python
author Viana, Wesley Muller Oliveira
author_facet Viana, Wesley Muller Oliveira
author_role author
dc.contributor.none.fl_str_mv Lopes, Mara Lúcia Martins [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Viana, Wesley Muller Oliveira
dc.subject.por.fl_str_mv Naive Bayes
Machine learning
Logistic regression
Naive-bayes
Decision tree
Transaction classification
Machine Learning
Regressão Logística
SVM
Árvore de decisão
KNN
Classificação de transações
topic Naive Bayes
Machine learning
Logistic regression
Naive-bayes
Decision tree
Transaction classification
Machine Learning
Regressão Logística
SVM
Árvore de decisão
KNN
Classificação de transações
description There are many applications of machine learning models in various areas, and it is an area of research with continuous development. This work proposes a study of 5 classifier models with supervised learning. Using the Python programming language and some libraries allows the improvement in the approach to prevent credit card fraud. For the development of the work, a public database of European credit card transactions was used to minimize the data modeling problems arising from the imbalanced data. Two data split techniques were also tested (undersampling and oversampling) to obtain the best performance of the models analyzed. This performance was evaluated using some performance metrics such as accuracy, f1-score, precision, and recall. The academic work explores possible improvements for further work, such as dimensionality reduction of the feature dataset, parameter optimization of the tested models, and regularization of the modeling using penalization for the optimizers.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-22T18:48:19Z
2021-09-22T18:48:19Z
2021-08-27
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/214516
url http://hdl.handle.net/11449/214516
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1803649761371226112