Classificação do perfil dos clientes através de técnicas de mineração de dados

Detalhes bibliográficos
Autor(a) principal: Santos, Matheus Henrique
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFU
Texto Completo: https://repositorio.ufu.br/handle/123456789/38729
Resumo: Currently, ever-increasing volumes of data are generated, but they are not always used in an “intelligent” way to extract information. In this scenario, data mining tools are used to help extract information that is not always so obvious or explicit, which makes it one of the most promising technologies today. The present work was developed with the purpose of creating a classification model, through data mining techniques, for the classification of the profile of the customers (Customer for Sale or Customer Not for Sale) of a real company. The structure of this Case Study used the CRISP-DM methodology, which is the most common in problems involving Data Mining. This methodology is segmented into 06 stages, which are: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation and Use. Two Classification algorithms were tested for model development: Decision Tree and Logistic Regression. For application in the algorithms, the database was divided into two bases: Training Base (composed of 70% of the data) and Test Base (Comprised of 30% of the data). As this is a database with unbalanced data, due to the significant superiority of customers in the Non-Sales class, two methodologies were evaluated for data balancing: application of SMOTE (Synthetic Minority Oversampling Technique) for oversampling technique and adjustment of weights of the minority and majority classes within the cost functions of the algorithms. The Logistic Regression models both for the application of SMOTE and for adjusting the weights of the classes presented similar results, and were the ones that presented the best results. With this, the study concluded that the classification model found, through the Logistic Regression technique, is extremely relevant for the company, resulting in a reduction in the costs of contacting customers and a significant increase in the volume of return of these contacts (Sales).
id UFU_3d9c5a8804deeabf1283c6d673bc7fd8
oai_identifier_str oai:repositorio.ufu.br:123456789/38729
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling Classificação do perfil dos clientes através de técnicas de mineração de dadosAprendizado de MáquinaRegressão LogísticaÁrvore de DecisãoPerfil de ClientesMachine LearningLogistic RegressionDecision TreeCustomer ProfileCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICACurrently, ever-increasing volumes of data are generated, but they are not always used in an “intelligent” way to extract information. In this scenario, data mining tools are used to help extract information that is not always so obvious or explicit, which makes it one of the most promising technologies today. The present work was developed with the purpose of creating a classification model, through data mining techniques, for the classification of the profile of the customers (Customer for Sale or Customer Not for Sale) of a real company. The structure of this Case Study used the CRISP-DM methodology, which is the most common in problems involving Data Mining. This methodology is segmented into 06 stages, which are: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation and Use. Two Classification algorithms were tested for model development: Decision Tree and Logistic Regression. For application in the algorithms, the database was divided into two bases: Training Base (composed of 70% of the data) and Test Base (Comprised of 30% of the data). As this is a database with unbalanced data, due to the significant superiority of customers in the Non-Sales class, two methodologies were evaluated for data balancing: application of SMOTE (Synthetic Minority Oversampling Technique) for oversampling technique and adjustment of weights of the minority and majority classes within the cost functions of the algorithms. The Logistic Regression models both for the application of SMOTE and for adjusting the weights of the classes presented similar results, and were the ones that presented the best results. With this, the study concluded that the classification model found, through the Logistic Regression technique, is extremely relevant for the company, resulting in a reduction in the costs of contacting customers and a significant increase in the volume of return of these contacts (Sales).VALE S. A.Trabalho de Conclusão de Curso (Graduação)Atualmente volumes de dados cada vez maiores são gerados, porém nem sempre os mesmos são utilizados de forma “inteligente” para extração de informações. Nesse cenário, as ferramentas de mineração de dados são utilizadas para auxiliar a extrair informações que nem sempre são tão óbvias ou explícitas, o que faz com que ela seja uma das tecnologias mais promissoras da atualidade. O presente trabalho foi desenvolvido com a finalidade de criar um modelo de classificação, através de técnicas de mineração de dados, para a classificação do perfil dos clientes (Cliente Venda ou Cliente Não Venda) de uma empresa real. A estrutura deste Estudo de Caso utilizou a metodologia CRISP-DM, que é a mais usual em problemas que envolvam Mineração de Dados. Essa metodologia é segmentada em 06 etapas, que são: Entendimento do Negócio, Entendimento dos Dados, Preparação dos Dados, Modelagem, Avaliação e Utilização. Dois algoritmos de Classificação foram testados para desenvolvimento do modelo: Árvore de Decisão e Regressão Logística. Para aplicação nos algoritmos, a base de dados foi dividida em duas bases: Base de Treino (composta por 70% dos dados) e Base de Teste (Composta por 30% dos dados). Por se tratar de uma base com dados desbalanceados, devido a expressiva superioridade de clientes na classe Não Vendas, duas metodologias foram avaliadas para balanceamento dos dados: aplicação do SMOTE (Synthetic Minority Oversampling Technique) para técnica de sobreamostragem e ajuste dos pesos das classes minoritária e majoritária dentro das funções de custo dos algoritmos. Os modelos de Regressão Logística tanto para a aplicação do SMOTE quanto para ajuste dos pesos das classes apresentaram resultados semelhantes, e foram os que apresentaram melhores resultados. Com isso, o estudo permitiu concluir que o modelo de classificação encontrado, através da técnica de Regressão Logística, é de extrema relevância para a empresa, resultando em uma redução dos custos com a contactação dos clientes e um aumento expressivo do volume de retorno desses contatos (Vendas).Universidade Federal de UberlândiaBrasilEstatísticaSilva, José Waldemar dahttp://lattes.cnpq.br/3076056770753848Paiva, Elaine Ribeiro de Fariahttp://lattes.cnpq.br/8238524390290386Araújo, Lucio Borgeshttp://lattes.cnpq.br/1633451941969946Santos, Matheus Henrique2023-07-21T12:09:44Z2023-07-21T12:09:44Z2023-06-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfSANTOS, Matheus Henrique. Classificação do perfil dos clientes através de técnicas de mineração de dados. 2023. 59 f. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de Uberlândia, Uberlândia, 2023.https://repositorio.ufu.br/handle/123456789/38729porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2023-12-21T17:31:06Zoai:repositorio.ufu.br:123456789/38729Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2023-12-21T17:31:06Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Classificação do perfil dos clientes através de técnicas de mineração de dados
title Classificação do perfil dos clientes através de técnicas de mineração de dados
spellingShingle Classificação do perfil dos clientes através de técnicas de mineração de dados
Santos, Matheus Henrique
Aprendizado de Máquina
Regressão Logística
Árvore de Decisão
Perfil de Clientes
Machine Learning
Logistic Regression
Decision Tree
Customer Profile
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
title_short Classificação do perfil dos clientes através de técnicas de mineração de dados
title_full Classificação do perfil dos clientes através de técnicas de mineração de dados
title_fullStr Classificação do perfil dos clientes através de técnicas de mineração de dados
title_full_unstemmed Classificação do perfil dos clientes através de técnicas de mineração de dados
title_sort Classificação do perfil dos clientes através de técnicas de mineração de dados
author Santos, Matheus Henrique
author_facet Santos, Matheus Henrique
author_role author
dc.contributor.none.fl_str_mv Silva, José Waldemar da
http://lattes.cnpq.br/3076056770753848
Paiva, Elaine Ribeiro de Faria
http://lattes.cnpq.br/8238524390290386
Araújo, Lucio Borges
http://lattes.cnpq.br/1633451941969946
dc.contributor.author.fl_str_mv Santos, Matheus Henrique
dc.subject.por.fl_str_mv Aprendizado de Máquina
Regressão Logística
Árvore de Decisão
Perfil de Clientes
Machine Learning
Logistic Regression
Decision Tree
Customer Profile
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
topic Aprendizado de Máquina
Regressão Logística
Árvore de Decisão
Perfil de Clientes
Machine Learning
Logistic Regression
Decision Tree
Customer Profile
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA
description Currently, ever-increasing volumes of data are generated, but they are not always used in an “intelligent” way to extract information. In this scenario, data mining tools are used to help extract information that is not always so obvious or explicit, which makes it one of the most promising technologies today. The present work was developed with the purpose of creating a classification model, through data mining techniques, for the classification of the profile of the customers (Customer for Sale or Customer Not for Sale) of a real company. The structure of this Case Study used the CRISP-DM methodology, which is the most common in problems involving Data Mining. This methodology is segmented into 06 stages, which are: Business Understanding, Data Understanding, Data Preparation, Modeling, Evaluation and Use. Two Classification algorithms were tested for model development: Decision Tree and Logistic Regression. For application in the algorithms, the database was divided into two bases: Training Base (composed of 70% of the data) and Test Base (Comprised of 30% of the data). As this is a database with unbalanced data, due to the significant superiority of customers in the Non-Sales class, two methodologies were evaluated for data balancing: application of SMOTE (Synthetic Minority Oversampling Technique) for oversampling technique and adjustment of weights of the minority and majority classes within the cost functions of the algorithms. The Logistic Regression models both for the application of SMOTE and for adjusting the weights of the classes presented similar results, and were the ones that presented the best results. With this, the study concluded that the classification model found, through the Logistic Regression technique, is extremely relevant for the company, resulting in a reduction in the costs of contacting customers and a significant increase in the volume of return of these contacts (Sales).
publishDate 2023
dc.date.none.fl_str_mv 2023-07-21T12:09:44Z
2023-07-21T12:09:44Z
2023-06-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv SANTOS, Matheus Henrique. Classificação do perfil dos clientes através de técnicas de mineração de dados. 2023. 59 f. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de Uberlândia, Uberlândia, 2023.
https://repositorio.ufu.br/handle/123456789/38729
identifier_str_mv SANTOS, Matheus Henrique. Classificação do perfil dos clientes através de técnicas de mineração de dados. 2023. 59 f. Trabalho de Conclusão de Curso (Graduação em Estatística) – Universidade Federal de Uberlândia, Uberlândia, 2023.
url https://repositorio.ufu.br/handle/123456789/38729
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Estatística
publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Estatística
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1805569665647247360