Churn Rate Prediction in Telecommunications Companies
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.6/13269 |
Resumo: | Customer churn is a central concern for companies operating in industries with low switching costs. Among all industries, the one that suffers most from this problem is the telecommunications sector, with an annual churn rate of approximately 30%. As operators grow, so does the volume of data, and understanding and interpreting this data is necessary for operators to understand why customer churn is happening. Through data science, machine learning, and artificial intelligence techniques, the possibilities of predicting customer churn have increased significantly. In this research, the proposed methodology consists of six phases. In its first phases, data preprocessing and feature analysis are performed. In the third phase, feature selection is performed. Then, the data were divided into two parts of training and testing, in the proportion of 80% and 20%, respectively. For the prediction process, the most popular prediction models were applied, i.e. logistic regression, vector machine, naive bays, random forest, decision trees, etc. In the training set, boosting and ensemble techniques were applied to achieve better model accuracy. In the training set, Kfold crossvalidation was used to avoid overlapping models. The results are evaluated using the confusion matrix and the AUC curve. The Adaboost, Catboost and XGBoost classifiers obtained the highest accuracy in the range of 85% and 92%. The highest AUC score was 98% obtained by Random Forest and 93% XGBoost which outperformed the other models. |
id |
RCAP_a4680cc92a2a9fe2b4c1c5dcb3cde072 |
---|---|
oai_identifier_str |
oai:ubibliorum.ubi.pt:10400.6/13269 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Churn Rate Prediction in Telecommunications CompaniesChurn RateData ScienceMachine LearningPredictive ModelDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaCustomer churn is a central concern for companies operating in industries with low switching costs. Among all industries, the one that suffers most from this problem is the telecommunications sector, with an annual churn rate of approximately 30%. As operators grow, so does the volume of data, and understanding and interpreting this data is necessary for operators to understand why customer churn is happening. Through data science, machine learning, and artificial intelligence techniques, the possibilities of predicting customer churn have increased significantly. In this research, the proposed methodology consists of six phases. In its first phases, data preprocessing and feature analysis are performed. In the third phase, feature selection is performed. Then, the data were divided into two parts of training and testing, in the proportion of 80% and 20%, respectively. For the prediction process, the most popular prediction models were applied, i.e. logistic regression, vector machine, naive bays, random forest, decision trees, etc. In the training set, boosting and ensemble techniques were applied to achieve better model accuracy. In the training set, Kfold crossvalidation was used to avoid overlapping models. The results are evaluated using the confusion matrix and the AUC curve. The Adaboost, Catboost and XGBoost classifiers obtained the highest accuracy in the range of 85% and 92%. The highest AUC score was 98% obtained by Random Forest and 93% XGBoost which outperformed the other models.O setor de telecomunicações é visto atualmente como um dos setores que mais cresce no mundo, com um desenvolvimento exponencial nos últimos anos afetando cerca de 90% da população em geral [BGM+20a]. Este crescimento tem sido alimentado pelos recentes avanços tecnológicos e novos serviços de telecomunicações, implicando diretamente no aumento dos dados que se tornaram um ativo de primeira classe para empresas, corporações e organizações. Apesar do vasto número de clientes, existem múltiplas empresas operando neste mercado oferecendo serviços similares a uma gama restrita de preços. Este fator junto com os custos reduzidos de mudança entre empresas justifica porque o setor de telecomunicações é um mercado tão competitivo, onde a rotatividade de clientes é uma preocupação central para as receitas das empresas. Contudo a taxa de churn pode ser visto como termômetro para a saúde da empresa. Uma forte concorrência entre empresas rivais e tarifas competitivas de múltiplos fornecedores são as principais razões para os clientes mudarem entre as operadoras de telecomunicações. Entretanto, outros fatores podem levar os clientes à rotatividade, tais como o aumento dos valores dos planos, atendimento deficiente ao cliente, tempos de conexão lentos, emails de marketing indesejados, e outros. Com base nestes fatores, a chave para mitigar este problema é prever os clientes que estão em risco de churn, ou em outras palavras, rotatividade. Ultimamente, muitos pesquisadores estão interessados em trabalhar várias técnicas para prever a rotatividade dos clientes de telecomunicações. A indústria de telecomunicações tem lutado com a ameaça de perder mais de 25% de seus clientes a cada ano, o que se acredita resultar em uma enorme perda de receita. Outro fator relevante é que adquirir um novo cliente custa entre 5 e 10 vezes mais do que manter um cliente com a empresa. Com base nisto, é essencial manter os assinantes existentes ou evitar a rotatividade dos clientes [MTMM13]. De acordo com Kortler, a redução da taxa de rotatividade em 5% aumenta o lucro de 25% para 85% para as empresas de [K +97]. Assim, tem havido uma demanda crescente para automatizar os processos utilizados e identificar a rotatividade dos clientes. Entretanto, este processo é tão caro que normalmente apenas 15% da receita obtida pelas empresas móveis é gasta em infraestrutura de rede e TI, enquanto 15 a 20% da receita é usada na aquisição de clientes. Os modelos de rotatividade de clientes visam identificar os primeiros sinais de rotatividade e tentar prever os clientes que saem voluntariamente. Portanto, muitas empresas percebem que seus sistemas de banco de dados existentes são um de seus ativos mais valiosos e, de acordo com Abbasdimehr, [AST11] os dados internos que as empresas têm sobre seus clientes são uma ferramenta útil para prever clientes em risco. O problema é caracterizado da seguinte forma churn é calculado dividindo o número total de clientes pelo número total de clientes ativos em um determinado período. A rotatividade de clientes pode ser gerenciada de forma reativa ou próativa. Na abordagem reativa, a empresa espera o pedido de cancelamento do cliente e depois oferece planos de retenção atraentes. Na abordagem próativa, a probabilidade de rotatividade é prevista de acordo com os planos oferecidos aos clientes [Pen09]. No segundo caso, as abordagens baseadas no aprendizado de máquinas provaram ser altamente eficientes na estimativa da probabilidade de rotatividade do cliente[UI16, VDSC15, AJA19]. Alguns algoritmos usados nestas estratégias são regressão linear, SVM, árvores de decisão, floresta aleatória, e Naive Bayes. Ao construir uma estratégia baseada na aprendizagem da máquina, a análise e processamento de dados desempenha um papel significativo na melhoria da precisão da classificação. Muitas abordagens foram desenvolvidas por pesquisadores a fim de selecionar características que são úteis na redução da dimensionalidade dos dados, complexidade computacional e sobreajustes. Na previsão do churn, as características com maior grau de importância são extraídas do vetor de entrada, pois são úteis para prever os clientes que deixarão a empresa. A fim de resolver o problema acima, as seguintes técnicas de aprendizagem de máquina foram utilizadas neste trabalho: (1) Regressão logística, (2) Naive Bayes, (3) máquina vetorial de suporte, (4) Classificador floresta aleatória, (5) Decision Tree, (6) KNN, (7) e algoritmos de gradient boosting tais como AdaBoost, XGBoost, LGBM Classifier e CatBoost. O objetivo é fazer uma análise comparativa entre estes algoritmos para prever vários padrões de rotatividade dos clientes. Além disso, para uma melhor compreensão do conjunto de dados, os dados foram préprocessados para encontrar insights importantes e vetores de características. Depois de implementados os modelos são testados em mais dois datasets que servem como uma forma de avaliar melhor seu desempenho em dados desconhecidos.Inácio, Pedro Ricardo MoraisNeves, João Carlos RaposouBibliorumLima, Ana Lúcia de Morais2023-02-22T14:48:04Z2022-01-062021-11-302022-01-06T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.6/13269TID:203226054enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:56:45Zoai:ubibliorum.ubi.pt:10400.6/13269Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:52:44.011737Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Churn Rate Prediction in Telecommunications Companies |
title |
Churn Rate Prediction in Telecommunications Companies |
spellingShingle |
Churn Rate Prediction in Telecommunications Companies Lima, Ana Lúcia de Morais Churn Rate Data Science Machine Learning Predictive Model Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Churn Rate Prediction in Telecommunications Companies |
title_full |
Churn Rate Prediction in Telecommunications Companies |
title_fullStr |
Churn Rate Prediction in Telecommunications Companies |
title_full_unstemmed |
Churn Rate Prediction in Telecommunications Companies |
title_sort |
Churn Rate Prediction in Telecommunications Companies |
author |
Lima, Ana Lúcia de Morais |
author_facet |
Lima, Ana Lúcia de Morais |
author_role |
author |
dc.contributor.none.fl_str_mv |
Inácio, Pedro Ricardo Morais Neves, João Carlos Raposo uBibliorum |
dc.contributor.author.fl_str_mv |
Lima, Ana Lúcia de Morais |
dc.subject.por.fl_str_mv |
Churn Rate Data Science Machine Learning Predictive Model Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Churn Rate Data Science Machine Learning Predictive Model Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Customer churn is a central concern for companies operating in industries with low switching costs. Among all industries, the one that suffers most from this problem is the telecommunications sector, with an annual churn rate of approximately 30%. As operators grow, so does the volume of data, and understanding and interpreting this data is necessary for operators to understand why customer churn is happening. Through data science, machine learning, and artificial intelligence techniques, the possibilities of predicting customer churn have increased significantly. In this research, the proposed methodology consists of six phases. In its first phases, data preprocessing and feature analysis are performed. In the third phase, feature selection is performed. Then, the data were divided into two parts of training and testing, in the proportion of 80% and 20%, respectively. For the prediction process, the most popular prediction models were applied, i.e. logistic regression, vector machine, naive bays, random forest, decision trees, etc. In the training set, boosting and ensemble techniques were applied to achieve better model accuracy. In the training set, Kfold crossvalidation was used to avoid overlapping models. The results are evaluated using the confusion matrix and the AUC curve. The Adaboost, Catboost and XGBoost classifiers obtained the highest accuracy in the range of 85% and 92%. The highest AUC score was 98% obtained by Random Forest and 93% XGBoost which outperformed the other models. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-11-30 2022-01-06 2022-01-06T00:00:00Z 2023-02-22T14:48:04Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.6/13269 TID:203226054 |
url |
http://hdl.handle.net/10400.6/13269 |
identifier_str_mv |
TID:203226054 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136415829721088 |