Churn Rate Prediction in Telecommunications Companies

Detalhes bibliográficos
Autor(a) principal: Lima, Ana Lúcia de Morais
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.6/13269
Resumo: Customer churn is a central concern for companies operating in industries with low switching costs. Among all industries, the one that suffers most from this problem is the telecommunications sector, with an annual churn rate of approximately 30%. As operators grow, so does the volume of data, and understanding and interpreting this data is necessary for operators to understand why customer churn is happening. Through data science, machine learning, and artificial intelligence techniques, the possibilities of predicting customer churn have increased significantly. In this research, the proposed methodology consists of six phases. In its first phases, data preprocessing and feature analysis are performed. In the third phase, feature selection is performed. Then, the data were divided into two parts of training and testing, in the proportion of 80% and 20%, respectively. For the prediction process, the most popular prediction models were applied, i.e. logistic regression, vector machine, naive bays, random forest, decision trees, etc. In the training set, boosting and ensemble techniques were applied to achieve better model accuracy. In the training set, K­fold cross­validation was used to avoid overlapping models. The results are evaluated using the confusion matrix and the AUC curve. The Adaboost, Catboost and XGBoost classifiers obtained the highest accuracy in the range of 85% and 92%. The highest AUC score was 98% obtained by Random Forest and 93% XGBoost which outperformed the other models.
id RCAP_a4680cc92a2a9fe2b4c1c5dcb3cde072
oai_identifier_str oai:ubibliorum.ubi.pt:10400.6/13269
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Churn Rate Prediction in Telecommunications CompaniesChurn RateData ScienceMachine LearningPredictive ModelDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaCustomer churn is a central concern for companies operating in industries with low switching costs. Among all industries, the one that suffers most from this problem is the telecommunications sector, with an annual churn rate of approximately 30%. As operators grow, so does the volume of data, and understanding and interpreting this data is necessary for operators to understand why customer churn is happening. Through data science, machine learning, and artificial intelligence techniques, the possibilities of predicting customer churn have increased significantly. In this research, the proposed methodology consists of six phases. In its first phases, data preprocessing and feature analysis are performed. In the third phase, feature selection is performed. Then, the data were divided into two parts of training and testing, in the proportion of 80% and 20%, respectively. For the prediction process, the most popular prediction models were applied, i.e. logistic regression, vector machine, naive bays, random forest, decision trees, etc. In the training set, boosting and ensemble techniques were applied to achieve better model accuracy. In the training set, K­fold cross­validation was used to avoid overlapping models. The results are evaluated using the confusion matrix and the AUC curve. The Adaboost, Catboost and XGBoost classifiers obtained the highest accuracy in the range of 85% and 92%. The highest AUC score was 98% obtained by Random Forest and 93% XGBoost which outperformed the other models.O setor de telecomunicações é visto atualmente como um dos setores que mais cresce no mundo, com um desenvolvimento exponencial nos últimos anos afetando cerca de 90% da população em geral [BGM+20a]. Este crescimento tem sido alimentado pelos recentes avanços tecnológicos e novos serviços de telecomunicações, implicando diretamente no aumento dos dados que se tornaram um ativo de primeira classe para empresas, corporações e organizações. Apesar do vasto número de clientes, existem múltiplas empresas operando neste mercado oferecendo serviços similares a uma gama restrita de preços. Este fator junto com os custos reduzidos de mudança entre empresas justifica porque o setor de telecomunicações é um mercado tão competitivo, onde a rotatividade de clientes é uma preocupação central para as receitas das empresas. Contudo a taxa de churn pode ser visto como termômetro para a saúde da empresa. Uma forte concorrência entre empresas rivais e tarifas competitivas de múltiplos fornecedores são as principais razões para os clientes mudarem entre as operadoras de telecomunicações. Entretanto, outros fatores podem levar os clientes à rotatividade, tais como o aumento dos valores dos planos, atendimento deficiente ao cliente, tempos de conexão lentos, e­mails de marketing indesejados, e outros. Com base nestes fatores, a chave para mitigar este problema é prever os clientes que estão em risco de churn, ou em outras palavras, rotatividade. Ultimamente, muitos pesquisadores estão interessados em trabalhar várias técnicas para prever a rotatividade dos clientes de telecomunicações. A indústria de telecomunicações tem lutado com a ameaça de perder mais de 25% de seus clientes a cada ano, o que se acredita resultar em uma enorme perda de receita. Outro fator relevante é que adquirir um novo cliente custa entre 5 e 10 vezes mais do que manter um cliente com a empresa. Com base nisto, é essencial manter os assinantes existentes ou evitar a rotatividade dos clientes [MTMM13]. De acordo com Kortler, a redução da taxa de rotatividade em 5% aumenta o lucro de 25% para 85% para as empresas de [K +97]. Assim, tem havido uma demanda crescente para automatizar os processos utilizados e identificar a rotatividade dos clientes. Entretanto, este processo é tão caro que normalmente apenas 15% da receita obtida pelas empresas móveis é gasta em infra­estrutura de rede e TI, enquanto 15 a 20% da receita é usada na aquisição de clientes. Os modelos de rotatividade de clientes visam identificar os primeiros sinais de rotatividade e tentar prever os clientes que saem voluntariamente. Portanto, muitas empresas percebem que seus sistemas de banco de dados existentes são um de seus ativos mais valiosos e, de acordo com Abbasdimehr, [AST11] os dados internos que as empresas têm sobre seus clientes são uma ferramenta útil para prever clientes em risco. O problema é caracterizado da seguinte forma churn é calculado dividindo o número total de clientes pelo número total de clientes ativos em um determinado período. A rotatividade de clientes pode ser gerenciada de forma reativa ou pró­ativa. Na abordagem reativa, a empresa espera o pedido de cancelamento do cliente e depois oferece planos de retenção atraentes. Na abordagem pró­ativa, a probabilidade de rotatividade é prevista de acordo com os planos oferecidos aos clientes [Pen09]. No segundo caso, as abordagens baseadas no aprendizado de máquinas provaram ser altamente eficientes na estimativa da probabilidade de rotatividade do cliente[UI16, VDSC15, AJA19]. Alguns algoritmos usados nestas estratégias são regressão linear, SVM, árvores de decisão, floresta aleatória, e Naive Bayes. Ao construir uma estratégia baseada na aprendizagem da máquina, a análise e processamento de dados desempenha um papel significativo na melhoria da precisão da classificação. Muitas abordagens foram desenvolvidas por pesquisadores a fim de selecionar características que são úteis na redução da dimensionalidade dos dados, complexidade computacional e sobreajustes. Na previsão do churn, as características com maior grau de importância são extraídas do vetor de entrada, pois são úteis para prever os clientes que deixarão a empresa. A fim de resolver o problema acima, as seguintes técnicas de aprendizagem de máquina foram utilizadas neste trabalho: (1) Regressão logística, (2) Naive Bayes, (3) máquina vetorial de suporte, (4) Classificador floresta aleatória, (5) Decision Tree, (6) KNN, (7) e algoritmos de gradient boosting tais como AdaBoost, XGBoost, LGBM Classifier e CatBoost. O objetivo é fazer uma análise comparativa entre estes algoritmos para prever vários padrões de rotatividade dos clientes. Além disso, para uma melhor compreensão do conjunto de dados, os dados foram pré­processados para encontrar insights importantes e vetores de características. Depois de implementados os modelos são testados em mais dois datasets que servem como uma forma de avaliar melhor seu desempenho em dados desconhecidos.Inácio, Pedro Ricardo MoraisNeves, João Carlos RaposouBibliorumLima, Ana Lúcia de Morais2023-02-22T14:48:04Z2022-01-062021-11-302022-01-06T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.6/13269TID:203226054enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:56:45Zoai:ubibliorum.ubi.pt:10400.6/13269Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:52:44.011737Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Churn Rate Prediction in Telecommunications Companies
title Churn Rate Prediction in Telecommunications Companies
spellingShingle Churn Rate Prediction in Telecommunications Companies
Lima, Ana Lúcia de Morais
Churn Rate
Data Science
Machine Learning
Predictive Model
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Churn Rate Prediction in Telecommunications Companies
title_full Churn Rate Prediction in Telecommunications Companies
title_fullStr Churn Rate Prediction in Telecommunications Companies
title_full_unstemmed Churn Rate Prediction in Telecommunications Companies
title_sort Churn Rate Prediction in Telecommunications Companies
author Lima, Ana Lúcia de Morais
author_facet Lima, Ana Lúcia de Morais
author_role author
dc.contributor.none.fl_str_mv Inácio, Pedro Ricardo Morais
Neves, João Carlos Raposo
uBibliorum
dc.contributor.author.fl_str_mv Lima, Ana Lúcia de Morais
dc.subject.por.fl_str_mv Churn Rate
Data Science
Machine Learning
Predictive Model
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Churn Rate
Data Science
Machine Learning
Predictive Model
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Customer churn is a central concern for companies operating in industries with low switching costs. Among all industries, the one that suffers most from this problem is the telecommunications sector, with an annual churn rate of approximately 30%. As operators grow, so does the volume of data, and understanding and interpreting this data is necessary for operators to understand why customer churn is happening. Through data science, machine learning, and artificial intelligence techniques, the possibilities of predicting customer churn have increased significantly. In this research, the proposed methodology consists of six phases. In its first phases, data preprocessing and feature analysis are performed. In the third phase, feature selection is performed. Then, the data were divided into two parts of training and testing, in the proportion of 80% and 20%, respectively. For the prediction process, the most popular prediction models were applied, i.e. logistic regression, vector machine, naive bays, random forest, decision trees, etc. In the training set, boosting and ensemble techniques were applied to achieve better model accuracy. In the training set, K­fold cross­validation was used to avoid overlapping models. The results are evaluated using the confusion matrix and the AUC curve. The Adaboost, Catboost and XGBoost classifiers obtained the highest accuracy in the range of 85% and 92%. The highest AUC score was 98% obtained by Random Forest and 93% XGBoost which outperformed the other models.
publishDate 2021
dc.date.none.fl_str_mv 2021-11-30
2022-01-06
2022-01-06T00:00:00Z
2023-02-22T14:48:04Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.6/13269
TID:203226054
url http://hdl.handle.net/10400.6/13269
identifier_str_mv TID:203226054
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136415829721088