Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFG |
dARK ID: | ark:/38995/00130000071v0 |
Texto Completo: | http://repositorio.bc.ufg.br/tede/handle/tede/11522 |
Resumo: | The development of machine learning solutions involves several well-established stages. However, scientific studies have a concentration on stages such as data engineering, model training, and performance evaluation metrics. The advent of machine learning solutions implementation in business environments at an unprecedented level inspires the revisiting of some problems previously mentioned in the literature, but little explored. Among them, monitoring and evaluating the deterioration of the solution over time. During machine learning models training, it is assumed that the data not seen by the model in production presents the same distribution as the data used during the training stage. However, production models can decrease/lose performance as data changes over time. This phenomenon is defined in the literature as concept deviation. In this context, this work proposes a methodology that uses Auto Machine Learning with data stream learning capable of mitigating eventual concept deviations that may arise in the models implemented in a production environment. Real data from a customer avoidance problem (Churn) of a large-circulation regional newspaper were used. Three machine learning models were implemented using two methodologies: the proposed methodology called autoML-DS and the reference methodology that makes use of conventional model retraining. The results showed that the reference methodology presents performance losses of the implemented models, while the autoML-DS has its predictive capacity preserved. AutoML-DS was able to adapt the models over time, without having to perform a complete retraining, keeping small variations in the error rate. |
id |
UFG-2_8f0646bd153f6e91b9048b70f6df5e18 |
---|---|
oai_identifier_str |
oai:repositorio.bc.ufg.br:tede/11522 |
network_acronym_str |
UFG-2 |
network_name_str |
Repositório Institucional da UFG |
repository_id_str |
|
spelling |
Soares, Anderson da Silvahttp://lattes.cnpq.br/1096941114079527Soares, Anderson da SilvaSoares, Telma Woerle de LimaSousa, Rafael Teixeirahttp://lattes.cnpq.br/3843157752512003Oliveira, Breno2021-08-02T11:35:46Z2021-08-02T11:35:46Z2021-07-02OLIVEIRA, B. Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção. 2021. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, 2021.http://repositorio.bc.ufg.br/tede/handle/tede/11522ark:/38995/00130000071v0The development of machine learning solutions involves several well-established stages. However, scientific studies have a concentration on stages such as data engineering, model training, and performance evaluation metrics. The advent of machine learning solutions implementation in business environments at an unprecedented level inspires the revisiting of some problems previously mentioned in the literature, but little explored. Among them, monitoring and evaluating the deterioration of the solution over time. During machine learning models training, it is assumed that the data not seen by the model in production presents the same distribution as the data used during the training stage. However, production models can decrease/lose performance as data changes over time. This phenomenon is defined in the literature as concept deviation. In this context, this work proposes a methodology that uses Auto Machine Learning with data stream learning capable of mitigating eventual concept deviations that may arise in the models implemented in a production environment. Real data from a customer avoidance problem (Churn) of a large-circulation regional newspaper were used. Three machine learning models were implemented using two methodologies: the proposed methodology called autoML-DS and the reference methodology that makes use of conventional model retraining. The results showed that the reference methodology presents performance losses of the implemented models, while the autoML-DS has its predictive capacity preserved. AutoML-DS was able to adapt the models over time, without having to perform a complete retraining, keeping small variations in the error rate.O desenvolvimento de soluções de aprendizado de máquina prevê diversas etapas bem estabelecidas. No entanto, os estudos científicos possuem uma concentração em etapas como engenharia de dados, treinamento do modelo e métricas de avaliação de desempenho. O advento da implantação de soluções de aprendizado de máquina em ambientes empresariais em um nível sem precedentes inspira a revisitação de alguns problemas anteriormente apontados na literatura, porém pouco explorados como o monitoramento e avaliação da deterioração da solução ao longo do tempo. Durante o treinamento dos modelos de aprendizado de máquina, supõe-se que os dados não vistos pelo modelo em produção apresentem a mesma distribuição dos dados utilizados durante a etapa de treinamento. Modelos em produção podem perder desempenho à medida que os dados sofram alterações com o passar do tempo. Este fenômeno é definido na literatura como desvio de conceito. Nesse contexto, este trabalho propõe uma metodologia que utiliza Auto Machine Learning com aprendizado de dados em stream capazes de mitigar eventuais desvios de conceito que possam surgir nos modelos implementados em ambiente de produção. Foram utilizados dados reais de um problema de evasão de clientes (Churn) de um jornal de grande circulação regional. Foram implementados três modelos de aprendizado de máquina utilizando duas metodologias: a metodologia proposta denominada autoML-DS e a metodologia de referência que faz uso de retreinamento convencional dos modelos. Os resultados demonstraram que a metodologia de referência apresenta perdas de desempenho dos modelos implementados enquanto o autoML-DS tem sua capacidade preditiva preservada. O autoML-DS foi capaz de adaptar os modelos ao longo do tempo, sem a necessidade da realização de um retreino completo, mantendo pequenas variações na proporção de erros.Submitted by Luciana Ferreira (lucgeral@gmail.com) on 2021-07-29T12:21:26Z No. of bitstreams: 2 Dissertação - Breno Oliveira - 2021.pdf: 3559015 bytes, checksum: 13b790a2df242d1fa7e05a02716b37eb (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)Approved for entry into archive by Luciana Ferreira (lucgeral@gmail.com) on 2021-08-02T11:35:46Z (GMT) No. of bitstreams: 2 Dissertação - Breno Oliveira - 2021.pdf: 3559015 bytes, checksum: 13b790a2df242d1fa7e05a02716b37eb (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5)Made available in DSpace on 2021-08-02T11:35:46Z (GMT). No. of bitstreams: 2 Dissertação - Breno Oliveira - 2021.pdf: 3559015 bytes, checksum: 13b790a2df242d1fa7e05a02716b37eb (MD5) license_rdf: 805 bytes, checksum: 4460e5956bc1d1639be9ae6146a50347 (MD5) Previous issue date: 2021-07-02porUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)Attribution-NonCommercial-NoDerivatives 4.0 Internationalhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessDesvio de conceitoAuto machine laerningDados em streamMachine learningAlgorithms in predictingEvaluating customer evasion in a production environmentCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOAlgoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produçãoMachine learning algorithms in predicting and evaluating customer evasion in a production environmentinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2050050050026184reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.bc.ufg.br/tede/bitstreams/003c94bb-7792-42f1-a85f-99678e1bebe2/download8a4605be74aa9ea9d79846c1fba20a33MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8805http://repositorio.bc.ufg.br/tede/bitstreams/c04877d6-d250-4300-950e-3288f06ba59d/download4460e5956bc1d1639be9ae6146a50347MD52ORIGINALDissertação - Breno Oliveira - 2021.pdfDissertação - Breno Oliveira - 2021.pdfapplication/pdf3559015http://repositorio.bc.ufg.br/tede/bitstreams/76dea18d-9e1f-45e0-b60c-83a7e2f120c1/download13b790a2df242d1fa7e05a02716b37ebMD53tede/115222021-08-02 08:35:46.497http://creativecommons.org/licenses/by-nc-nd/4.0/Attribution-NonCommercial-NoDerivatives 4.0 Internationalopen.accessoai:repositorio.bc.ufg.br:tede/11522http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2021-08-02T11:35:46Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo= |
dc.title.pt_BR.fl_str_mv |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
dc.title.alternative.eng.fl_str_mv |
Machine learning algorithms in predicting and evaluating customer evasion in a production environment |
title |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
spellingShingle |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção Oliveira, Breno Desvio de conceito Auto machine laerning Dados em stream Machine learning Algorithms in predicting Evaluating customer evasion in a production environment CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
title_full |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
title_fullStr |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
title_full_unstemmed |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
title_sort |
Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção |
author |
Oliveira, Breno |
author_facet |
Oliveira, Breno |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Soares, Anderson da Silva |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1096941114079527 |
dc.contributor.referee1.fl_str_mv |
Soares, Anderson da Silva |
dc.contributor.referee2.fl_str_mv |
Soares, Telma Woerle de Lima |
dc.contributor.referee3.fl_str_mv |
Sousa, Rafael Teixeira |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/3843157752512003 |
dc.contributor.author.fl_str_mv |
Oliveira, Breno |
contributor_str_mv |
Soares, Anderson da Silva Soares, Anderson da Silva Soares, Telma Woerle de Lima Sousa, Rafael Teixeira |
dc.subject.por.fl_str_mv |
Desvio de conceito Auto machine laerning Dados em stream |
topic |
Desvio de conceito Auto machine laerning Dados em stream Machine learning Algorithms in predicting Evaluating customer evasion in a production environment CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Machine learning Algorithms in predicting Evaluating customer evasion in a production environment |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
The development of machine learning solutions involves several well-established stages. However, scientific studies have a concentration on stages such as data engineering, model training, and performance evaluation metrics. The advent of machine learning solutions implementation in business environments at an unprecedented level inspires the revisiting of some problems previously mentioned in the literature, but little explored. Among them, monitoring and evaluating the deterioration of the solution over time. During machine learning models training, it is assumed that the data not seen by the model in production presents the same distribution as the data used during the training stage. However, production models can decrease/lose performance as data changes over time. This phenomenon is defined in the literature as concept deviation. In this context, this work proposes a methodology that uses Auto Machine Learning with data stream learning capable of mitigating eventual concept deviations that may arise in the models implemented in a production environment. Real data from a customer avoidance problem (Churn) of a large-circulation regional newspaper were used. Three machine learning models were implemented using two methodologies: the proposed methodology called autoML-DS and the reference methodology that makes use of conventional model retraining. The results showed that the reference methodology presents performance losses of the implemented models, while the autoML-DS has its predictive capacity preserved. AutoML-DS was able to adapt the models over time, without having to perform a complete retraining, keeping small variations in the error rate. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-08-02T11:35:46Z |
dc.date.available.fl_str_mv |
2021-08-02T11:35:46Z |
dc.date.issued.fl_str_mv |
2021-07-02 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
OLIVEIRA, B. Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção. 2021. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, 2021. |
dc.identifier.uri.fl_str_mv |
http://repositorio.bc.ufg.br/tede/handle/tede/11522 |
dc.identifier.dark.fl_str_mv |
ark:/38995/00130000071v0 |
identifier_str_mv |
OLIVEIRA, B. Algoritmos de aprendizado de máquina na predição e avaliação de evasão de clientes em ambiente de produção. 2021. 87 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, 2021. ark:/38995/00130000071v0 |
url |
http://repositorio.bc.ufg.br/tede/handle/tede/11522 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
20 |
dc.relation.confidence.fl_str_mv |
500 500 500 |
dc.relation.department.fl_str_mv |
26 |
dc.relation.cnpq.fl_str_mv |
184 |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivatives 4.0 International http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação (INF) |
dc.publisher.initials.fl_str_mv |
UFG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Instituto de Informática - INF (RG) |
publisher.none.fl_str_mv |
Universidade Federal de Goiás |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFG instname:Universidade Federal de Goiás (UFG) instacron:UFG |
instname_str |
Universidade Federal de Goiás (UFG) |
instacron_str |
UFG |
institution |
UFG |
reponame_str |
Repositório Institucional da UFG |
collection |
Repositório Institucional da UFG |
bitstream.url.fl_str_mv |
http://repositorio.bc.ufg.br/tede/bitstreams/003c94bb-7792-42f1-a85f-99678e1bebe2/download http://repositorio.bc.ufg.br/tede/bitstreams/c04877d6-d250-4300-950e-3288f06ba59d/download http://repositorio.bc.ufg.br/tede/bitstreams/76dea18d-9e1f-45e0-b60c-83a7e2f120c1/download |
bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 4460e5956bc1d1639be9ae6146a50347 13b790a2df242d1fa7e05a02716b37eb |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFG - Universidade Federal de Goiás (UFG) |
repository.mail.fl_str_mv |
tasesdissertacoes.bc@ufg.br |
_version_ |
1815172584902230016 |