Uso de Autoencoder para predição de propensão a empréstimo

Detalhes bibliográficos
Autor(a) principal: Pastorello, Gabriel Speranza
Data de Publicação: 2024
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/274554
Resumo: O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade.
id UFRGS-2_b0233954f6e4681dafe0af9fa3a2688f
oai_identifier_str oai:www.lume.ufrgs.br:10183/274554
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Pastorello, Gabriel SperanzaTrierweiler, Jorge OtávioMartello, Rafael Henrique2024-04-11T06:25:10Z2024http://hdl.handle.net/10183/274554001200221O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade.This work consists of constructing autoencoder models for use in predicting daily propensity for personal loan uptake. The aim is to identify the most inclined customers to direct marketing efforts, such as phone calls and digital media advertisements. Performing this prediction on a daily basis is more suitable for the dynamics of a Call Center, for example, which makes thousands of calls daily. However, due to the high amount of data related to call history, initially, an autoencoder was used to reduce the dimensionality of this dataset, reducing the number of variables from 120 to 7. This procedure was also performed using Principal Component Analysis (PCA) for comparison. With the data obtained in this step and the addition of new variables, such as current balance and limit, a new autoencoder with 21 input variables was employed to predict the propensity of clients to take out loans, with all predictions generated in a Light Gradient Boosting Machine (LGBM) model. The dataset used is anonymized and comes from a historical database of a financial institution, being highly unbalanced, with loan cases much rarer than non-loan cases (0.22%). Due to the high difference between the classes inherent to the problem, the main metric chosen for evaluating the models was the area under the precision-recall curve (PR AUC), as it is less prone to overestimating the model's performance when the negative class is predominant. In the dimensionality reduction step, the results obtained were highly satisfactory, with better predictive power of the autoencoder compared to PCA on the generated variables. In the final prediction step, again the autoencoder demonstrated superiority over PCA, recording a PR AUC of 0.0194 against 0.0131. In this step, the results were lower than those achieved using all 21 available variables (0.0282), suggesting that there was still some loss of information. Nevertheless, the daily model strategy proved to be more efficient than the monthly strategy currently used by the institution in all approaches, highlighting the quality of the information and methods used. Overall, the autoencoder proved to be a very useful tool that can be used for data preprocessing and providing relevant information for prediction, especially in systems with high dimensionality.application/pdfporEngenharia químicaAutoencoderPersonal loanPropensity modeUso de Autoencoder para predição de propensão a empréstimoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPorto Alegre, BR-RS2024Engenharia Químicagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001200221.pdf.txt001200221.pdf.txtExtracted Texttext/plain72771http://www.lume.ufrgs.br/bitstream/10183/274554/2/001200221.pdf.txt5ae70c4abb43bbf6811a760850b118b1MD52ORIGINAL001200221.pdfTexto completoapplication/pdf1687897http://www.lume.ufrgs.br/bitstream/10183/274554/1/001200221.pdf6b7b50a8ac610746aecf1df08044368cMD5110183/2745542024-04-12 06:20:00.525109oai:www.lume.ufrgs.br:10183/274554Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-04-12T09:20Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Uso de Autoencoder para predição de propensão a empréstimo
title Uso de Autoencoder para predição de propensão a empréstimo
spellingShingle Uso de Autoencoder para predição de propensão a empréstimo
Pastorello, Gabriel Speranza
Engenharia química
Autoencoder
Personal loan
Propensity mode
title_short Uso de Autoencoder para predição de propensão a empréstimo
title_full Uso de Autoencoder para predição de propensão a empréstimo
title_fullStr Uso de Autoencoder para predição de propensão a empréstimo
title_full_unstemmed Uso de Autoencoder para predição de propensão a empréstimo
title_sort Uso de Autoencoder para predição de propensão a empréstimo
author Pastorello, Gabriel Speranza
author_facet Pastorello, Gabriel Speranza
author_role author
dc.contributor.author.fl_str_mv Pastorello, Gabriel Speranza
dc.contributor.advisor1.fl_str_mv Trierweiler, Jorge Otávio
dc.contributor.advisor-co1.fl_str_mv Martello, Rafael Henrique
contributor_str_mv Trierweiler, Jorge Otávio
Martello, Rafael Henrique
dc.subject.por.fl_str_mv Engenharia química
topic Engenharia química
Autoencoder
Personal loan
Propensity mode
dc.subject.eng.fl_str_mv Autoencoder
Personal loan
Propensity mode
description O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade.
publishDate 2024
dc.date.accessioned.fl_str_mv 2024-04-11T06:25:10Z
dc.date.issued.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/274554
dc.identifier.nrb.pt_BR.fl_str_mv 001200221
url http://hdl.handle.net/10183/274554
identifier_str_mv 001200221
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/274554/2/001200221.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/274554/1/001200221.pdf
bitstream.checksum.fl_str_mv 5ae70c4abb43bbf6811a760850b118b1
6b7b50a8ac610746aecf1df08044368c
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224681792995328