Uso de autoencoder para predição de propensão a empréstimo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/274554 |
Resumo: | O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade. |
id |
UFRGS-2_b0233954f6e4681dafe0af9fa3a2688f |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/274554 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Pastorello, Gabriel SperanzaTrierweiler, Jorge OtávioMartello, Rafael Henrique2024-04-11T06:25:10Z2024http://hdl.handle.net/10183/274554001200221O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade.This work consists of constructing autoencoder models for use in predicting daily propensity for personal loan uptake. The aim is to identify the most inclined customers to direct marketing efforts, such as phone calls and digital media advertisements. Performing this prediction on a daily basis is more suitable for the dynamics of a Call Center, for example, which makes thousands of calls daily. However, due to the high amount of data related to call history, initially, an autoencoder was used to reduce the dimensionality of this dataset, reducing the number of variables from 120 to 7. This procedure was also performed using Principal Component Analysis (PCA) for comparison. With the data obtained in this step and the addition of new variables, such as current balance and limit, a new autoencoder with 21 input variables was employed to predict the propensity of clients to take out loans, with all predictions generated in a Light Gradient Boosting Machine (LGBM) model. The dataset used is anonymized and comes from a historical database of a financial institution, being highly unbalanced, with loan cases much rarer than non-loan cases (0.22%). Due to the high difference between the classes inherent to the problem, the main metric chosen for evaluating the models was the area under the precision-recall curve (PR AUC), as it is less prone to overestimating the model's performance when the negative class is predominant. In the dimensionality reduction step, the results obtained were highly satisfactory, with better predictive power of the autoencoder compared to PCA on the generated variables. In the final prediction step, again the autoencoder demonstrated superiority over PCA, recording a PR AUC of 0.0194 against 0.0131. In this step, the results were lower than those achieved using all 21 available variables (0.0282), suggesting that there was still some loss of information. Nevertheless, the daily model strategy proved to be more efficient than the monthly strategy currently used by the institution in all approaches, highlighting the quality of the information and methods used. Overall, the autoencoder proved to be a very useful tool that can be used for data preprocessing and providing relevant information for prediction, especially in systems with high dimensionality.application/pdfporModelos de previsãoAutomatização de processosAutoencoderPersonal loanPropensity modeUso de autoencoder para predição de propensão a empréstimoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPorto Alegre, BR-RS2024Engenharia Químicagraduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001200221.pdf.txt001200221.pdf.txtExtracted Texttext/plain72771http://www.lume.ufrgs.br/bitstream/10183/274554/2/001200221.pdf.txt5ae70c4abb43bbf6811a760850b118b1MD52ORIGINAL001200221.pdfTexto completoapplication/pdf1687897http://www.lume.ufrgs.br/bitstream/10183/274554/1/001200221.pdf6b7b50a8ac610746aecf1df08044368cMD5110183/2745542024-08-15 06:30:33.185807oai:www.lume.ufrgs.br:10183/274554Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2024-08-15T09:30:33Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Uso de autoencoder para predição de propensão a empréstimo |
title |
Uso de autoencoder para predição de propensão a empréstimo |
spellingShingle |
Uso de autoencoder para predição de propensão a empréstimo Pastorello, Gabriel Speranza Modelos de previsão Automatização de processos Autoencoder Personal loan Propensity mode |
title_short |
Uso de autoencoder para predição de propensão a empréstimo |
title_full |
Uso de autoencoder para predição de propensão a empréstimo |
title_fullStr |
Uso de autoencoder para predição de propensão a empréstimo |
title_full_unstemmed |
Uso de autoencoder para predição de propensão a empréstimo |
title_sort |
Uso de autoencoder para predição de propensão a empréstimo |
author |
Pastorello, Gabriel Speranza |
author_facet |
Pastorello, Gabriel Speranza |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pastorello, Gabriel Speranza |
dc.contributor.advisor1.fl_str_mv |
Trierweiler, Jorge Otávio |
dc.contributor.advisor-co1.fl_str_mv |
Martello, Rafael Henrique |
contributor_str_mv |
Trierweiler, Jorge Otávio Martello, Rafael Henrique |
dc.subject.por.fl_str_mv |
Modelos de previsão Automatização de processos |
topic |
Modelos de previsão Automatização de processos Autoencoder Personal loan Propensity mode |
dc.subject.eng.fl_str_mv |
Autoencoder Personal loan Propensity mode |
description |
O trabalho consiste na construção de modelos autoencoder para utilização na predição de propensão diária à realização de empréstimo pessoal. O intuito é identificar os clientes mais propensos para direcionar esforços de marketing, como ligações e anúncios em mídias digitais. A realização dessa predição de forma diária é mais adequada à dinâmica de uma Central de Atendimento, por exemplo, que realiza milhares de ligações diariamente. Porém, devido à alta quantidade de dados relacionados ao histórico de ligações, primeiramente um autoencoder foi utilizado para redução de dimensionalidade dessa base, reduzindo o número de variáveis de 120 para 7. Esse procedimento também foi realizado empregando a técnica de Análise de Componentes Principais (PCA) para comparação. Com os dados obtidos nesta etapa e a adição de novas variáveis, como saldo a vencer e limite, um novo autoencoder com 21 variáveis de entrada foi empregado com o objetivo de predizer a propensão de clientes a realização do empréstimo, com todas as predições geradas em um modelo do tipo Light Gradient Boosting Machine (LGBM). O conjunto de dados utilizado é anonimizado e proveniente de uma base de dados histórica de uma instituição financeira, sendo altamente desbalanceado, com casos de empréstimos muito mais raros do que casos sem empréstimo (0,22%). . Devido à alta diferença entre as classes inerente ao problema, a principal métrica escolhida para avaliação dos modelos foi a área sob a curva de precisão-revocação (PR AUC), pois ela é menos propensa a superestimar o desempenho do modelo quando a classe negativa é predominante. Na etapa de redução de dimensionalidade os resultados obtidos foram muito satisfatórios, com melhor poder preditivo do autoencoder frente ao PCA nas variáveis geradas. Na etapa final de predição, novamente o autoencoder demonstrou superioridade em relação ao PCA, registrando um PR AUC de 0,0194 contra 0,0131. Nesta etapa, os resultados foram inferiores aos alcançados ao utilizar todas as 21 variáveis disponíveis (0,0282), sugerindo que mesmo assim houve alguma perda de informação. Apesar disso, a estratégia de modelo diário se mostrou mais eficiente que a estratégia mensal utilizada atualmente pela instituição em todas as abordagens, evidenciando a qualidade das informações e métodos utilizados. De forma geral, o autoencoder se mostrou uma ferramenta muito útil que pode ser utilizada para o pré-processamento dos dados e fornecimento de informações relevantes para a predição, principalmente em sistemas com alta dimensionalidade. |
publishDate |
2024 |
dc.date.accessioned.fl_str_mv |
2024-04-11T06:25:10Z |
dc.date.issued.fl_str_mv |
2024 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/274554 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001200221 |
url |
http://hdl.handle.net/10183/274554 |
identifier_str_mv |
001200221 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/274554/2/001200221.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/274554/1/001200221.pdf |
bitstream.checksum.fl_str_mv |
5ae70c4abb43bbf6811a760850b118b1 6b7b50a8ac610746aecf1df08044368c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447365172068352 |