Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito

Detalhes bibliográficos
Autor(a) principal: Dória, Fernanda Guimarães
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/202392
Resumo: TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de Produção
id UFSC_918a3444f9e06805e85662745a09fd86
oai_identifier_str oai:repositorio.ufsc.br:123456789/202392
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de créditoAnálise de CréditoAprendizado de MáquinaSeleção de FeaturesTCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de ProduçãoO segmento de análise de dados tem apresentado crescimento exponencial nos mercados nacionais e internacionais nos últimos anos, possibilitando uma tomada de decisão baseada em métodos estatísticos e proporcionando uma substancial melhora nos resultados econômicos. Nesse contexto, a avaliação individual no mercado de análise de crédito vem continuamente buscando novas formas de renovação tecnológica, introduzindo diferentes aspectos de caracterização através da utilização de diversos tipos de dados pessoais. O presente trabalho busca, dessa maneira, criar novas variáveis a partir de dados de compra do varejo, de forma a categorizar comportamentos inadimplentes e complementar sistemas de avaliação já disponíveis no mercado. Os dados foram trabalhados visando a quantificação de diferentes parâmetros comportamentais através da criação de features, possibilitando sua aplicação em modelos de classificação e utilizando como variável resposta dados de uma plataforma online de modelagem preditiva. O processo interativo de análise, em que cada teste foi feito utilizando diferentes combinações de variáveis e modelos preditivos, permitiu comparar resultados através de métricas estatísticas ao final de cada ciclo, apontando quais apresentaram melhores rendimentos. Foram utilizadas ferramentas estatísticas e feature importance de diferentes modelos de classificação para a seleção de variáveis (Ridge Classifier e Balanced Random Forest), buscando comparar os modelos Random Forest, Ridge classifier e Regressão Logística quanto ao desempenho com base nas métricas ROC-AUC e MCC. O desenvolvimento dos passos apresentados resultaram em 15 combinações de grupos de variáveis e modelos estatísticos, apontando para regressão logística como modelo mais eficiente na predição de possíveis inadimplentes e a seleção de features baseada em diferentes modelos de previsão para limitação das variáveis utilizadas no algoritmo, resultando em um índice AUC-ROC de 0,647 e MCC de 0,095.The data analysis segment has shown exponential growth in national and international markets in the last years, enabling decision making based on statistical methods and providing a substantial improvement in economic results. In this context, the individual evaluation in the credit analysis market has been continually seeking new ways of technological renewal, introducing different aspects of characterization through the use of different types of personal data. Thus, the present work seeks to create new variables from retail purchase data, in order to categorize default behaviors and complement evaluation systems that are already available in the market. The data were manipulated aiming the quantification of different behavioral parameters through the creation of features, enabling its application in classification models and using as an answer variable data from an online predictive modeling platform. The interactive process of analysis, in which each test was done using different combinations of variables and predictive models, allowed to compare results through statistical metrics at the end of each cycle, indicating which ones presented better yields. Statistical tools and feature importance of different classification models were used for the variable selection (Ridge Classifier and Balanced Random Forest), seeking to compare the Random Forest, Ridge Classifier and Logistic Regression models as its performance based on the ROC-AUC and MCC metrics. The development of the presented steps resulted in 15 combinations of variable groups and statistical models, pointing to logistic regression as the most efficient model for predicting possible defaults and feature selection based on different forecasting models to limit the variables used in the algorithm, resulting in an AUC-ROC index of 0,647 and MCC of 0,095.Florianópolis, SCGiglio, Ricardo FariasUniversidade Federal de Santa CatarinaDória, Fernanda Guimarães2019-12-06T14:17:49Z2019-12-06T14:17:49Z2019-11-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis53 f.application/pdfhttps://repositorio.ufsc.br/handle/123456789/202392info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2019-12-06T14:17:49Zoai:repositorio.ufsc.br:123456789/202392Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732019-12-06T14:17:49Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
title Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
spellingShingle Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
Dória, Fernanda Guimarães
Análise de Crédito
Aprendizado de Máquina
Seleção de Features
title_short Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
title_full Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
title_fullStr Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
title_full_unstemmed Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
title_sort Utilização de big data para a construção de features no desenvolvimento de modelos preditivos em análise de crédito
author Dória, Fernanda Guimarães
author_facet Dória, Fernanda Guimarães
author_role author
dc.contributor.none.fl_str_mv Giglio, Ricardo Farias
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Dória, Fernanda Guimarães
dc.subject.por.fl_str_mv Análise de Crédito
Aprendizado de Máquina
Seleção de Features
topic Análise de Crédito
Aprendizado de Máquina
Seleção de Features
description TCC(graduação) - Universidade Federal de Santa Catarina. Centro Tecnológico. Engenharia de Produção
publishDate 2019
dc.date.none.fl_str_mv 2019-12-06T14:17:49Z
2019-12-06T14:17:49Z
2019-11-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/202392
url https://repositorio.ufsc.br/handle/123456789/202392
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 53 f.
application/pdf
dc.publisher.none.fl_str_mv Florianópolis, SC
publisher.none.fl_str_mv Florianópolis, SC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652145850843136