Análise de risco de crédito usando algoritmos de Machine Learning

Detalhes bibliográficos
Autor(a) principal: Pereira, Pedro Miguel Pinhal
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/48083
Resumo: Tese de mestrado em Matemática Financeira, Universidade de Lisboa, Faculdade de Ciências, 2021
id RCAP_56b5f08470ee713ab53910017d35f3f8
oai_identifier_str oai:repositorio.ul.pt:10451/48083
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Análise de risco de crédito usando algoritmos de Machine LearningCredit ScoringMachine LearningRatingsRandom forestRisco de créditoStandard & Poor’sDemonstrações financeirasTeses de mestrado - 2021Domínio/Área Científica::Ciências Naturais::MatemáticasTese de mestrado em Matemática Financeira, Universidade de Lisboa, Faculdade de Ciências, 2021A presente dissertação resulta da necessidade de se classificar empresas consoante o seu nível de risco de crédito. Para tal, será desenvolvido um modelo que tem como input as demonstrações financeiras de uma empresa, classificando-a através do rating da sua dívida com a nomenclatura da Standard & Poor’s. Com o intuito de alcançar o objetivo anteriormente definido, considerei um conjunto de dados da CRSP (Center for Research in Security Prices, LLC), sendo a amostra inicial composta por 3320 observações das demonstrações financeiras anuais de diversas empresas que constituem o índice bolsista S&P500, no intervalo temporal de 2010 a 2018. Estes dados foram trabalhados na linguagem de programação Python, utilizando a aplicação Jupyter Notebook, com objetivo de criar, treinar e testar este modelo de Credit Scoring, procedendo à utilização de diversos algoritmos de Machine Learning. Para obter uma melhor performance no modelo, foram usados métodos para a seleção das variáveis pela importância que tinham na classificação do modelo, tendo reduzido as variáveis numéricas de 69 para 20. A capacidade de previsão/acerto dos diversos algoritmos foram comparadas e o melhor algoritmo (Random Forest, o que teve maior percentagem de accuracy) foi escolhido e utilizado para a previsão do modelo. Devido à pouca diversidade de ratings das empresas do S&P500, uma vez que existem poucas empresas com ratings baixos, próximos do nível de default, o modelo criado tornou-se num modelo binário e a classificação foi reduzida a Investment grade (de AAA até BBB-) e Non-Investment grade (de BB+ até CC).This thesis results from the need to classify companies according to their level of credit risk. And, for this purpose, a model will be developed that taking as input the financial statements of a certain company will return the rating of its debt using the nomenclature from Standard & Poor’s. In order to achieve the previously defined goal, a dataset from CRSP (Center for Research in Security Prices, LLC) was considered with an initial sample of 3320 values of the annual financial statements of several companies that are integrated in the S&P500 stocks index, in the time interval from 2010 to 2018. This dataset was prepared and modified in the programming language Python, using the application Jupyter Notebook, with the goal of creating, training and testing this Credit Scoring model, proceeding with the use of several Machine Learning algorithms. With the purpose of obtaining a better performance in the model, it was produced features selection models, based on their importance for the classification model, and the features were reduced from 69 to only 20 variables. The prediction/accuracy of the various algorithms were compared, and the best algorithm (Random Forest, which had the highest percentage of accuracy) was chosen and used to predict the model. Due to the little diversity of ratings of the S&P500 companies, since there are few companies with low ratings, close to the default level, the model created became a binary model, and the rating was reduced to Investment grade (from AAA to BBB-) and Non-Investment grade (from BB+ to CC).Mendes, Diana E. AldeaRepositório da Universidade de LisboaPereira, Pedro Miguel Pinhal2021-05-21T14:31:03Z202120202021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/48083TID:202607542porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:51:18Zoai:repositorio.ul.pt:10451/48083Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:00:00.471206Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Análise de risco de crédito usando algoritmos de Machine Learning
title Análise de risco de crédito usando algoritmos de Machine Learning
spellingShingle Análise de risco de crédito usando algoritmos de Machine Learning
Pereira, Pedro Miguel Pinhal
Credit Scoring
Machine Learning
Ratings
Random forest
Risco de crédito
Standard & Poor’s
Demonstrações financeiras
Teses de mestrado - 2021
Domínio/Área Científica::Ciências Naturais::Matemáticas
title_short Análise de risco de crédito usando algoritmos de Machine Learning
title_full Análise de risco de crédito usando algoritmos de Machine Learning
title_fullStr Análise de risco de crédito usando algoritmos de Machine Learning
title_full_unstemmed Análise de risco de crédito usando algoritmos de Machine Learning
title_sort Análise de risco de crédito usando algoritmos de Machine Learning
author Pereira, Pedro Miguel Pinhal
author_facet Pereira, Pedro Miguel Pinhal
author_role author
dc.contributor.none.fl_str_mv Mendes, Diana E. Aldea
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Pereira, Pedro Miguel Pinhal
dc.subject.por.fl_str_mv Credit Scoring
Machine Learning
Ratings
Random forest
Risco de crédito
Standard & Poor’s
Demonstrações financeiras
Teses de mestrado - 2021
Domínio/Área Científica::Ciências Naturais::Matemáticas
topic Credit Scoring
Machine Learning
Ratings
Random forest
Risco de crédito
Standard & Poor’s
Demonstrações financeiras
Teses de mestrado - 2021
Domínio/Área Científica::Ciências Naturais::Matemáticas
description Tese de mestrado em Matemática Financeira, Universidade de Lisboa, Faculdade de Ciências, 2021
publishDate 2020
dc.date.none.fl_str_mv 2020
2021-05-21T14:31:03Z
2021
2021-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/48083
TID:202607542
url http://hdl.handle.net/10451/48083
identifier_str_mv TID:202607542
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134546663309312