Classificação de risco em transferências voluntárias federais utilizando XGBoost

Detalhes bibliográficos
Autor(a) principal: GUILHON, Daniel Moreira
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFMA
Texto Completo: https://tedebc.ufma.br/jspui/handle/tede/tede/3207
Resumo: After the Brazilian re-democratization, states and municipalities had to rely on federal government’s voluntary transfers of resources to achieve their public policies. For greater timeliness in the recovery of resources that may have been spent inappropriately, it is necessary to assign risk profiles of success or failure of these transfers. In this work, we propose a methodology that uses eXtreme Gradient Boosting (XGBoost) algorithm, using balanced and unbalanced data sets, with the use of hyperparameter optimization techniques, such as Tree-structured Parzen Bayesian Estimator (TPE). The results achieved good success rates. Results for XGBoost using balanced data showed a recall of 89.3% and unbalanced data a recall of 87.8%. However, for unbalanced data, the AUC score was 98.1%, against 97.9% for balanced data. Incorporating information data about the agreed object using natural language processing techniques can improve the results obtained.
id UFMA_47b40ac29f3641cf4aedc509b20ea0f5
oai_identifier_str oai:tede2:tede/3207
network_acronym_str UFMA
network_name_str Biblioteca Digital de Teses e Dissertações da UFMA
repository_id_str 2131
spelling PAIVA, Anselmo Cardoso375523843-87http://lattes.cnpq.br/6446831084215512GOMES JÚNIOR, Daniel Lima004403073-84http://lattes.cnpq.br/4754106250302979PAIVA, Anselmo Cardoso375523843-87http://lattes.cnpq.br/6446831084215512GOMES JÚNIOR, Daniel Lima004403073-84http://lattes.cnpq.br/4754106250302979BRAZ JÚNIOR, Geraldohttp://lattes.cnpq.br/8287861610873629BAPTISTA, Cláudio de Souzahttp://lattes.cnpq.br/0104124422364023644936873-04http://lattes.cnpq.br/1085137153932594GUILHON, Daniel Moreira2021-02-20T23:39:14Z2020-07-16GUILHON, Daniel Moreira. Classificação de risco em transferências voluntárias federais utilizando XGBoost. 2020. 84 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020.https://tedebc.ufma.br/jspui/handle/tede/tede/3207After the Brazilian re-democratization, states and municipalities had to rely on federal government’s voluntary transfers of resources to achieve their public policies. For greater timeliness in the recovery of resources that may have been spent inappropriately, it is necessary to assign risk profiles of success or failure of these transfers. In this work, we propose a methodology that uses eXtreme Gradient Boosting (XGBoost) algorithm, using balanced and unbalanced data sets, with the use of hyperparameter optimization techniques, such as Tree-structured Parzen Bayesian Estimator (TPE). The results achieved good success rates. Results for XGBoost using balanced data showed a recall of 89.3% and unbalanced data a recall of 87.8%. However, for unbalanced data, the AUC score was 98.1%, against 97.9% for balanced data. Incorporating information data about the agreed object using natural language processing techniques can improve the results obtained.Com a redemocratização no Brasil, estados e municípios passaram a contar com transferências voluntárias de recursos por parte do Governo Federal para a consecução de suas políticas públicas. Para uma maior tempestividade na recuperação de recursos eventualmente gastos de forma inadequada, é necessária uma ferramenta de classificação para atribuir perfis de risco de sucesso ou fracasso dessas transferências. Neste trabalho, propomos o uso do algoritmo eXtreme Gradient Boosting (XGBoost) usando conjuntos de dados balanceados e desbalanceados, com técnicas de otimização de hiperparâmetros Tree-structured Parzen Estimator bayesiano (TPE). Os resultados alcançaram boas taxas de sucesso. Os resultados do XGBoost mostraram uma taxa de sensibilidade usando dados balanceados de 89,3% e dados desbalanceados 87,8%. No entanto, para os dados desbalanceados, a AUC foi de 98,1%, contra 97,9% para os dados balanceados. Incorporar dados como informações acerca do objeto pactuado utilizando-se técnicas de processamento de linguagem natural pode melhorar os resultados obtidos.Submitted by Daniella Santos (daniella.santos@ufma.br) on 2021-02-20T23:39:14Z No. of bitstreams: 1 DanielGuilhon.pdf: 2595197 bytes, checksum: c562a15a7d9bb9fb9ca6ffb5608c231b (MD5)Made available in DSpace on 2021-02-20T23:39:14Z (GMT). No. of bitstreams: 1 DanielGuilhon.pdf: 2595197 bytes, checksum: c562a15a7d9bb9fb9ca6ffb5608c231b (MD5) Previous issue date: 2020-07-16application/pdfporUniversidade Federal do MaranhãoPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETUFMABrasilDEPARTAMENTO DE INFORMÁTICA/CCETTransferências voluntáriasAprendizagem computacionalXGBoostPredição de riscoVoluntary TransfersMachine LearningXGBoostRisk PredictionCiência da ComputaçãoCiência da ComputaçãoClassificação de risco em transferências voluntárias federais utilizando XGBoostRisk classification in federal voluntary transfers using XGBoostinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFMAinstname:Universidade Federal do Maranhão (UFMA)instacron:UFMAORIGINALDanielGuilhon.pdfDanielGuilhon.pdfapplication/pdf2595197http://tedebc.ufma.br:8080/bitstream/tede/3207/2/DanielGuilhon.pdfc562a15a7d9bb9fb9ca6ffb5608c231bMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82255http://tedebc.ufma.br:8080/bitstream/tede/3207/1/license.txt97eeade1fce43278e63fe063657f8083MD51tede/32072021-02-20 20:39:14.54oai:tede2:tede/3207IExJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSxvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvIE1hcmFuaMOjbyAoVUZNQSkgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBVRk1BIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGTUEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVUZNQSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRk1BLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCkEgVUZNQSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoKRGVjbGFyYSB0YW1iw6ltIHF1ZSB0b2RhcyBhcyBhZmlsaWHDp8O1ZXMgY29ycG9yYXRpdmFzIG91IGluc3RpdHVjaW9uYWlzIGUgdG9kYXMgYXMgZm9udGVzIGRlIGFwb2lvIGZpbmFuY2Vpcm8gYW8gdHJhYmFsaG8gZXN0w6NvIGRldmlkYW1lbnRlIGNpdGFkYXMgb3UgbWVuY2lvbmFkYXMgZSBjZXJ0aWZpY2EgcXVlIG7Do28gaMOhIG5lbmh1bSBpbnRlcmVzc2UgY29tZXJjaWFsIG91IGFzc29jaWF0aXZvIHF1ZSByZXByZXNlbnRlIGNvbmZsaXRvIGRlIGludGVyZXNzZSBlbSBjb25leMOjbyBjb20gbyB0cmFiYWxobyBzdWJtZXRpZG8uCgoKCgoKCgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tedebc.ufma.br/jspui/PUBhttp://tedebc.ufma.br:8080/oai/requestrepositorio@ufma.br||repositorio@ufma.bropendoar:21312021-02-20T23:39:14Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)false
dc.title.por.fl_str_mv Classificação de risco em transferências voluntárias federais utilizando XGBoost
dc.title.alternative.eng.fl_str_mv Risk classification in federal voluntary transfers using XGBoost
title Classificação de risco em transferências voluntárias federais utilizando XGBoost
spellingShingle Classificação de risco em transferências voluntárias federais utilizando XGBoost
GUILHON, Daniel Moreira
Transferências voluntárias
Aprendizagem computacional
XGBoost
Predição de risco
Voluntary Transfers
Machine Learning
XGBoost
Risk Prediction
Ciência da Computação
Ciência da Computação
title_short Classificação de risco em transferências voluntárias federais utilizando XGBoost
title_full Classificação de risco em transferências voluntárias federais utilizando XGBoost
title_fullStr Classificação de risco em transferências voluntárias federais utilizando XGBoost
title_full_unstemmed Classificação de risco em transferências voluntárias federais utilizando XGBoost
title_sort Classificação de risco em transferências voluntárias federais utilizando XGBoost
author GUILHON, Daniel Moreira
author_facet GUILHON, Daniel Moreira
author_role author
dc.contributor.advisor1.fl_str_mv PAIVA, Anselmo Cardoso
dc.contributor.advisor1ID.fl_str_mv 375523843-87
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/6446831084215512
dc.contributor.advisor-co1.fl_str_mv GOMES JÚNIOR, Daniel Lima
dc.contributor.advisor-co1ID.fl_str_mv 004403073-84
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/4754106250302979
dc.contributor.referee1.fl_str_mv PAIVA, Anselmo Cardoso
dc.contributor.referee1ID.fl_str_mv 375523843-87
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/6446831084215512
dc.contributor.referee2.fl_str_mv GOMES JÚNIOR, Daniel Lima
dc.contributor.referee2ID.fl_str_mv 004403073-84
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/4754106250302979
dc.contributor.referee3.fl_str_mv BRAZ JÚNIOR, Geraldo
dc.contributor.referee3Lattes.fl_str_mv http://lattes.cnpq.br/8287861610873629
dc.contributor.referee4.fl_str_mv BAPTISTA, Cláudio de Souza
dc.contributor.referee4Lattes.fl_str_mv http://lattes.cnpq.br/0104124422364023
dc.contributor.authorID.fl_str_mv 644936873-04
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/1085137153932594
dc.contributor.author.fl_str_mv GUILHON, Daniel Moreira
contributor_str_mv PAIVA, Anselmo Cardoso
GOMES JÚNIOR, Daniel Lima
PAIVA, Anselmo Cardoso
GOMES JÚNIOR, Daniel Lima
BRAZ JÚNIOR, Geraldo
BAPTISTA, Cláudio de Souza
dc.subject.por.fl_str_mv Transferências voluntárias
Aprendizagem computacional
XGBoost
Predição de risco
topic Transferências voluntárias
Aprendizagem computacional
XGBoost
Predição de risco
Voluntary Transfers
Machine Learning
XGBoost
Risk Prediction
Ciência da Computação
Ciência da Computação
dc.subject.eng.fl_str_mv Voluntary Transfers
Machine Learning
XGBoost
Risk Prediction
dc.subject.cnpq.fl_str_mv Ciência da Computação
Ciência da Computação
description After the Brazilian re-democratization, states and municipalities had to rely on federal government’s voluntary transfers of resources to achieve their public policies. For greater timeliness in the recovery of resources that may have been spent inappropriately, it is necessary to assign risk profiles of success or failure of these transfers. In this work, we propose a methodology that uses eXtreme Gradient Boosting (XGBoost) algorithm, using balanced and unbalanced data sets, with the use of hyperparameter optimization techniques, such as Tree-structured Parzen Bayesian Estimator (TPE). The results achieved good success rates. Results for XGBoost using balanced data showed a recall of 89.3% and unbalanced data a recall of 87.8%. However, for unbalanced data, the AUC score was 98.1%, against 97.9% for balanced data. Incorporating information data about the agreed object using natural language processing techniques can improve the results obtained.
publishDate 2020
dc.date.issued.fl_str_mv 2020-07-16
dc.date.accessioned.fl_str_mv 2021-02-20T23:39:14Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv GUILHON, Daniel Moreira. Classificação de risco em transferências voluntárias federais utilizando XGBoost. 2020. 84 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020.
dc.identifier.uri.fl_str_mv https://tedebc.ufma.br/jspui/handle/tede/tede/3207
identifier_str_mv GUILHON, Daniel Moreira. Classificação de risco em transferências voluntárias federais utilizando XGBoost. 2020. 84 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020.
url https://tedebc.ufma.br/jspui/handle/tede/tede/3207
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal do Maranhão
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET
dc.publisher.initials.fl_str_mv UFMA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv DEPARTAMENTO DE INFORMÁTICA/CCET
publisher.none.fl_str_mv Universidade Federal do Maranhão
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFMA
instname:Universidade Federal do Maranhão (UFMA)
instacron:UFMA
instname_str Universidade Federal do Maranhão (UFMA)
instacron_str UFMA
institution UFMA
reponame_str Biblioteca Digital de Teses e Dissertações da UFMA
collection Biblioteca Digital de Teses e Dissertações da UFMA
bitstream.url.fl_str_mv http://tedebc.ufma.br:8080/bitstream/tede/3207/2/DanielGuilhon.pdf
http://tedebc.ufma.br:8080/bitstream/tede/3207/1/license.txt
bitstream.checksum.fl_str_mv c562a15a7d9bb9fb9ca6ffb5608c231b
97eeade1fce43278e63fe063657f8083
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)
repository.mail.fl_str_mv repositorio@ufma.br||repositorio@ufma.br
_version_ 1809926197058994176