Classificação de risco em transferências voluntárias federais utilizando XGBoost
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFMA |
Texto Completo: | https://tedebc.ufma.br/jspui/handle/tede/tede/3152 |
Resumo: | After the Brazilian re-democratization, states and municipalities had to rely on federal government’s voluntary transfers of resources to achieve their public policies. For greater timeliness in the recovery of resources that may have been spent inappropriately, it is necessary to assign risk profiles of success or failure of these transfers. In this work, we propose a methodology that uses eXtreme Gradient Boosting (XGBoost) algorithm, using balanced and unbalanced data sets, with the use of hyperparameter optimization techniques, such as Tree-structured Parzen Bayesian Estimator (TPE). The results achieved good success rates. Results for XGBoost using balanced data showed a recall of 89.3% and unbalanced data a recall of 87.8%. However, for unbalanced data, the AUC score was 98.1%, against 97.9% for balanced data. Incorporating information data about the agreed object using natural language processing techniques can improve the results obtained. |
id |
UFMA_acbfab700a334f9e4b9a30b985f50302 |
---|---|
oai_identifier_str |
oai:tede2:tede/3152 |
network_acronym_str |
UFMA |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFMA |
repository_id_str |
2131 |
spelling |
PAIVA, Anselmo Cardoso375523843-87http://lattes.cnpq.br/6446831084215512GOMES JÚNIOR, Daniel Lima004403073-84http://lattes.cnpq.br/4754106250302979PAIVA, Anselmo Cardoso375523843-87http://lattes.cnpq.br/6446831084215512GOMES JÚNIOR, Daniel Lima004403073-84http://lattes.cnpq.br/4754106250302979BRAZ JÚNIOR, Geraldohttp://lattes.cnpq.br/8287861610873629BAPTISTA, Cláudio de Souzahttp://lattes.cnpq.br/0104124422364023http://lattes.cnpq.br/1085137153932594644936873-04GUILHON, Daniel Moreira2021-01-27T14:27:32Z2020-07-16GUILHON, Daniel Moreira. Classificação de risco em transferências voluntárias federais utilizando XGBoost. 2020.84 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020.https://tedebc.ufma.br/jspui/handle/tede/tede/3152After the Brazilian re-democratization, states and municipalities had to rely on federal government’s voluntary transfers of resources to achieve their public policies. For greater timeliness in the recovery of resources that may have been spent inappropriately, it is necessary to assign risk profiles of success or failure of these transfers. In this work, we propose a methodology that uses eXtreme Gradient Boosting (XGBoost) algorithm, using balanced and unbalanced data sets, with the use of hyperparameter optimization techniques, such as Tree-structured Parzen Bayesian Estimator (TPE). The results achieved good success rates. Results for XGBoost using balanced data showed a recall of 89.3% and unbalanced data a recall of 87.8%. However, for unbalanced data, the AUC score was 98.1%, against 97.9% for balanced data. Incorporating information data about the agreed object using natural language processing techniques can improve the results obtained.Com a redemocratização no Brasil, estados e municípios passaram a contar com transferências voluntárias de recursos por parte do Governo Federal para a consecução de suas políticas públicas. Para uma maior tempestividade na recuperação de recursos eventualmente gastos de forma inadequada, é necessária uma ferramenta de classificação para atribuir perfis de risco de sucesso ou fracasso dessas transferências. Neste trabalho, propomos o uso do algoritmo eXtreme Gradient Boosting (XGBoost) usando conjuntos de dados balanceados e desbalanceados, com técnicas de otimização de hiperparâmetros Tree-structured Parzen Estimator bayesiano (TPE). Os resultados alcançaram boas taxas de sucesso. Os resultados do XGBoost mostraram uma taxa de sensibilidade usando dados balanceados de 89,3% e dados desbalanceados 87,8%. No entanto, para os dados desbalanceados, a AUC foi de 98,1%, contra 97,9% para os dados balanceados. Incorporar dados como informações acerca do objeto pactuado utilizando-se técnicas de processamento de linguagem natural pode melhorar os resultados obtidos.Submitted by Daniella Santos (daniella.santos@ufma.br) on 2021-01-27T14:27:32Z No. of bitstreams: 1 DanielGuilhon.pdf: 3336701 bytes, checksum: 442d8c723041ca36ea4dfad7c7adfa7d (MD5)Made available in DSpace on 2021-01-27T14:27:32Z (GMT). No. of bitstreams: 1 DanielGuilhon.pdf: 3336701 bytes, checksum: 442d8c723041ca36ea4dfad7c7adfa7d (MD5) Previous issue date: 2020-07-16application/pdfporUniversidade Federal do MaranhãoPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCETUFMABrasilDEPARTAMENTO DE INFORMÁTICA/CCETTransferências voluntáriasAprendizagem computacionalXGBoostPredição de riscoVoluntary transfersMachine learningXGBoostRisk predictionCiência da ComputaçãoClassificação de risco em transferências voluntárias federais utilizando XGBoostRisk classification in federal voluntary transfers using XGBoostinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFMAinstname:Universidade Federal do Maranhão (UFMA)instacron:UFMAORIGINALDanielGuilhon.pdfDanielGuilhon.pdfapplication/pdf3336701http://tedebc.ufma.br:8080/bitstream/tede/3152/2/DanielGuilhon.pdf442d8c723041ca36ea4dfad7c7adfa7dMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82255http://tedebc.ufma.br:8080/bitstream/tede/3152/1/license.txt97eeade1fce43278e63fe063657f8083MD51tede/31522021-01-27 11:27:32.895oai:tede2:tede/3152IExJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpDb20gYSBhcHJlc2VudGHDp8OjbyBkZXN0YSBsaWNlbsOnYSxvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBjb25jZWRlIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRvIE1hcmFuaMOjbyAoVUZNQSkgbyBkaXJlaXRvIG7Do28tZXhjbHVzaXZvIGRlIHJlcHJvZHV6aXIsIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IGRpc3RyaWJ1aXIgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBjb25jb3JkYSBxdWUgYSBVRk1BIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBhIFVGTUEgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSB0ZXNlIG91IGRpc3NlcnRhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgw6AgVUZNQSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBURVNFIE9VIERJU1NFUlRBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBVRk1BLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCkEgVUZNQSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIGRhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbywgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBhbMOpbSBkYXF1ZWxhcyBjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgoKRGVjbGFyYSB0YW1iw6ltIHF1ZSB0b2RhcyBhcyBhZmlsaWHDp8O1ZXMgY29ycG9yYXRpdmFzIG91IGluc3RpdHVjaW9uYWlzIGUgdG9kYXMgYXMgZm9udGVzIGRlIGFwb2lvIGZpbmFuY2Vpcm8gYW8gdHJhYmFsaG8gZXN0w6NvIGRldmlkYW1lbnRlIGNpdGFkYXMgb3UgbWVuY2lvbmFkYXMgZSBjZXJ0aWZpY2EgcXVlIG7Do28gaMOhIG5lbmh1bSBpbnRlcmVzc2UgY29tZXJjaWFsIG91IGFzc29jaWF0aXZvIHF1ZSByZXByZXNlbnRlIGNvbmZsaXRvIGRlIGludGVyZXNzZSBlbSBjb25leMOjbyBjb20gbyB0cmFiYWxobyBzdWJtZXRpZG8uCgoKCgoKCgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tedebc.ufma.br/jspui/PUBhttp://tedebc.ufma.br:8080/oai/requestrepositorio@ufma.br||repositorio@ufma.bropendoar:21312021-01-27T14:27:32Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA)false |
dc.title.por.fl_str_mv |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
dc.title.alternative.eng.fl_str_mv |
Risk classification in federal voluntary transfers using XGBoost |
title |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
spellingShingle |
Classificação de risco em transferências voluntárias federais utilizando XGBoost GUILHON, Daniel Moreira Transferências voluntárias Aprendizagem computacional XGBoost Predição de risco Voluntary transfers Machine learning XGBoost Risk prediction Ciência da Computação |
title_short |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
title_full |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
title_fullStr |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
title_full_unstemmed |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
title_sort |
Classificação de risco em transferências voluntárias federais utilizando XGBoost |
author |
GUILHON, Daniel Moreira |
author_facet |
GUILHON, Daniel Moreira |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
PAIVA, Anselmo Cardoso |
dc.contributor.advisor1ID.fl_str_mv |
375523843-87 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/6446831084215512 |
dc.contributor.advisor-co1.fl_str_mv |
GOMES JÚNIOR, Daniel Lima |
dc.contributor.advisor-co1ID.fl_str_mv |
004403073-84 |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/4754106250302979 |
dc.contributor.referee1.fl_str_mv |
PAIVA, Anselmo Cardoso |
dc.contributor.referee1ID.fl_str_mv |
375523843-87 |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/6446831084215512 |
dc.contributor.referee2.fl_str_mv |
GOMES JÚNIOR, Daniel Lima |
dc.contributor.referee2ID.fl_str_mv |
004403073-84 |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/4754106250302979 |
dc.contributor.referee3.fl_str_mv |
BRAZ JÚNIOR, Geraldo |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/8287861610873629 |
dc.contributor.referee4.fl_str_mv |
BAPTISTA, Cláudio de Souza |
dc.contributor.referee4Lattes.fl_str_mv |
http://lattes.cnpq.br/0104124422364023 |
dc.contributor.authorID.fl_str_mv |
http://lattes.cnpq.br/1085137153932594 |
dc.contributor.authorLattes.fl_str_mv |
644936873-04 |
dc.contributor.author.fl_str_mv |
GUILHON, Daniel Moreira |
contributor_str_mv |
PAIVA, Anselmo Cardoso GOMES JÚNIOR, Daniel Lima PAIVA, Anselmo Cardoso GOMES JÚNIOR, Daniel Lima BRAZ JÚNIOR, Geraldo BAPTISTA, Cláudio de Souza |
dc.subject.por.fl_str_mv |
Transferências voluntárias Aprendizagem computacional XGBoost Predição de risco |
topic |
Transferências voluntárias Aprendizagem computacional XGBoost Predição de risco Voluntary transfers Machine learning XGBoost Risk prediction Ciência da Computação |
dc.subject.eng.fl_str_mv |
Voluntary transfers Machine learning XGBoost Risk prediction |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
After the Brazilian re-democratization, states and municipalities had to rely on federal government’s voluntary transfers of resources to achieve their public policies. For greater timeliness in the recovery of resources that may have been spent inappropriately, it is necessary to assign risk profiles of success or failure of these transfers. In this work, we propose a methodology that uses eXtreme Gradient Boosting (XGBoost) algorithm, using balanced and unbalanced data sets, with the use of hyperparameter optimization techniques, such as Tree-structured Parzen Bayesian Estimator (TPE). The results achieved good success rates. Results for XGBoost using balanced data showed a recall of 89.3% and unbalanced data a recall of 87.8%. However, for unbalanced data, the AUC score was 98.1%, against 97.9% for balanced data. Incorporating information data about the agreed object using natural language processing techniques can improve the results obtained. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-07-16 |
dc.date.accessioned.fl_str_mv |
2021-01-27T14:27:32Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
GUILHON, Daniel Moreira. Classificação de risco em transferências voluntárias federais utilizando XGBoost. 2020.84 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020. |
dc.identifier.uri.fl_str_mv |
https://tedebc.ufma.br/jspui/handle/tede/tede/3152 |
identifier_str_mv |
GUILHON, Daniel Moreira. Classificação de risco em transferências voluntárias federais utilizando XGBoost. 2020.84 f. Dissertação (Programa de Pós-Graduação em Ciência da Computação/CCET) - Universidade Federal do Maranhão, São Luís, 2020. |
url |
https://tedebc.ufma.br/jspui/handle/tede/tede/3152 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Maranhão |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO/CCET |
dc.publisher.initials.fl_str_mv |
UFMA |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
DEPARTAMENTO DE INFORMÁTICA/CCET |
publisher.none.fl_str_mv |
Universidade Federal do Maranhão |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFMA instname:Universidade Federal do Maranhão (UFMA) instacron:UFMA |
instname_str |
Universidade Federal do Maranhão (UFMA) |
instacron_str |
UFMA |
institution |
UFMA |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFMA |
collection |
Biblioteca Digital de Teses e Dissertações da UFMA |
bitstream.url.fl_str_mv |
http://tedebc.ufma.br:8080/bitstream/tede/3152/2/DanielGuilhon.pdf http://tedebc.ufma.br:8080/bitstream/tede/3152/1/license.txt |
bitstream.checksum.fl_str_mv |
442d8c723041ca36ea4dfad7c7adfa7d 97eeade1fce43278e63fe063657f8083 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFMA - Universidade Federal do Maranhão (UFMA) |
repository.mail.fl_str_mv |
repositorio@ufma.br||repositorio@ufma.br |
_version_ |
1809926196045021184 |