Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos

Detalhes bibliográficos
Autor(a) principal: Bruscato, Lucas Peinado
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-12032020-055952/
Resumo: A corrupção no Brasil afeta diretamente o bem-estar dos cidadãos ao diminuir os investimentos públicos na saúde, na educação, em infraestrutura, segurança, habitação, entre outros direitos essenciais à vida. A democratização da internet e a evolução da ciência de dados nos permitiu avaliar a relação de irregularidades administrativas, no caso deste trabalho palavras negativas, e mudanças em indicadores sociais sobre municípios. Desenvolvemos um algoritmo (web scraper) que automatiza a captura dos relatórios da auditoria da CGU e analisamos a polaridade das palavras presentes nos relatórios separadamente. Obtivemos os dados socioeconômicos no censo do IBGE em dois períodos e criamos modelos de aprendizado de máquina para predição do percentual de polaridade negativa por município baseado nos dados do IBGE. Para se avaliar a qualidade de um modelo complexo é importante ter um modelo simples como parâmetro de desempenho base, realizamos o treinamento de três modelos (regressão linear, random forest e xgboost) sobre a base de dados criada. As principais contribuições deste trabalho foram a extração automatizada dos dados governamentais, encontrar evidência estatística da relação entre os dados dos relatórios e dos dados socioeconômicos de fontes distintas e modelos de aprendizado de máquina funcionais para o problema proposto.
id USP_afcc001ed379340ca2a2a4baa36b9054
oai_identifier_str oai:teses.usp.br:tde-12032020-055952
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicosPrediction of negative polarity in audit reports using socioeconomic dataDados socioeconômicosLinear regressionNatural language processingProcessamento de linguagem naturalRandom forestRandom forestRegressão linearSocioeconomic dataWeb scraperWeb scraperXgboostXgboostA corrupção no Brasil afeta diretamente o bem-estar dos cidadãos ao diminuir os investimentos públicos na saúde, na educação, em infraestrutura, segurança, habitação, entre outros direitos essenciais à vida. A democratização da internet e a evolução da ciência de dados nos permitiu avaliar a relação de irregularidades administrativas, no caso deste trabalho palavras negativas, e mudanças em indicadores sociais sobre municípios. Desenvolvemos um algoritmo (web scraper) que automatiza a captura dos relatórios da auditoria da CGU e analisamos a polaridade das palavras presentes nos relatórios separadamente. Obtivemos os dados socioeconômicos no censo do IBGE em dois períodos e criamos modelos de aprendizado de máquina para predição do percentual de polaridade negativa por município baseado nos dados do IBGE. Para se avaliar a qualidade de um modelo complexo é importante ter um modelo simples como parâmetro de desempenho base, realizamos o treinamento de três modelos (regressão linear, random forest e xgboost) sobre a base de dados criada. As principais contribuições deste trabalho foram a extração automatizada dos dados governamentais, encontrar evidência estatística da relação entre os dados dos relatórios e dos dados socioeconômicos de fontes distintas e modelos de aprendizado de máquina funcionais para o problema proposto.Corruption in Brazil directly affects the well-being of citizens by diminishing public investment in health, education, infrastructure, security, housing, among other essential rights to life. The democratization of the internet and the evolution of data science allowed us to evaluate the relationship of administrative irregularities, in this case negative words, and changes in social indicators about municipalities. We developed a web scraper algorithm that automates the capture of CGU audit reports and analyzed the polarity of the words present in the reports separately. We obtained socioeconomic data from the IBGE census in two periods and created machine learning models to predict the negative polarity percentage by municipality based on IBGE data. To evaluate the quality of a complex model, it is important to have a simple model as a base performance parameter. We trained three models (linear regression, random forest and xgboost) on the created database. The main contributions of this work were the automated extraction of government data, finding statistical evidence of the relationship between reporting data and socioeconomic data from different sources and functional machine learning models for the proposed problem.Biblioteca Digitais de Teses e Dissertações da USPLeonardi, Florencia GracielaBruscato, Lucas Peinado2020-02-18info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-12032020-055952/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-15T15:47:03Zoai:teses.usp.br:tde-12032020-055952Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T15:47:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
Prediction of negative polarity in audit reports using socioeconomic data
title Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
spellingShingle Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
Bruscato, Lucas Peinado
Dados socioeconômicos
Linear regression
Natural language processing
Processamento de linguagem natural
Random forest
Random forest
Regressão linear
Socioeconomic data
Web scraper
Web scraper
Xgboost
Xgboost
title_short Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
title_full Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
title_fullStr Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
title_full_unstemmed Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
title_sort Predição de polaridade negativa em relatórios de auditoria utilizando dados socioeconômicos
author Bruscato, Lucas Peinado
author_facet Bruscato, Lucas Peinado
author_role author
dc.contributor.none.fl_str_mv Leonardi, Florencia Graciela
dc.contributor.author.fl_str_mv Bruscato, Lucas Peinado
dc.subject.por.fl_str_mv Dados socioeconômicos
Linear regression
Natural language processing
Processamento de linguagem natural
Random forest
Random forest
Regressão linear
Socioeconomic data
Web scraper
Web scraper
Xgboost
Xgboost
topic Dados socioeconômicos
Linear regression
Natural language processing
Processamento de linguagem natural
Random forest
Random forest
Regressão linear
Socioeconomic data
Web scraper
Web scraper
Xgboost
Xgboost
description A corrupção no Brasil afeta diretamente o bem-estar dos cidadãos ao diminuir os investimentos públicos na saúde, na educação, em infraestrutura, segurança, habitação, entre outros direitos essenciais à vida. A democratização da internet e a evolução da ciência de dados nos permitiu avaliar a relação de irregularidades administrativas, no caso deste trabalho palavras negativas, e mudanças em indicadores sociais sobre municípios. Desenvolvemos um algoritmo (web scraper) que automatiza a captura dos relatórios da auditoria da CGU e analisamos a polaridade das palavras presentes nos relatórios separadamente. Obtivemos os dados socioeconômicos no censo do IBGE em dois períodos e criamos modelos de aprendizado de máquina para predição do percentual de polaridade negativa por município baseado nos dados do IBGE. Para se avaliar a qualidade de um modelo complexo é importante ter um modelo simples como parâmetro de desempenho base, realizamos o treinamento de três modelos (regressão linear, random forest e xgboost) sobre a base de dados criada. As principais contribuições deste trabalho foram a extração automatizada dos dados governamentais, encontrar evidência estatística da relação entre os dados dos relatórios e dos dados socioeconômicos de fontes distintas e modelos de aprendizado de máquina funcionais para o problema proposto.
publishDate 2020
dc.date.none.fl_str_mv 2020-02-18
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45133/tde-12032020-055952/
url https://www.teses.usp.br/teses/disponiveis/45/45133/tde-12032020-055952/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256889645072384