Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas

Detalhes bibliográficos
Autor(a) principal: Cardoso, Giovanni Brígido Bezerra
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UNIFOR
Texto Completo: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/589384
Resumo: A tarefa de estimar empresas candidatas a serem fiscalizadas prioritariamente pelo fisco é não-trivial devido ao grande número de potenciais candidatas e da alta diversidade e granularidade de informações que caracterizam essas empresas. Esta dissertação propõe uma metodologia inovadora baseada em redes complexas e aprendizagem automática que permite estimar, acuradamente, a probabilidade de uma empresa estar envolvida em fraudes. A metodologia mostra que, somente com dados cadastrais das empresas, em especial dados societários, juntamente com dados de uma pequena amostra de dados de empresas inidôneas (advindos da Controladoria Geral da União), ambos dados abertos ao público, pode-se indicar empresas candidatas à fiscalização com maior probabilidade de sucesso do que métodos tradicionais, que não utilizam grafos e aprendizado de máquina na detecção de anomalias. Ao invés de se concentrar exclusivamente em características individuais das empresas, a metodologia visa inicialmente definir um padrão de grupos de empresas levando particularmente em conta a relação que as empresas têm entre si através de seus sócios. Uma rede bipartite entre empresas e sócios foi criada, o que permitiu posteriormente realizar a projeção dessa rede numa rede entre empresas onde o peso entre elas está relacionado ao índice Jaccard entre os sócios que elas possuem. A partir da identificação dos componentes conexos da rede projetada, pode-se criar grupos representando um padrão de empresas de um certo componente conexa levando em conta as relações societárias bem como as características individuais das mesmas. Grupos gerados a partir de componentes conexos em que pelo menos uma empresa grande estava presente foram escolhidos como foco. Cada padrão foi associado a uma probabilidade de se conter empresas inidôneas. A partir disso, pode-se aplicar um modelo de classificação baseado em aprendizado de máquina para estimar a probabilidade de um padrão de empresas indicar o risco de que uma empresa, que se encaixa nesse padrão, esteja envolvida em atividades fraudulentas. Os resultados encontrados sugerem que os modelos criados a partir dessa metodologia são capazes de prever o risco de inidoneidade de uma empresa com uma razoável acurácia (ACC ~ 0.77, AUC ~ 0.86). Palavras-chave: Redes Complexas, Aprendizado de Máquina, Detecção de fraudes
id UFOR_fccf2309285ac37deffab932210f8d6c
oai_identifier_str oai::589384
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensasEmpresas - FinançasTeoria dos grafosCiência de dadosA tarefa de estimar empresas candidatas a serem fiscalizadas prioritariamente pelo fisco é não-trivial devido ao grande número de potenciais candidatas e da alta diversidade e granularidade de informações que caracterizam essas empresas. Esta dissertação propõe uma metodologia inovadora baseada em redes complexas e aprendizagem automática que permite estimar, acuradamente, a probabilidade de uma empresa estar envolvida em fraudes. A metodologia mostra que, somente com dados cadastrais das empresas, em especial dados societários, juntamente com dados de uma pequena amostra de dados de empresas inidôneas (advindos da Controladoria Geral da União), ambos dados abertos ao público, pode-se indicar empresas candidatas à fiscalização com maior probabilidade de sucesso do que métodos tradicionais, que não utilizam grafos e aprendizado de máquina na detecção de anomalias. Ao invés de se concentrar exclusivamente em características individuais das empresas, a metodologia visa inicialmente definir um padrão de grupos de empresas levando particularmente em conta a relação que as empresas têm entre si através de seus sócios. Uma rede bipartite entre empresas e sócios foi criada, o que permitiu posteriormente realizar a projeção dessa rede numa rede entre empresas onde o peso entre elas está relacionado ao índice Jaccard entre os sócios que elas possuem. A partir da identificação dos componentes conexos da rede projetada, pode-se criar grupos representando um padrão de empresas de um certo componente conexa levando em conta as relações societárias bem como as características individuais das mesmas. Grupos gerados a partir de componentes conexos em que pelo menos uma empresa grande estava presente foram escolhidos como foco. Cada padrão foi associado a uma probabilidade de se conter empresas inidôneas. A partir disso, pode-se aplicar um modelo de classificação baseado em aprendizado de máquina para estimar a probabilidade de um padrão de empresas indicar o risco de que uma empresa, que se encaixa nesse padrão, esteja envolvida em atividades fraudulentas. Os resultados encontrados sugerem que os modelos criados a partir dessa metodologia são capazes de prever o risco de inidoneidade de uma empresa com uma razoável acurácia (ACC ~ 0.77, AUC ~ 0.86). Palavras-chave: Redes Complexas, Aprendizado de Máquina, Detecção de fraudesThe task of estimating candidate companies to be inspected primarily by the tax authorities is non-trivial due to the large number of potential candidates and the high diversity and granularity of information that characterize these companies. This dissertation proposes an innovative methodology based on complex networks and machine learning that makes it possible to estimate with high accuracy the probability of a company being involved in fraud. The methodology shows that, only with company registration data, especially corporate data, together with data from a small sample of unreputable companies (coming from the General Comptroller of the Union), both open to the public, it is possible to indicate companies candidates for inspection with a higher probability of success than traditional methods, that don't use graphs and machine learning to detect anomalies. Instead of focusing exclusively on individual characteristics of companies, the methodology initially aims to define a pattern of groups of companies, taking particularly into account the relationship that companies have among themselves through their partners. A bipartite network between companies and partners was created, which later allowed the projection of this network into a network between companies where the weight between them defines the number of common partners they have. From the identification of the connected components of the designed network, it is possible to create groups representing a pattern of companies of a certain connected component, taking into account the corporate relationships as well as their individual characteristics. Groups generated from related components in which at least one large company was present were chosen as the focus. Each pattern was associated with a probability of containing unreputable companies. From this, a machine learning-based classification model can be applied to estimate the probability of a pattern of companies indicating the risk that a company, which fits that pattern, is involved in fraudulent activities. The results found suggest that the models created using this methodology are capable of predicting a company's risk of unsuitability with reasonable accuracy (ACC ~ 0.77, AUC ~ 0.86). Keywords: Complex Networks, Machine Learning, Fraud DetectionA Dissertação foi enviada com autorização e certificação via CI 56686/24 em 02/09/2024.Furtado, VascoPires, Rilder de SousaAndrade Junior, José Soares deCaminha Neto, Carlos de OliveiraUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCardoso, Giovanni Brígido Bezerra2024info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf92f.https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/589384https://uol.unifor.br/auth-sophia/exibicao/37093porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess2024-11-07T09:36:33Zoai::589384Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:2024-11-07T09:36:33Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
title Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
spellingShingle Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
Cardoso, Giovanni Brígido Bezerra
Empresas - Finanças
Teoria dos grafos
Ciência de dados
title_short Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
title_full Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
title_fullStr Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
title_full_unstemmed Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
title_sort Detecção de anomalias com uso de grafos na base de dados abertos da Receita Federal do Brasil e do cadastro de empresas inidôneas e suspensas
author Cardoso, Giovanni Brígido Bezerra
author_facet Cardoso, Giovanni Brígido Bezerra
author_role author
dc.contributor.none.fl_str_mv Furtado, Vasco
Pires, Rilder de Sousa
Andrade Junior, José Soares de
Caminha Neto, Carlos de Oliveira
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Cardoso, Giovanni Brígido Bezerra
dc.subject.por.fl_str_mv Empresas - Finanças
Teoria dos grafos
Ciência de dados
topic Empresas - Finanças
Teoria dos grafos
Ciência de dados
description A tarefa de estimar empresas candidatas a serem fiscalizadas prioritariamente pelo fisco é não-trivial devido ao grande número de potenciais candidatas e da alta diversidade e granularidade de informações que caracterizam essas empresas. Esta dissertação propõe uma metodologia inovadora baseada em redes complexas e aprendizagem automática que permite estimar, acuradamente, a probabilidade de uma empresa estar envolvida em fraudes. A metodologia mostra que, somente com dados cadastrais das empresas, em especial dados societários, juntamente com dados de uma pequena amostra de dados de empresas inidôneas (advindos da Controladoria Geral da União), ambos dados abertos ao público, pode-se indicar empresas candidatas à fiscalização com maior probabilidade de sucesso do que métodos tradicionais, que não utilizam grafos e aprendizado de máquina na detecção de anomalias. Ao invés de se concentrar exclusivamente em características individuais das empresas, a metodologia visa inicialmente definir um padrão de grupos de empresas levando particularmente em conta a relação que as empresas têm entre si através de seus sócios. Uma rede bipartite entre empresas e sócios foi criada, o que permitiu posteriormente realizar a projeção dessa rede numa rede entre empresas onde o peso entre elas está relacionado ao índice Jaccard entre os sócios que elas possuem. A partir da identificação dos componentes conexos da rede projetada, pode-se criar grupos representando um padrão de empresas de um certo componente conexa levando em conta as relações societárias bem como as características individuais das mesmas. Grupos gerados a partir de componentes conexos em que pelo menos uma empresa grande estava presente foram escolhidos como foco. Cada padrão foi associado a uma probabilidade de se conter empresas inidôneas. A partir disso, pode-se aplicar um modelo de classificação baseado em aprendizado de máquina para estimar a probabilidade de um padrão de empresas indicar o risco de que uma empresa, que se encaixa nesse padrão, esteja envolvida em atividades fraudulentas. Os resultados encontrados sugerem que os modelos criados a partir dessa metodologia são capazes de prever o risco de inidoneidade de uma empresa com uma razoável acurácia (ACC ~ 0.77, AUC ~ 0.86). Palavras-chave: Redes Complexas, Aprendizado de Máquina, Detecção de fraudes
publishDate 2024
dc.date.none.fl_str_mv 2024
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/589384
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/589384
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/37093
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
92f.
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1815437288057864192