Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFPB |
Texto Completo: | https://repositorio.ufpb.br/jspui/handle/123456789/29850 |
Resumo: | Bid rigging in public procurement auctions causes significant harm to the society, reducing the effectiveness of public services such as health and education. Despite being object of intense scrutiny by the authorities to mitigate this problem, its identification is not a trivial task, since fraudsters employ sophisticated tasks. Many of the previous works sought to identify a fraudulent bidding process through the analysis of factors, such as, for example, the financial values of the proposals submitted and the behavior of the participants in a bidding process. Recently, several works have proposed using this analysis as an additional input to a machine learning algorithm, with the purpose of automatic detection of fraudulent bidding. In this work, we propose to investigate the joint participation of companies in bidding processes. With this goal, we introduce a new clustering model, which seeks to maximize the use of common resources by cluster members. We have developed a set of tools to solve it: integer programming model and branch-and-bound algorithm. Furthermore, we demonstrate that the partitioning version of this model is a NP-Complete problem and we propose an adaptation of the silhouette function to measure the quality of the generated clusters. Additionally, we introduce a variation of this model for coverage clustering. To solve this version, we propose an enumerative algorithm and an integer programming model. In the experiments performed, the new clustering model manages to be superior in relation to literature models based on distance and edge editing. Specifically, in all cases tested, the new model obtained an equal or greater sum of intersections. From the obtained clusters we sought to measure how much of the joint participation of the members in bids occurred by chance or not. To do so, we proposed a set of metrics to describe the clusters. These metrics are used as an additional input to a machine learning model. In public tender data from different countries, the models that make use of the metrics proposed in this work manage to outperform the models that make use of the metrics in the literature. On average, the proposed models obtained a gain of approximately 8% in the validation correlation, in comparison with the literature metrics. |
id |
UFPB_ab60ca96c139ce7aeb9883d921cf699d |
---|---|
oai_identifier_str |
oai:repositorio.ufpb.br:123456789/29850 |
network_acronym_str |
UFPB |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFPB |
repository_id_str |
|
spelling |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseçãoLicitações - FraudesAprendizagem de máquinaAnálise de gruposCluster analysisMachine learningBid rigging identificationCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOBid rigging in public procurement auctions causes significant harm to the society, reducing the effectiveness of public services such as health and education. Despite being object of intense scrutiny by the authorities to mitigate this problem, its identification is not a trivial task, since fraudsters employ sophisticated tasks. Many of the previous works sought to identify a fraudulent bidding process through the analysis of factors, such as, for example, the financial values of the proposals submitted and the behavior of the participants in a bidding process. Recently, several works have proposed using this analysis as an additional input to a machine learning algorithm, with the purpose of automatic detection of fraudulent bidding. In this work, we propose to investigate the joint participation of companies in bidding processes. With this goal, we introduce a new clustering model, which seeks to maximize the use of common resources by cluster members. We have developed a set of tools to solve it: integer programming model and branch-and-bound algorithm. Furthermore, we demonstrate that the partitioning version of this model is a NP-Complete problem and we propose an adaptation of the silhouette function to measure the quality of the generated clusters. Additionally, we introduce a variation of this model for coverage clustering. To solve this version, we propose an enumerative algorithm and an integer programming model. In the experiments performed, the new clustering model manages to be superior in relation to literature models based on distance and edge editing. Specifically, in all cases tested, the new model obtained an equal or greater sum of intersections. From the obtained clusters we sought to measure how much of the joint participation of the members in bids occurred by chance or not. To do so, we proposed a set of metrics to describe the clusters. These metrics are used as an additional input to a machine learning model. In public tender data from different countries, the models that make use of the metrics proposed in this work manage to outperform the models that make use of the metrics in the literature. On average, the proposed models obtained a gain of approximately 8% in the validation correlation, in comparison with the literature metrics.Fraudes em licitações causam prejuízos significativos à sociedade, diminuindo a eficácia de serviços públicos, como saúde e educação. Apesar do fato de que as autoridades buscam fazer uma intensa investigação para mitigar esse problema, a sua identificação não é uma tarefa trivial, uma vez que os agentes fraudadores empregam táticas sofisticadas. Muitos dos trabalhos anteriores procuraram identificar uma licitação fraudulenta por meio da análise de fatores, como por exemplo, os valores financeiros das propostas submetidas pelas empresas participantes e o comportamento dos participantes de uma licitação. Recentemente, surgiram trabalhos que buscam utilizar essa análise como entrada adicional de um algoritmo de aprendizagem de máquina, com fins de detecção automática de fraudes. Neste trabalho, propomos investigar a participação conjunta de empresas em licitações. Para tanto, introduzimos um novo modelo de agrupamento, que busca maximizar o uso de recursos em comum pelos membros do grupo. Desenvolvemos um conjunto de ferramentas para sua resolução: modelo de programação inteira e algoritmo branch-and-bound. Além disso, demonstramos que a versão de particionamento do modelo é um problema NP-Completo e propomos uma adaptação da função silhueta para medir a qualidade dos grupos gerados. Adicionalmente, introduzimos uma variação desse modelo para agrupamentos por cobertura. Para a resolução dessa versão, é proposto um algoritmo enumerativo e um modelo de programação inteira. Nos experimentos realizados, o novo modelo de agrupamento consegue ser superior em comparação a modelos da literatura baseados em distância e edição de arestas. Especificamente, em todos os casos testados, o novo modelo obteve uma soma de interseções igual ou superior. Dos grupos obtidos buscamos medir o quanto da participação em conjunto dos membros em licitações se deu ao acaso ou não. Para tanto, propomos um conjunto de métricas para descrever os grupos gerados. Essas métricas são utilizadas como entrada adicional de um modelo de aprendizagem de máquina. Em dados de licitações de diversos países, os modelos que fazem uso das métricas propostas neste trabalho conseguem superar os modelos que fazem uso das métricas da literatura. Em média, os modelos propostos obtiveram um ganho de aproximadamente 8% na correlação de validação, em comparação com as métricas da literatura.Universidade Federal da ParaíbaBrasilInformáticaPrograma de Pós-Graduação em InformáticaUFPBSousa Filho, Gilberto Farias dehttp://lattes.cnpq.br/1129941438253617Galvão Júnior, David Pereira2024-03-12T17:46:04Z2023-07-262024-03-12T17:46:04Z2023-07-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://repositorio.ufpb.br/jspui/handle/123456789/29850porAttribution-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2024-03-13T06:08:34Zoai:repositorio.ufpb.br:123456789/29850Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| diretoria@ufpb.bropendoar:2024-03-13T06:08:34Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false |
dc.title.none.fl_str_mv |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
title |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
spellingShingle |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção Galvão Júnior, David Pereira Licitações - Fraudes Aprendizagem de máquina Análise de grupos Cluster analysis Machine learning Bid rigging identification CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
title_full |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
title_fullStr |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
title_full_unstemmed |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
title_sort |
Identificação de fraudes em licitações: uma abordagem utilizando agrupamento por interseção |
author |
Galvão Júnior, David Pereira |
author_facet |
Galvão Júnior, David Pereira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Sousa Filho, Gilberto Farias de http://lattes.cnpq.br/1129941438253617 |
dc.contributor.author.fl_str_mv |
Galvão Júnior, David Pereira |
dc.subject.por.fl_str_mv |
Licitações - Fraudes Aprendizagem de máquina Análise de grupos Cluster analysis Machine learning Bid rigging identification CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
Licitações - Fraudes Aprendizagem de máquina Análise de grupos Cluster analysis Machine learning Bid rigging identification CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Bid rigging in public procurement auctions causes significant harm to the society, reducing the effectiveness of public services such as health and education. Despite being object of intense scrutiny by the authorities to mitigate this problem, its identification is not a trivial task, since fraudsters employ sophisticated tasks. Many of the previous works sought to identify a fraudulent bidding process through the analysis of factors, such as, for example, the financial values of the proposals submitted and the behavior of the participants in a bidding process. Recently, several works have proposed using this analysis as an additional input to a machine learning algorithm, with the purpose of automatic detection of fraudulent bidding. In this work, we propose to investigate the joint participation of companies in bidding processes. With this goal, we introduce a new clustering model, which seeks to maximize the use of common resources by cluster members. We have developed a set of tools to solve it: integer programming model and branch-and-bound algorithm. Furthermore, we demonstrate that the partitioning version of this model is a NP-Complete problem and we propose an adaptation of the silhouette function to measure the quality of the generated clusters. Additionally, we introduce a variation of this model for coverage clustering. To solve this version, we propose an enumerative algorithm and an integer programming model. In the experiments performed, the new clustering model manages to be superior in relation to literature models based on distance and edge editing. Specifically, in all cases tested, the new model obtained an equal or greater sum of intersections. From the obtained clusters we sought to measure how much of the joint participation of the members in bids occurred by chance or not. To do so, we proposed a set of metrics to describe the clusters. These metrics are used as an additional input to a machine learning model. In public tender data from different countries, the models that make use of the metrics proposed in this work manage to outperform the models that make use of the metrics in the literature. On average, the proposed models obtained a gain of approximately 8% in the validation correlation, in comparison with the literature metrics. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-07-26 2023-07-13 2024-03-12T17:46:04Z 2024-03-12T17:46:04Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpb.br/jspui/handle/123456789/29850 |
url |
https://repositorio.ufpb.br/jspui/handle/123456789/29850 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal da Paraíba Brasil Informática Programa de Pós-Graduação em Informática UFPB |
publisher.none.fl_str_mv |
Universidade Federal da Paraíba Brasil Informática Programa de Pós-Graduação em Informática UFPB |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFPB instname:Universidade Federal da Paraíba (UFPB) instacron:UFPB |
instname_str |
Universidade Federal da Paraíba (UFPB) |
instacron_str |
UFPB |
institution |
UFPB |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFPB |
collection |
Biblioteca Digital de Teses e Dissertações da UFPB |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB) |
repository.mail.fl_str_mv |
diretoria@ufpb.br|| diretoria@ufpb.br |
_version_ |
1801843030243672064 |