Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina

Detalhes bibliográficos
Autor(a) principal: Paulo, Fernanda Rodrigues
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFPB
Texto Completo: https://repositorio.ufpb.br/jspui/handle/123456789/18759
Resumo: In 2018, estimates that about 310 TWh were destined to supply irregular connections and measurements in Brazil, approximately R$ 9 billion losses for distributors. The concessionaire of this study faces challenges to detect fraud, mainly due to the volume of data and the limitation on finding patterns without a structured tool. Considering this scenario, the development of an automated methodology is proposed to detect fraud in low voltage customers, without telemetry, using artificial intelligence tools. Information was extracted from the company's database, attributes were implemented, the main variables were selected and then the models were evaluated. The main variable proposed compares the average consumption of the unit with the closest geographic neighbors with similar size characteristics. Variables are also proposed aiming to detect the moment of a reduction in the energy consumption, as well as its value. The most common Machine Learning techniques were tested and four models were proposed: Support Vector Machine was used for consumers with an indication of possible fraud; for residential units without this indication, Gradient Boosting was used; for rural units, Random Forest was used; for the other classes, a Multilayer Perceptron Neural Network was used. The models were qualified based on a new metric, proposed as an alternative to the usual evaluation metrics, which computes the percentage of the energy benefit theoretically recovered by the model in relation to all the energy that could have been recovered. In theoretical tests, it was possible to obtain an accuracy of 39.4%, surpassing 19.5% the current methodology of the company, with 69.8% greater recall. The energy benefit metric also shows that the proposed methodology was able to recover 59.5% of the total amount of energy available, 153.2% higher than the company's current model. New research involves the application of the proposed methodology to the company's base for the classification of the consumers and inspections will be sent to verify the results.
id UFPB_e6731fb4fc327bc62ce58de41b2914c5
oai_identifier_str oai:repositorio.ufpb.br:123456789/18759
network_acronym_str UFPB
network_name_str Biblioteca Digital de Teses e Dissertações da UFPB
repository_id_str
spelling Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquinaPerdas comerciaisPerdas não técnicasFraude de energiaClassificação de padrõesAprendizado de máquinaInteligência ArtificialDetecção de fraudeRecuperação de consumoCommercial lossesNon-technical lossesEnergy fraudPattern classificationMachine learningArtificial intelligenceFraud detectionConsumption recoveryCNPQ::ENGENHARIAS::ENGENHARIA ELETRICAIn 2018, estimates that about 310 TWh were destined to supply irregular connections and measurements in Brazil, approximately R$ 9 billion losses for distributors. The concessionaire of this study faces challenges to detect fraud, mainly due to the volume of data and the limitation on finding patterns without a structured tool. Considering this scenario, the development of an automated methodology is proposed to detect fraud in low voltage customers, without telemetry, using artificial intelligence tools. Information was extracted from the company's database, attributes were implemented, the main variables were selected and then the models were evaluated. The main variable proposed compares the average consumption of the unit with the closest geographic neighbors with similar size characteristics. Variables are also proposed aiming to detect the moment of a reduction in the energy consumption, as well as its value. The most common Machine Learning techniques were tested and four models were proposed: Support Vector Machine was used for consumers with an indication of possible fraud; for residential units without this indication, Gradient Boosting was used; for rural units, Random Forest was used; for the other classes, a Multilayer Perceptron Neural Network was used. The models were qualified based on a new metric, proposed as an alternative to the usual evaluation metrics, which computes the percentage of the energy benefit theoretically recovered by the model in relation to all the energy that could have been recovered. In theoretical tests, it was possible to obtain an accuracy of 39.4%, surpassing 19.5% the current methodology of the company, with 69.8% greater recall. The energy benefit metric also shows that the proposed methodology was able to recover 59.5% of the total amount of energy available, 153.2% higher than the company's current model. New research involves the application of the proposed methodology to the company's base for the classification of the consumers and inspections will be sent to verify the results.NenhumaEstima-se que em 2018 cerca de 310 TWh foram destinados a alimentação de ligações e medições irregulares no Brasil, aproximadamente R$ 9 bilhões de prejuízo para as distribuidoras. Para a concessionária de estudo, são observadas dificuldades para a detecção de fraudes, devido, principalmente, ao volume de dados e a limitação de encontrar padrões sem uma ferramenta estruturada. Considerando esse cenário, propõe-se o desenvolvimento de uma metodologia automatizada para detecção de fraude em clientes da baixa tensão, não telemedidos, com a utilização de ferramentas de inteligência artificial. Foram extraídas informações do banco de dados da empresa, gerados atributos, selecionadas as principais variáveis e, então, avaliados os modelos. A principal variável proposta compara a média de consumo da unidade com os vizinhos geográficos mais próximos com características de porte semelhantes. Também são propostas variáveis que detectam o momento que houve uma redução de consumo, bem como o percentual, através de cálculos estatísticos. As técnicas de aprendizado de máquina mais utilizadas na literatura foram testadas e, no fim, quatro modelos foram propostos: Support Vector Machine para unidades com indicação de suspeita de fraude; Gradiente Boosting para unidades residenciais sem suspeita de fraude; Random Forest para unidades rurais; Rede Neural Perceptron Multicamadas para as demais classes de consumo. Os modelos foram qualificados e as técnicas selecionadas a partir de um novo indicador, proposto como alternativa as métricas usuais de avaliação, que computa o percentual do benefício de energia teoricamente recuperada pelo modelo em relação a toda a energia que poderia ter sido recuperada. Em testes teóricos, foi possível obter uma efetividade de 39,4%, ultrapassando 19,5% a metodologia atual da empresa, com uma cobertura 69,8% maior. O indicador de benefício evidencia também que o método apresentado foi capaz de recuperar 59,5% de todo montante de energia disponível, 153,2% superior ao modelo da empresa. Novas pesquisas envolvem a aplicação da metodologia proposta a base da empresa para classificação das unidades e envio de inspeções para verificar o resultado do trabalho em campo.Universidade Federal da ParaíbaBrasilEngenharia ElétricaPrograma de Pós-Graduação em Engenharia ElétricaUFPBVillanueva, Juan Moises Mauriciohttp://lattes.cnpq.br/1446817462218646Braz, Helon David de Macêdohttp://lattes.cnpq.br/4756997631027455Paulo, Fernanda Rodrigues2020-12-14T00:24:19Z2020-08-312020-12-14T00:24:19Z2020-07-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttps://repositorio.ufpb.br/jspui/handle/123456789/18759porhttp://creativecommons.org/licenses/by-nd/3.0/br/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFPBinstname:Universidade Federal da Paraíba (UFPB)instacron:UFPB2021-09-01T19:51:49Zoai:repositorio.ufpb.br:123456789/18759Biblioteca Digital de Teses e Dissertaçõeshttps://repositorio.ufpb.br/PUBhttp://tede.biblioteca.ufpb.br:8080/oai/requestdiretoria@ufpb.br|| diretoria@ufpb.bropendoar:2021-09-01T19:51:49Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)false
dc.title.none.fl_str_mv Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
title Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
spellingShingle Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
Paulo, Fernanda Rodrigues
Perdas comerciais
Perdas não técnicas
Fraude de energia
Classificação de padrões
Aprendizado de máquina
Inteligência Artificial
Detecção de fraude
Recuperação de consumo
Commercial losses
Non-technical losses
Energy fraud
Pattern classification
Machine learning
Artificial intelligence
Fraud detection
Consumption recovery
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
title_short Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
title_full Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
title_fullStr Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
title_full_unstemmed Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
title_sort Detecção de fraude em unidades consumidoras não telemedidas com uso de técnicas de aprendizado de máquina
author Paulo, Fernanda Rodrigues
author_facet Paulo, Fernanda Rodrigues
author_role author
dc.contributor.none.fl_str_mv Villanueva, Juan Moises Mauricio
http://lattes.cnpq.br/1446817462218646
Braz, Helon David de Macêdo
http://lattes.cnpq.br/4756997631027455
dc.contributor.author.fl_str_mv Paulo, Fernanda Rodrigues
dc.subject.por.fl_str_mv Perdas comerciais
Perdas não técnicas
Fraude de energia
Classificação de padrões
Aprendizado de máquina
Inteligência Artificial
Detecção de fraude
Recuperação de consumo
Commercial losses
Non-technical losses
Energy fraud
Pattern classification
Machine learning
Artificial intelligence
Fraud detection
Consumption recovery
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
topic Perdas comerciais
Perdas não técnicas
Fraude de energia
Classificação de padrões
Aprendizado de máquina
Inteligência Artificial
Detecção de fraude
Recuperação de consumo
Commercial losses
Non-technical losses
Energy fraud
Pattern classification
Machine learning
Artificial intelligence
Fraud detection
Consumption recovery
CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA
description In 2018, estimates that about 310 TWh were destined to supply irregular connections and measurements in Brazil, approximately R$ 9 billion losses for distributors. The concessionaire of this study faces challenges to detect fraud, mainly due to the volume of data and the limitation on finding patterns without a structured tool. Considering this scenario, the development of an automated methodology is proposed to detect fraud in low voltage customers, without telemetry, using artificial intelligence tools. Information was extracted from the company's database, attributes were implemented, the main variables were selected and then the models were evaluated. The main variable proposed compares the average consumption of the unit with the closest geographic neighbors with similar size characteristics. Variables are also proposed aiming to detect the moment of a reduction in the energy consumption, as well as its value. The most common Machine Learning techniques were tested and four models were proposed: Support Vector Machine was used for consumers with an indication of possible fraud; for residential units without this indication, Gradient Boosting was used; for rural units, Random Forest was used; for the other classes, a Multilayer Perceptron Neural Network was used. The models were qualified based on a new metric, proposed as an alternative to the usual evaluation metrics, which computes the percentage of the energy benefit theoretically recovered by the model in relation to all the energy that could have been recovered. In theoretical tests, it was possible to obtain an accuracy of 39.4%, surpassing 19.5% the current methodology of the company, with 69.8% greater recall. The energy benefit metric also shows that the proposed methodology was able to recover 59.5% of the total amount of energy available, 153.2% higher than the company's current model. New research involves the application of the proposed methodology to the company's base for the classification of the consumers and inspections will be sent to verify the results.
publishDate 2020
dc.date.none.fl_str_mv 2020-12-14T00:24:19Z
2020-08-31
2020-12-14T00:24:19Z
2020-07-31
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufpb.br/jspui/handle/123456789/18759
url https://repositorio.ufpb.br/jspui/handle/123456789/18759
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nd/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nd/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Engenharia Elétrica
Programa de Pós-Graduação em Engenharia Elétrica
UFPB
publisher.none.fl_str_mv Universidade Federal da Paraíba
Brasil
Engenharia Elétrica
Programa de Pós-Graduação em Engenharia Elétrica
UFPB
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFPB
instname:Universidade Federal da Paraíba (UFPB)
instacron:UFPB
instname_str Universidade Federal da Paraíba (UFPB)
instacron_str UFPB
institution UFPB
reponame_str Biblioteca Digital de Teses e Dissertações da UFPB
collection Biblioteca Digital de Teses e Dissertações da UFPB
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFPB - Universidade Federal da Paraíba (UFPB)
repository.mail.fl_str_mv diretoria@ufpb.br|| diretoria@ufpb.br
_version_ 1801843020699533312