Avaliação de métodos de similaridade textual no contexto de investigação policial.

Detalhes bibliográficos
Autor(a) principal: MARQUES JUNIOR, Antonio Ricardo.
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717
Resumo: A Polícia Federal (PF) atua, dentre suas diversas atribuições, na apuração de inquéritos através de delegados e agentes federais em seus respectivos núcleos de investigação. Uma das tarefas mais recorrentes realizada pelos investigadores ocorre no processo de instauração de inquéritos, onde o responsável deve verificar se já existe um procedimento de investigação criminal para o fato em questão. Entretanto, por se tratar de uma atividade subjetiva e que depende do indiv´ıduo que a realiza, existe a possibilidade da instauração de mais de um inquérito apurando o mesmo fato, dificultando o processo de investigação. Este estudo compara modelos clássicos e do estado da arte em Recuperação da Informação como distância de Cosseno, Similaridade de Jaccard, Doc2Vec e WMD, na busca por inquéritos relevantes a partir de informações estruturadas e não-estruturadas (documentos textuais), visando identificar duplicidade de inquéritos, casos similares que auxiliem em tomadas de decisão em investigações ou para treinamento de novos delegados e crimes que possam estar relacionados. Para a construção dos modelos foram utilizados dados de inquéritos não-sigilosos do ePol, plataforma web que gerencia atividades policiais e interliga as unidades da PF. Os modelos construídos retornam o top 4 inquéritos similares a um inquérito passado como entrada. Dado que o problema trata de dados não-supervisionados, a avaliação foi realizada por meio de especialistas no contexto, representados por delegados e escrivães da PF, onde estes responderam a formulários submetidos diariamente com inquéritos a serem comparados. Os resultados mostram que métodos clássicos como similaridade de jaccard e distância de cosseno atingem bons resultados para detecção de inquéritos semelhantes, com NDCGs iguais a 0.8812 e 0.8371 respectivamente. O modelo WMD ainda apresenta um NDCG próximo aos já citados (0.8037) e o doc2vec atinge o pior resultado (0.6743). O estudo sugere que o desempenho dos modelos baseados em redes neurais estão abaixo dos demais devido a base de treinamento não ser considerada grande o suficiente para um modelo de rede neural profunda, o que pode dificultar a tarefa de aprendizado para este tipo de abordagem. Para detecção de duplicidade e relação entre inquéritos os resultados não foram satisfatórios de acordo com a métrica utilizada. Entretanto, vale salientar que, i ao contrário da semelhança entre inquéritos, duplicidade e relação entre inquéritos não são eventos comuns de ocorrerem neste contexto. Os modelos sugeridos no estudo podem ser utilizados junto a plataforma ePol, auxiliando na identificação de duplicidade e assim otimizando o trabalho da PF ao reduzir o desperdício de recursos da corporação, além de sugerir inquéritos semelhantes para, por exemplo, auxiliar no treinamento de novos delegados sobre como e quais ações devem ser tomadas na condução de um inquérito policial.
id UFCG_4379283abef350451069b373ee7c7d33
oai_identifier_str oai:localhost:riufcg/12717
network_acronym_str UFCG
network_name_str Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str 4851
spelling Avaliação de métodos de similaridade textual no contexto de investigação policial.Evaluation of textual similarity methods in the context of police investigation.Recuperação da InformaçãoInformation RetrievalRecuperación de InformaciónProcessamento de Linguagem NaturalProcesamiento del Lenguaje NaturalNatural Language ProcessingAprendizagem de MáquinaMachine LearningAprendizaje AutomáticoInvestigação PolicialInvestigación PolicialPolice InvestigationSimilaridade TextualTextual SimilaritySimilitud TextualCiência da ComputaçãoA Polícia Federal (PF) atua, dentre suas diversas atribuições, na apuração de inquéritos através de delegados e agentes federais em seus respectivos núcleos de investigação. Uma das tarefas mais recorrentes realizada pelos investigadores ocorre no processo de instauração de inquéritos, onde o responsável deve verificar se já existe um procedimento de investigação criminal para o fato em questão. Entretanto, por se tratar de uma atividade subjetiva e que depende do indiv´ıduo que a realiza, existe a possibilidade da instauração de mais de um inquérito apurando o mesmo fato, dificultando o processo de investigação. Este estudo compara modelos clássicos e do estado da arte em Recuperação da Informação como distância de Cosseno, Similaridade de Jaccard, Doc2Vec e WMD, na busca por inquéritos relevantes a partir de informações estruturadas e não-estruturadas (documentos textuais), visando identificar duplicidade de inquéritos, casos similares que auxiliem em tomadas de decisão em investigações ou para treinamento de novos delegados e crimes que possam estar relacionados. Para a construção dos modelos foram utilizados dados de inquéritos não-sigilosos do ePol, plataforma web que gerencia atividades policiais e interliga as unidades da PF. Os modelos construídos retornam o top 4 inquéritos similares a um inquérito passado como entrada. Dado que o problema trata de dados não-supervisionados, a avaliação foi realizada por meio de especialistas no contexto, representados por delegados e escrivães da PF, onde estes responderam a formulários submetidos diariamente com inquéritos a serem comparados. Os resultados mostram que métodos clássicos como similaridade de jaccard e distância de cosseno atingem bons resultados para detecção de inquéritos semelhantes, com NDCGs iguais a 0.8812 e 0.8371 respectivamente. O modelo WMD ainda apresenta um NDCG próximo aos já citados (0.8037) e o doc2vec atinge o pior resultado (0.6743). O estudo sugere que o desempenho dos modelos baseados em redes neurais estão abaixo dos demais devido a base de treinamento não ser considerada grande o suficiente para um modelo de rede neural profunda, o que pode dificultar a tarefa de aprendizado para este tipo de abordagem. Para detecção de duplicidade e relação entre inquéritos os resultados não foram satisfatórios de acordo com a métrica utilizada. Entretanto, vale salientar que, i ao contrário da semelhança entre inquéritos, duplicidade e relação entre inquéritos não são eventos comuns de ocorrerem neste contexto. Os modelos sugeridos no estudo podem ser utilizados junto a plataforma ePol, auxiliando na identificação de duplicidade e assim otimizando o trabalho da PF ao reduzir o desperdício de recursos da corporação, além de sugerir inquéritos semelhantes para, por exemplo, auxiliar no treinamento de novos delegados sobre como e quais ações devem ser tomadas na condução de um inquérito policial.The Brazilian Federal Police (PF) operates, among its diverse duties, in the investigation of cases through federal agents in their respective departments. One of the most recurrent tasks carried out by investigators occurs in the process of open investigations, where the person in charge must verify if there is already a criminal investigation procedure for the fact in question. However, because it is a subjective activity and it depends who performs it, there is the possibility of setting up more than one investigation ascertaining the same fact, making the investigation process difficult. This study compares classic and and state-of-art models in information retrieval such as Cosine Distance, Jaccard Similarity, Doc2Vec, and WMD, in search of relevant inquiries from structured and unstructured data (textual documents), aiming to detect document inquiries duplicity, similar cases that assist decision-making in investigations or to train new delegates through similar crimes. To build the IR models, we used non-confidential data from ePol, the web platform which manages investigations’ activities and interconnects the Federal Police Stations of Brazil. Each model returns the 4 most similar inquires to a previous inquiry selected as input. 55 inquiries were used as queries for each model and their responses were submitted to an evaluation. Given the problem deals with unsupervised data, the evaluation was fulfilled by contextual experts, represented by PF delegates and clerks, where they answered surveys daily regarding comparisons between inquires. The results show classical methods such as jaccard similarity and cosine distance chieve good results for similar inquiries’ detection, with NDCGs equal to 0.8812 and 0.8371 respectively. The WMD model still has an NDCG close to those already mentioned (0.8037) and doc2vec achieves the worst result (0.6743). The study suggests the performance of models based on neural networks are below the others because the training base is not considered large enough for a deep neural network model, which can make the learning task for this type of approach more difficult. For detection of duplicity and relationship between inquiries, the results were not satisfactory according to NDCG metric. However, it should be noted that, unlike the similarity between inquiries, duplicity and relationship between inquiries are not common events to occur in this context. The models suggested in this study can be used as a feature of the ePol platform, identifying duplicity between inquiries and thereby optimizing PF’s work by reducing the waste of corporate resources, suggesting similar inquiries to new delegates and helping them regarding what actions should be taken in a police investigation.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGMONTEIRO, João Arthur Brunet.BRUNET, J. A. M.http://lattes.cnpq.br/7892247821251194MASSONI, Tiago Lima.ANDRADE, Nazareno Ferreira de.FIGUEIREDO, Flavio Vinicius Diniz de.MARQUES JUNIOR, Antonio Ricardo.2020-02-032020-04-08T15:42:55Z2020-04-082020-04-08T15:42:55Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717MARQUES JUNIOR, A. R. Avaliação de métodos de similaridade textual no contexto de investigação policial. 2020. 63 f. Dissertação (Mestrado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2020.porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2020-04-23T15:40:32Zoai:localhost:riufcg/12717Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.bropendoar:48512020-04-23T15:40:32Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv Avaliação de métodos de similaridade textual no contexto de investigação policial.
Evaluation of textual similarity methods in the context of police investigation.
title Avaliação de métodos de similaridade textual no contexto de investigação policial.
spellingShingle Avaliação de métodos de similaridade textual no contexto de investigação policial.
MARQUES JUNIOR, Antonio Ricardo.
Recuperação da Informação
Information Retrieval
Recuperación de Información
Processamento de Linguagem Natural
Procesamiento del Lenguaje Natural
Natural Language Processing
Aprendizagem de Máquina
Machine Learning
Aprendizaje Automático
Investigação Policial
Investigación Policial
Police Investigation
Similaridade Textual
Textual Similarity
Similitud Textual
Ciência da Computação
title_short Avaliação de métodos de similaridade textual no contexto de investigação policial.
title_full Avaliação de métodos de similaridade textual no contexto de investigação policial.
title_fullStr Avaliação de métodos de similaridade textual no contexto de investigação policial.
title_full_unstemmed Avaliação de métodos de similaridade textual no contexto de investigação policial.
title_sort Avaliação de métodos de similaridade textual no contexto de investigação policial.
author MARQUES JUNIOR, Antonio Ricardo.
author_facet MARQUES JUNIOR, Antonio Ricardo.
author_role author
dc.contributor.none.fl_str_mv MONTEIRO, João Arthur Brunet.
BRUNET, J. A. M.
http://lattes.cnpq.br/7892247821251194
MASSONI, Tiago Lima.
ANDRADE, Nazareno Ferreira de.
FIGUEIREDO, Flavio Vinicius Diniz de.
dc.contributor.author.fl_str_mv MARQUES JUNIOR, Antonio Ricardo.
dc.subject.por.fl_str_mv Recuperação da Informação
Information Retrieval
Recuperación de Información
Processamento de Linguagem Natural
Procesamiento del Lenguaje Natural
Natural Language Processing
Aprendizagem de Máquina
Machine Learning
Aprendizaje Automático
Investigação Policial
Investigación Policial
Police Investigation
Similaridade Textual
Textual Similarity
Similitud Textual
Ciência da Computação
topic Recuperação da Informação
Information Retrieval
Recuperación de Información
Processamento de Linguagem Natural
Procesamiento del Lenguaje Natural
Natural Language Processing
Aprendizagem de Máquina
Machine Learning
Aprendizaje Automático
Investigação Policial
Investigación Policial
Police Investigation
Similaridade Textual
Textual Similarity
Similitud Textual
Ciência da Computação
description A Polícia Federal (PF) atua, dentre suas diversas atribuições, na apuração de inquéritos através de delegados e agentes federais em seus respectivos núcleos de investigação. Uma das tarefas mais recorrentes realizada pelos investigadores ocorre no processo de instauração de inquéritos, onde o responsável deve verificar se já existe um procedimento de investigação criminal para o fato em questão. Entretanto, por se tratar de uma atividade subjetiva e que depende do indiv´ıduo que a realiza, existe a possibilidade da instauração de mais de um inquérito apurando o mesmo fato, dificultando o processo de investigação. Este estudo compara modelos clássicos e do estado da arte em Recuperação da Informação como distância de Cosseno, Similaridade de Jaccard, Doc2Vec e WMD, na busca por inquéritos relevantes a partir de informações estruturadas e não-estruturadas (documentos textuais), visando identificar duplicidade de inquéritos, casos similares que auxiliem em tomadas de decisão em investigações ou para treinamento de novos delegados e crimes que possam estar relacionados. Para a construção dos modelos foram utilizados dados de inquéritos não-sigilosos do ePol, plataforma web que gerencia atividades policiais e interliga as unidades da PF. Os modelos construídos retornam o top 4 inquéritos similares a um inquérito passado como entrada. Dado que o problema trata de dados não-supervisionados, a avaliação foi realizada por meio de especialistas no contexto, representados por delegados e escrivães da PF, onde estes responderam a formulários submetidos diariamente com inquéritos a serem comparados. Os resultados mostram que métodos clássicos como similaridade de jaccard e distância de cosseno atingem bons resultados para detecção de inquéritos semelhantes, com NDCGs iguais a 0.8812 e 0.8371 respectivamente. O modelo WMD ainda apresenta um NDCG próximo aos já citados (0.8037) e o doc2vec atinge o pior resultado (0.6743). O estudo sugere que o desempenho dos modelos baseados em redes neurais estão abaixo dos demais devido a base de treinamento não ser considerada grande o suficiente para um modelo de rede neural profunda, o que pode dificultar a tarefa de aprendizado para este tipo de abordagem. Para detecção de duplicidade e relação entre inquéritos os resultados não foram satisfatórios de acordo com a métrica utilizada. Entretanto, vale salientar que, i ao contrário da semelhança entre inquéritos, duplicidade e relação entre inquéritos não são eventos comuns de ocorrerem neste contexto. Os modelos sugeridos no estudo podem ser utilizados junto a plataforma ePol, auxiliando na identificação de duplicidade e assim otimizando o trabalho da PF ao reduzir o desperdício de recursos da corporação, além de sugerir inquéritos semelhantes para, por exemplo, auxiliar no treinamento de novos delegados sobre como e quais ações devem ser tomadas na condução de um inquérito policial.
publishDate 2020
dc.date.none.fl_str_mv 2020-02-03
2020-04-08T15:42:55Z
2020-04-08
2020-04-08T15:42:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717
MARQUES JUNIOR, A. R. Avaliação de métodos de similaridade textual no contexto de investigação policial. 2020. 63 f. Dissertação (Mestrado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2020.
url http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/12717
identifier_str_mv MARQUES JUNIOR, A. R. Avaliação de métodos de similaridade textual no contexto de investigação policial. 2020. 63 f. Dissertação (Mestrado em Sistemas e Computação), Programa de Pós-graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande - Paraíba - Brasil, 2020.
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
publisher.none.fl_str_mv Universidade Federal de Campina Grande
Brasil
Centro de Engenharia Elétrica e Informática - CEEI
PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO
UFCG
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFCG
instname:Universidade Federal de Campina Grande (UFCG)
instacron:UFCG
instname_str Universidade Federal de Campina Grande (UFCG)
instacron_str UFCG
institution UFCG
reponame_str Biblioteca Digital de Teses e Dissertações da UFCG
collection Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv bdtd@setor.ufcg.edu.br || bdtd@setor.ufcg.edu.br
_version_ 1809744442850017280