Identificação automática de casos repetitivos no MPDFT

Pedroso, Daniel de Souza Costa

Identificação automática de casos repetitivos no MPDFT

Detalhes bibliográficos
Autor(a) principal:	Pedroso, Daniel de Souza Costa
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UnB
Texto Completo:	http://repositorio.unb.br/handle/10482/35083
Resumo:	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.

Metadados do item

id	UNB_948a349d07a335879ada7a0dcb21e3d9
oai_identifier_str	oai:repositorio2.unb.br:10482/35083
network_acronym_str	UNB
network_name_str	Repositório Institucional da UnB
repository_id_str
spelling	Pedroso, Daniel de Souza CostaFaleiros, Thiago de PauloLadeira, Marcelo2019-07-17T19:13:14Z2019-07-17T19:13:14Z2019-07-172018-12-14PEDROSO, Daniel de Souza Costa. Identificação automática de casos repetitivos no MPDFT. 2018. xvi, 125 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2018.http://repositorio.unb.br/handle/10482/35083Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.O Ministério Público do Distrito Federal e Territórios (MPDFT) aprecia um volume de casos da ordem de 200 mil novos feitos anualmente. Entre os casos apreciados é notável a ocorrência de casos semelhantes ou repetitivos. O tratamento destes casos pode ser mais célere se os casos semelhantes puderem ser encontrados rapidamente para servirem como embasamento para o caso em tratamento. Até então, o problema é abordado de modo descentralizado entre as diversas equipes de trabalho do órgão. Este trabalho tem o objetivo de avaliar o uso de técnicas de recuperação de informações para viabilizar a identificação automatizada de casos semelhantes. Como prova de conceito, as técnicas de indexação sintática (TF-IDF e BM25) e semântica (Latent Semantic Indexing - LSI e Latent Dirichlet Allocation - LDA) foram avaliadas com o uso de bases de documentos de duas áreas do MPDFT: Procuradorias de Justiça Criminal e Procuradorias de Justiça Criminal Especializada. Além disso, avaliamos o enriquecimento dos modelos obtidos com o uso dos dados cadastrais acumulados acerca dos casos, e também com as citações às normas jurídicas observadas nos documentos. Os modelos foram avaliados com o uso de bases de referência produzidas a partir de amostras extraídas das bases de documentos das Procuradorias de Justiça Criminal e Criminal Especializada. A métrica utilizada para medir a performance dos modelos foi a Normalized Discounted Cumulated Gain - NDCG. Ao final dos experimentos, concluímos que, no âmbito das bases de documentos analisadas, não houve diferença significativa de performance entre as técnicas de indexação semântica e sintática. Além disso, não foi verificado ganho de performance significativo com o enriquecimento dos modelos. Considerando isto, elegemos a técnica BM25 como mais adequada por ter bom equilíbrio entre performance e simplicidade.The Public Ministry of the Federal District and Territories (MPDFT) appreciates a volume of 200,000 new cases annually. Among these cases, the occurrence of similar or repetitive cases is remarkable. The response for these cases may be improved if similar cases can be found quickly to serve as a basement or template for the case under treatment. Nowadays, this problem is addressed in a decentralized way among the various corporate teams, and it may be improved. This work aims to evaluate the use of information retrieval techniques to enable the automated identification of similar cases. As a proof of concept, syntactic indexing (TF-IDF and BM25) and semantic indexing (Latent Semantic Indexing - LSI and Latent Dirichlet Allocation - LDA) techniques were evaluated using document collections from two public prosecutor’s offices. In addition, we evaluated model enrichment with the use of recorded data about the cases, and also with the legal norm citations observed in documents. The models were evaluated using baseline document collections sampled from full document collection from two public prosecutor’s offices. The metric used to measure the performance of the models was the Normalized Discounted Cumulated Gain - NDCG. We concluded that, considering the document bases used, there was no significant performance difference between semantic and syntactic indexing techniques. In addition, we observe no significant performance gain with model enrichment. So, we have chosen the BM25 technique as more adequate because it has a good balance between performance and simplicity.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessIdentificação automática de casos repetitivos no MPDFTinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMinistério Público do Distrito Federal e Territórios (MPDFT)Recuperação da informaçãoMineração de dados (Computação)Documentos jurídicosporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNBORIGINAL2018_DanieldeSouzaCostaPedroso.pdf2018_DanieldeSouzaCostaPedroso.pdfapplication/pdf11749447http://repositorio2.unb.br/jspui/bitstream/10482/35083/1/2018_DanieldeSouzaCostaPedroso.pdf22123074697b85418024bf4d25862dccMD51open accessLICENSElicense.txtlicense.txttext/plain673http://repositorio2.unb.br/jspui/bitstream/10482/35083/2/license.txt04587889c0a9cc4613b199de6b76dc6cMD52open access10482/350832023-07-14 15:59:44.62open accessoai:repositorio2.unb.br:10482/35083QSBjb25jZXNzw6NvIGRhIGxpY2Vuw6dhIGRlc3RhIGNvbGXDp8OjbyByZWZlcmUtc2UgYW8gdGVybW8gZGUgYXV0b3JpemHDp8OjbyBpbXByZXNzbyBhc3NpbmFkbyANCnBlbG8gYXV0b3IgY29tIGFzIHNlZ3VpbnRlcyBjb25kacOnw7VlczoNCg0KTmEgcXVhbGlkYWRlIGRlIHRpdHVsYXIgZG9zIGRpcmVpdG9zIGRlIGF1dG9yIGRhIHB1YmxpY2HDp8OjbywgYXV0b3Jpem8gYSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhDQogZSBvIElCSUNUIGEgZGlzcG9uaWJpbGl6YXIgcG9yIG1laW8gZG9zIHNpdGVzIHd3dy5iY2UudW5iLmJyLCB3d3cuaWJpY3QuYnIsDQogaHR0cDovL2hlcmN1bGVzLnZ0bHMuY29tL2NnaS1iaW4vbmRsdGQvY2hhbWVsZW9uP2xuZz1wdCZza2luPW5kbHRkIHNlbSByZXNzYXJjaW1lbnRvIGRvcyANCmRpcmVpdG9zIGF1dG9yYWlzLCBkZSBhY29yZG8gY29tIGEgTGVpIG7CuiA5NjEwLzk4LCBvIHRleHRvIGludGVncmFsIGRhIG9icmEgZGlzcG9uaWJpbGl6YWRhLCAgY29uZm9ybWUgcGVybWlzc8O1ZXMgYXNzaW5hbGFkYXMsIHBhcmEgZmlucyBkZSBsZWl0dXJhLCBpbXByZXNzw6NvIGUvb3UgZG93bmxvYWQsIGEgdMOtdHVsbyBkZSBkaXZ1bGdhw6fDo28gZGEgcHJvZHXDp8OjbyBjaWVudMOtZmljYSBicmFzaWxlaXJhLCBhIHBhcnRpciBkZXN0YSBkYXRhLg==Biblioteca Digital de Teses e DissertaçõesPUBhttps://repositorio.unb.br/oai/requestopendoar:2023-07-14T18:59:44Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.pt_BR.fl_str_mv	Identificação automática de casos repetitivos no MPDFT
title	Identificação automática de casos repetitivos no MPDFT
spellingShingle	Identificação automática de casos repetitivos no MPDFT Pedroso, Daniel de Souza Costa Ministério Público do Distrito Federal e Territórios (MPDFT) Recuperação da informação Mineração de dados (Computação) Documentos jurídicos
title_short	Identificação automática de casos repetitivos no MPDFT
title_full	Identificação automática de casos repetitivos no MPDFT
title_fullStr	Identificação automática de casos repetitivos no MPDFT
title_full_unstemmed	Identificação automática de casos repetitivos no MPDFT
title_sort	Identificação automática de casos repetitivos no MPDFT
author	Pedroso, Daniel de Souza Costa
author_facet	Pedroso, Daniel de Souza Costa
author_role	author
dc.contributor.advisorco.none.fl_str_mv	Faleiros, Thiago de Paulo
dc.contributor.author.fl_str_mv	Pedroso, Daniel de Souza Costa
dc.contributor.advisor1.fl_str_mv	Ladeira, Marcelo
contributor_str_mv	Ladeira, Marcelo
dc.subject.keyword.pt_BR.fl_str_mv	Ministério Público do Distrito Federal e Territórios (MPDFT) Recuperação da informação Mineração de dados (Computação) Documentos jurídicos
topic	Ministério Público do Distrito Federal e Territórios (MPDFT) Recuperação da informação Mineração de dados (Computação) Documentos jurídicos
description	Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2018.
publishDate	2018
dc.date.submitted.none.fl_str_mv	2018-12-14
dc.date.accessioned.fl_str_mv	2019-07-17T19:13:14Z
dc.date.available.fl_str_mv	2019-07-17T19:13:14Z
dc.date.issued.fl_str_mv	2019-07-17
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	PEDROSO, Daniel de Souza Costa. Identificação automática de casos repetitivos no MPDFT. 2018. xvi, 125 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2018.
dc.identifier.uri.fl_str_mv	http://repositorio.unb.br/handle/10482/35083
identifier_str_mv	PEDROSO, Daniel de Souza Costa. Identificação automática de casos repetitivos no MPDFT. 2018. xvi, 125 f., il. Dissertação (Mestrado Profissional em Computação Aplicada)—Universidade de Brasília, Brasília, 2018.
url	http://repositorio.unb.br/handle/10482/35083
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB
instname_str	Universidade de Brasília (UnB)
instacron_str	UNB
institution	UNB
reponame_str	Repositório Institucional da UnB
collection	Repositório Institucional da UnB
bitstream.url.fl_str_mv	http://repositorio2.unb.br/jspui/bitstream/10482/35083/1/2018_DanieldeSouzaCostaPedroso.pdf http://repositorio2.unb.br/jspui/bitstream/10482/35083/2/license.txt
bitstream.checksum.fl_str_mv	22123074697b85418024bf4d25862dcc 04587889c0a9cc4613b199de6b76dc6c
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv
_version_	1797405459223674880

Identificação automática de casos repetitivos no MPDFT

Registros relacionados