Representação de sentenças jurídicas no contexto de agrupamento automático
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFABC |
Texto Completo: | http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124239 |
Resumo: | Orientador: Prof. Dr. Thiago Ferreira Covões |
id |
UFBC_3847a779bb4011c1f9c80af04f34b98a |
---|---|
oai_identifier_str |
oai:BDTD:124239 |
network_acronym_str |
UFBC |
network_name_str |
Repositório Institucional da UFABC |
repository_id_str |
|
spelling |
Representação de sentenças jurídicas no contexto de agrupamento automáticoAGRUPAMENTO TEXTUALREPRESENTAÇÃO TEXTUALJURIMETRIATEXT CLUSTERINGTEXT REPRESENTATIONJURIMETRICSPROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABCOrientador: Prof. Dr. Thiago Ferreira CovõesDissertação (mestrado) - Universidade Federal do ABC, Programa de Pós-Graduação em Ciência da Computação, Santo André, 2022.A digitalização de documentos no setor judiciário brasileiro facilita o acesso à informação de interesse público. No entanto, para que seja possível levantar métricas de interesse deste crescente repositório informacional, é fundamental que se organizem os documentos de maneira a facilitar a recuperação de informações relevantes, e técnicas de aprendizado de máquina podem diminuir o esforço humano na organização de um grande corpus. Este trabalho analisou diferentes técnicas de aprendizado de máquina frente à quão bem associam termos jurídicos segundo especialistas humanos. Para isso, desenvolvemos um web scrapper, software que consolida conteúdos online, para criar um corpus de sentenças jurídicas de primeira instância. Este corpus é composto de 40.009 documentos, o que totaliza 24.139.185 tokens. As técnicas FastText, GloVe e Word2Vec foram avaliadas frente à sua capacidade de associar termos de acordo com o Tesauro Jurídico do Supremo Tribunal Federal (TSTF). Elas foram comparadas quando treinadas tanto no domínio geral da língua portuguesa, quanto no domínio jurídico. O modelo FastText de domínio geral foi o que apresentou a maior similaridade entre os termos associados segundo o TSTF. Apesar disso, o FastText de domínio jurídico apresentou desempenhos comparáveis ou superiores aos modelos GloVe e Word2Vec de domínio geral. Avaliamos também as técnicas FastText, GloVe, Word2Vec, Doc2Vec e hashing trick na tarefa de agrupamento de sentenças jurídicas de primeira instância frente ao assunto a que pertencem. Comparamos os modelos treinados tanto no domínio geral quanto no domínio jurídico usando a V-Measure média e seu desvio-padrão. Concluímos que o FastText de domínio jurídico treinado em 300 dimensões apresentou resultados equivalentes ou superiores aos modelos de domínio geral. Observamos também que a escolha da técnica possui influência maior do que a escolha de hiper-parâmetros na determinação do desempenho. Outro fator analisado neste trabalho foi a semelhança dos documentos de diferentes assuntos. Usamos nesta análise o melhor modelo produzido no domínio jurídico: o FastText de 300 dimensões. Concluímos que apesar da incerteza da própria representação criada pelo modelo, parecem haver documentos de diferentes assuntos que são muito similares entre si. Avaliamos ainda o aumento de desempenho conferido pelo volume de documentos jurídicos no processo de treinamento, e verificamos que a partir de aproximadamente 800.000 tokens, que equivalem a aproximadamente de 1500 sentenças, os aumentos de desempenho marginal do FastText de 300 dimensões é decrescente. A adição de mais documentos do mesmo corpus confere ganhos de desempenho incrementalmente muito pequenos, sendo que o custo computacional parece crescer mais rápido que a V-Measure.The digitization of documents in the Brazilian judicial sector facilitates access to information of public interest. However, in order to be able to raise metrics of interest to this growing information repository, it is essential to organize documents in a way that makes the retrieval of relevant information easier, and machine learning techniques can reduce human effort in organizing a large corpus. This work analyzed different machine learning techniques in face of how well they associate legal terms according to human specialists. To do this, we developed a web scrapper to create a corpus of first instance legal sentences. This corpus is composed of 40,009 documents, totaling 24,139,185 tokens. FastText, GloVe and Word2Vec techniques were evaluated for their ability to associate terms in accordance with the Legal Thesaurus of the Federal Supreme Court (TSTF). They were compared when trained both in the general domain of the Portuguese language and in the legal domain of the same language. The FastText model trained on the general domain corpus showed the greatest similarity between the associated terms according to the TSTF. Despite this, the legal domain FastText performed comparable or superior to the general domain GloVe and Word2Vec models. We also evaluated the FastText, GloVe, Word2Vec, Doc2Vec and hashing trick techniques in the task of grouping first instance legal sentences against the subject to which they belong. We compare the trained models in both the general and legal domains using the V-Measure. We conclude that FastText trained on legal domain corpus, with 300 dimensions, presented equivalent or superior results to models trained on the general domain corpus. We also observed that the choice of technique has a greater influence than the choice of hyper-parameters in determining performance. Another factor analyzed in this work was the similarity of documents on different subjects. In this analysis, we used the best model produced in the legal domain: the 300-dimensional FastText. We conclude that despite the uncertainty of the representation created by the model, there seem to be documents on different subjects that are very similar to each other. We also evaluated the performance increase given by the volume of legal documents in the training process, and found that from approximately 800,000 tokens, which is equivalent to approximately 1500 sentences, the marginal performance increases of the 300-dimensional FastText decreases as we add more documentos from the legal domain on the training set. Adding more documents of this domain seems to increase computational cost more than it increases the model performance.Covões, Thiago FerreiraSilva, Nádia Félix Felipe daMena-Chalco, Jesús PascualGonçalves, Cristiano Oliveira2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf125 f. : il.http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124239http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124239&midiaext=80773Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124239porreponame:Repositório Institucional da UFABCinstname:Universidade Federal do ABC (UFABC)instacron:UFABCinfo:eu-repo/semantics/openAccess2023-04-20T17:54:12Zoai:BDTD:124239Repositório InstitucionalPUBhttp://www.biblioteca.ufabc.edu.br/oai/oai.phpopendoar:2023-04-20T17:54:12Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC)false |
dc.title.none.fl_str_mv |
Representação de sentenças jurídicas no contexto de agrupamento automático |
title |
Representação de sentenças jurídicas no contexto de agrupamento automático |
spellingShingle |
Representação de sentenças jurídicas no contexto de agrupamento automático Gonçalves, Cristiano Oliveira AGRUPAMENTO TEXTUAL REPRESENTAÇÃO TEXTUAL JURIMETRIA TEXT CLUSTERING TEXT REPRESENTATION JURIMETRICS PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC |
title_short |
Representação de sentenças jurídicas no contexto de agrupamento automático |
title_full |
Representação de sentenças jurídicas no contexto de agrupamento automático |
title_fullStr |
Representação de sentenças jurídicas no contexto de agrupamento automático |
title_full_unstemmed |
Representação de sentenças jurídicas no contexto de agrupamento automático |
title_sort |
Representação de sentenças jurídicas no contexto de agrupamento automático |
author |
Gonçalves, Cristiano Oliveira |
author_facet |
Gonçalves, Cristiano Oliveira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Covões, Thiago Ferreira Silva, Nádia Félix Felipe da Mena-Chalco, Jesús Pascual |
dc.contributor.author.fl_str_mv |
Gonçalves, Cristiano Oliveira |
dc.subject.por.fl_str_mv |
AGRUPAMENTO TEXTUAL REPRESENTAÇÃO TEXTUAL JURIMETRIA TEXT CLUSTERING TEXT REPRESENTATION JURIMETRICS PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC |
topic |
AGRUPAMENTO TEXTUAL REPRESENTAÇÃO TEXTUAL JURIMETRIA TEXT CLUSTERING TEXT REPRESENTATION JURIMETRICS PROGRAMA DE PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO - UFABC |
description |
Orientador: Prof. Dr. Thiago Ferreira Covões |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124239 |
url |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124239 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
http://biblioteca.ufabc.edu.br/index.php?codigo_sophia=124239&midiaext=80773 Cover: http://biblioteca.ufabc.edu.br/php/capa.php?obra=124239 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf 125 f. : il. |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFABC instname:Universidade Federal do ABC (UFABC) instacron:UFABC |
instname_str |
Universidade Federal do ABC (UFABC) |
instacron_str |
UFABC |
institution |
UFABC |
reponame_str |
Repositório Institucional da UFABC |
collection |
Repositório Institucional da UFABC |
repository.name.fl_str_mv |
Repositório Institucional da UFABC - Universidade Federal do ABC (UFABC) |
repository.mail.fl_str_mv |
|
_version_ |
1801502110346379264 |