Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU

Detalhes bibliográficos
Autor(a) principal: Costa, Wagner Miranda
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio2.unb.br/jspui/handle/10482/47825
Resumo: Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
id UNB_876f69592c47099f7cd1058a78bc59c3
oai_identifier_str oai:repositorio.unb.br:10482/47825
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCUProcessamento de linguagem natural (Computação)Recuperação da informaçãoRepresentação vetorial de documentosJurisprudênciaWord EmbeddingsTribunal de Contas da União (TCU)Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.Jurisprudência se refere ao conjunto de decisões reiteradas sobre determinado assunto, constituindo uma espécie de precedente judicial. No âmbito do Tribunal de Contas da União (TCU), órgão responsável por exercer o controle externo da Administração Pública Federal, a jurisprudência representa as interpretações consolidadas das normas aplicáveis à fiscalização financeira e operacional das contas públicas dos órgãos e entidades da União. Uma vez que a elaboração da jurisprudência é definida a partir de um agrupamento de acórdãos similares, é relevante desenvolver ferramentas automatizadas que auxiliem os especialistas responsáveis por esta atividade. Porém, essa é uma tarefa desafiadora para a área da computação, devido às especificidades do vocabulário presente nos textos dos acórdãos e ao volume massivo de dados a serem processados. Sendo assim, é necessário desenvolver abordagens escaláveis, eficazes e eficientes, e que possuam baixo custo computacional. Este trabalho apresenta o estudo e implementação de algumas abordagens para a representação desses documentos textuais, tanto em nível de palavra quanto em nível de conceito. Como contribuição, foi proposta uma nova abordagem denominada BoC-Th (Bag of Concepts with Thesaurus), que gera histogramas ponderados de conceitos definidos a partir da distância das palavras do documento ao seu respectivo termo similar dentro de um tesauro. Esta abordagem permite enfatizar palavras com maior significado no contexto, gerando, assim, vetores mais discriminativos. Realizaram-se avaliações experimentais comparando a abordagem proposta com as abordagens tradicionais para representação de documentos. O método proposto obteve resultados superiores entre as técnicas avaliadas para recuperação de documentos jurisprudenciais. O BoC-Th aumentou a precisão média em comparação às abordagens tradicionais, incluindo a versão original BoC (Bag of Concepts), ao mesmo tempo que foi mais rápido que as representações tradicionais BoW, BM25 e TF-IDF. A abordagem proposta contribuiu para enriquecer uma área com características peculiares, fornecendo um recurso para recuperação de informações textuais de forma mais precisa e rápida do que outras técnicas baseadas em processamento de linguagem natural.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES).Jurisprudence refers to the set of repeated decisions on a given subject, constituting a type of judicial precedent. Within the scope of the Federal Audit Court (TCU), the body responsible for exercising external control of the Federal Public Administration, jurisprudence represents the consolidated interpretations of the rules applicable to the financial and operational supervision of the public accounts of the Union’s bodies and entities. Since the elaboration of jurisprudence is defined based on a grouping of similar rulings, it is important to develop automated tools that assist the specialists responsible for this activity. However, this is a challenging task for the area of computing, due to the specificities of the vocabulary present in the texts of the rulings and the massive volume of data to be processed. Therefore, it is necessary to develop scalable, effective and efficient approaches that have low computational cost. This work presents the study and implementation of some approaches for representing these textual documents, both at the word level and at the concept level. As a contribution, a new approach called BoC-Th (Bag of Concepts with Thesaurus) was proposed, which generates weighted histograms of concepts defined based on the distance of the words in the document to their respective similar term within a thesaurus. This approach allows us to emphasize words with greater meaning in the context, thus generating more discriminative vectors. Experimental evaluations were carried out comparing the proposed approach with traditional approaches for document representation. The proposed method obtained superior results among the techniques evaluated for recovering jurisprudential documents. BoC-Th increased average accuracy compared to traditional approaches, including the original BoC (Bag of Concepts), while also being faster than traditional BoW, BM25, and TF-IDF representations. The proposed approach contributed to enriching an area with peculiar characteristics, providing a resource for retrieving textual information more accurately and quickly than other techniques based on natural language processing.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em Computação Aplicada, Mestrado ProfissionalPedrosa, Glauco VitorCosta, Wagner Miranda2024-02-21T21:36:21Z2024-02-21T21:36:21Z2024-02-212023-12-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfCOSTA, Wagner Miranda. Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU. 2023. xiv, 55 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.http://repositorio2.unb.br/jspui/handle/10482/47825porA concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.unb.br, www.ibict.br, www.ndltd.org sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra supracitada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-02-21T21:36:21Zoai:repositorio.unb.br:10482/47825Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-02-21T21:36:21Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
title Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
spellingShingle Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
Costa, Wagner Miranda
Processamento de linguagem natural (Computação)
Recuperação da informação
Representação vetorial de documentos
Jurisprudência
Word EmbeddingsTribunal de Contas da União (TCU)
title_short Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
title_full Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
title_fullStr Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
title_full_unstemmed Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
title_sort Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU
author Costa, Wagner Miranda
author_facet Costa, Wagner Miranda
author_role author
dc.contributor.none.fl_str_mv Pedrosa, Glauco Vitor
dc.contributor.author.fl_str_mv Costa, Wagner Miranda
dc.subject.por.fl_str_mv Processamento de linguagem natural (Computação)
Recuperação da informação
Representação vetorial de documentos
Jurisprudência
Word EmbeddingsTribunal de Contas da União (TCU)
topic Processamento de linguagem natural (Computação)
Recuperação da informação
Representação vetorial de documentos
Jurisprudência
Word EmbeddingsTribunal de Contas da União (TCU)
description Dissertação (mestrado) — Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2023.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-21
2024-02-21T21:36:21Z
2024-02-21T21:36:21Z
2024-02-21
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv COSTA, Wagner Miranda. Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU. 2023. xiv, 55 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.
http://repositorio2.unb.br/jspui/handle/10482/47825
identifier_str_mv COSTA, Wagner Miranda. Similaridade semântica entre acórdãos para apoio na formulação de jurisprudência do TCU. 2023. xiv, 55 f., il. Dissertação (Mestrado Profissional em Computação Aplicada) — Universidade de Brasília, Brasília, 2023.
url http://repositorio2.unb.br/jspui/handle/10482/47825
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1814508267098865664