Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores

Detalhes bibliográficos
Autor(a) principal: Lima, Alexandre Gomes de
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/56540
Resumo: Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.
id UFRN_d6c1f8bf66b1dcdf8d0683b9a8e45732
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/56540
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Lima, Alexandre Gomes dehttps://orcid.org/0000-0001-7251-0008http://lattes.cnpq.br/4063478137671603http://lattes.cnpq.br/9520477461031645Silva, Ivanovitch Medeiros Dantas dahttps://orcid.org/0000-0002-0116-6489http://lattes.cnpq.br/3608440944832201Moreno, José GuillermoBezerra, Leonardo César TeonácioDkaki, TaoufiqAranha, Eduardo Henrique da Silva2023-12-20T20:16:46Z2023-12-20T20:16:46Z2023-06-29LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/56540Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.Legal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.Universidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOComputaçãoCodificação de sentençasBERTJulgamentoClassificação de sentençasSentence encodingJudgmentSentence classificationMelhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadoresImproving legal rhetorical role labeling through additional data and efficient exploitation of transformer modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALMelhorandorotulamentopapel_Lima_2023.pdfapplication/pdf1558798https://repositorio.ufrn.br/bitstream/123456789/56540/1/Melhorandorotulamentopapel_Lima_2023.pdf3ffc240cd8372e55e9ec8141cbcb90e4MD51123456789/565402023-12-20 17:17:45.5oai:https://repositorio.ufrn.br:123456789/56540Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-12-20T20:17:45Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
dc.title.alternative.pt_BR.fl_str_mv Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models
title Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
spellingShingle Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
Lima, Alexandre Gomes de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Computação
Codificação de sentenças
BERT
Julgamento
Classificação de sentenças
Sentence encoding
Judgment
Sentence classification
title_short Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_full Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_fullStr Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_full_unstemmed Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_sort Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
author Lima, Alexandre Gomes de
author_facet Lima, Alexandre Gomes de
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv https://orcid.org/0000-0001-7251-0008
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4063478137671603
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/9520477461031645
dc.contributor.referees1.none.fl_str_mv Silva, Ivanovitch Medeiros Dantas da
dc.contributor.referees1ID.pt_BR.fl_str_mv https://orcid.org/0000-0002-0116-6489
dc.contributor.referees1Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3608440944832201
dc.contributor.referees2.none.fl_str_mv Moreno, José Guillermo
dc.contributor.referees3.none.fl_str_mv Bezerra, Leonardo César Teonácio
dc.contributor.referees4.none.fl_str_mv Dkaki, Taoufiq
dc.contributor.author.fl_str_mv Lima, Alexandre Gomes de
dc.contributor.advisor1.fl_str_mv Aranha, Eduardo Henrique da Silva
contributor_str_mv Aranha, Eduardo Henrique da Silva
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
Computação
Codificação de sentenças
BERT
Julgamento
Classificação de sentenças
Sentence encoding
Judgment
Sentence classification
dc.subject.por.fl_str_mv Computação
Codificação de sentenças
BERT
Julgamento
Classificação de sentenças
Sentence encoding
Judgment
Sentence classification
description Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-12-20T20:16:46Z
dc.date.available.fl_str_mv 2023-12-20T20:16:46Z
dc.date.issued.fl_str_mv 2023-06-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/56540
identifier_str_mv LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
url https://repositorio.ufrn.br/handle/123456789/56540
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/56540/1/Melhorandorotulamentopapel_Lima_2023.pdf
bitstream.checksum.fl_str_mv 3ffc240cd8372e55e9ec8141cbcb90e4
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117653209284608