Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores

Lima, Alexandre Gomes de

Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores

Detalhes bibliográficos
Autor(a) principal:	Lima, Alexandre Gomes de
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFRN
Texto Completo:	https://repositorio.ufrn.br/handle/123456789/56540
Resumo:	Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.

Metadados do item

id	UFRN_d6c1f8bf66b1dcdf8d0683b9a8e45732
oai_identifier_str	oai:https://repositorio.ufrn.br:123456789/56540
network_acronym_str	UFRN
network_name_str	Repositório Institucional da UFRN
repository_id_str
spelling	Lima, Alexandre Gomes dehttps://orcid.org/0000-0001-7251-0008http://lattes.cnpq.br/4063478137671603http://lattes.cnpq.br/9520477461031645Silva, Ivanovitch Medeiros Dantas dahttps://orcid.org/0000-0002-0116-6489http://lattes.cnpq.br/3608440944832201Moreno, José GuillermoBezerra, Leonardo César TeonácioDkaki, TaoufiqAranha, Eduardo Henrique da Silva2023-12-20T20:16:46Z2023-12-20T20:16:46Z2023-06-29LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/56540Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.Legal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.Universidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOComputaçãoCodificação de sentençasBERTJulgamentoClassificação de sentençasSentence encodingJudgmentSentence classificationMelhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadoresImproving legal rhetorical role labeling through additional data and efficient exploitation of transformer modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALMelhorandorotulamentopapel_Lima_2023.pdfapplication/pdf1558798https://repositorio.ufrn.br/bitstream/123456789/56540/1/Melhorandorotulamentopapel_Lima_2023.pdf3ffc240cd8372e55e9ec8141cbcb90e4MD51123456789/565402023-12-20 17:17:45.5oai:https://repositorio.ufrn.br:123456789/56540Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-12-20T20:17:45Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
dc.title.alternative.pt_BR.fl_str_mv	Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models
title	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
spellingShingle	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores Lima, Alexandre Gomes de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Computação Codificação de sentenças BERT Julgamento Classificação de sentenças Sentence encoding Judgment Sentence classification
title_short	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_full	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_fullStr	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_full_unstemmed	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
title_sort	Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
author	Lima, Alexandre Gomes de
author_facet	Lima, Alexandre Gomes de
author_role	author
dc.contributor.authorID.pt_BR.fl_str_mv	https://orcid.org/0000-0001-7251-0008
dc.contributor.authorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/4063478137671603
dc.contributor.advisorLattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/9520477461031645
dc.contributor.referees1.none.fl_str_mv	Silva, Ivanovitch Medeiros Dantas da
dc.contributor.referees1ID.pt_BR.fl_str_mv	https://orcid.org/0000-0002-0116-6489
dc.contributor.referees1Lattes.pt_BR.fl_str_mv	http://lattes.cnpq.br/3608440944832201
dc.contributor.referees2.none.fl_str_mv	Moreno, José Guillermo
dc.contributor.referees3.none.fl_str_mv	Bezerra, Leonardo César Teonácio
dc.contributor.referees4.none.fl_str_mv	Dkaki, Taoufiq
dc.contributor.author.fl_str_mv	Lima, Alexandre Gomes de
dc.contributor.advisor1.fl_str_mv	Aranha, Eduardo Henrique da Silva
contributor_str_mv	Aranha, Eduardo Henrique da Silva
dc.subject.cnpq.fl_str_mv	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO
topic	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Computação Codificação de sentenças BERT Julgamento Classificação de sentenças Sentence encoding Judgment Sentence classification
dc.subject.por.fl_str_mv	Computação Codificação de sentenças BERT Julgamento Classificação de sentenças Sentence encoding Judgment Sentence classification
description	Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-12-20T20:16:46Z
dc.date.available.fl_str_mv	2023-12-20T20:16:46Z
dc.date.issued.fl_str_mv	2023-06-29
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.citation.fl_str_mv	LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
dc.identifier.uri.fl_str_mv	https://repositorio.ufrn.br/handle/123456789/56540
identifier_str_mv	LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.
url	https://repositorio.ufrn.br/handle/123456789/56540
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv	PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO
dc.publisher.initials.fl_str_mv	UFRN
dc.publisher.country.fl_str_mv	Brasil
publisher.none.fl_str_mv	Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN
instname_str	Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str	UFRN
institution	UFRN
reponame_str	Repositório Institucional da UFRN
collection	Repositório Institucional da UFRN
bitstream.url.fl_str_mv	https://repositorio.ufrn.br/bitstream/123456789/56540/1/Melhorandorotulamentopapel_Lima_2023.pdf
bitstream.checksum.fl_str_mv	3ffc240cd8372e55e9ec8141cbcb90e4
bitstream.checksumAlgorithm.fl_str_mv	MD5
repository.name.fl_str_mv	Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_	1802117653209284608

Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores

Registros relacionados