Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/56540 |
Resumo: | Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL. |
id |
UFRN_d6c1f8bf66b1dcdf8d0683b9a8e45732 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/56540 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Lima, Alexandre Gomes dehttps://orcid.org/0000-0001-7251-0008http://lattes.cnpq.br/4063478137671603http://lattes.cnpq.br/9520477461031645Silva, Ivanovitch Medeiros Dantas dahttps://orcid.org/0000-0002-0116-6489http://lattes.cnpq.br/3608440944832201Moreno, José GuillermoBezerra, Leonardo César TeonácioDkaki, TaoufiqAranha, Eduardo Henrique da Silva2023-12-20T20:16:46Z2023-12-20T20:16:46Z2023-06-29LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023.https://repositorio.ufrn.br/handle/123456789/56540Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL.Legal AI, the application of Artificial Intelligence (AI) in the legal domain, is a research field that comprises several dimensions and tasks of interest. As in other targeted application domains, one of the desired benefits is task automation, which increases the productivity of legal professionals and makes law more accessible to the general public. Text is an important data source in the legal domain, therefore Legal AI has a great interest in the Natural Language Processing (NLP) advances. This thesis concerns the automation of the Legal Rhetorical Role Labeling (RRL), a task that assigns semantic functions to sentences in legal documents. Legal RRL is a relevant task because it finds information that is useful both by itself and for downstream tasks such as legal summarization and case law retrieval. There are several factors that make legal RRL a non-trivial task, even for humans: the heterogeneity of document sources, the lack of standards, the domain expertise required, and the subjectivity inherent in the task. These complicating factors and the large volume of legal documents justify the automation of the task. Such automation can be implemented as a sentence classification task, i.e. sentences are fed to a machine learning model that assigns a label or class to each sentence. Developing such models on the basis of Pre-trained Transformer Language Models (PTLMs) is an obvious choice, since PTLMs are the current state of the art for many NLP tasks, including text classification. Nevertheless, in this thesis we highlight two main problems with works that exploit PTLMs to tackle the Legal RRL task. The first one is the lack of works that address how to better deal with the idiosyncrasies of legal texts and the typically small size and imbalance of Legal RRL datasets. Almost all related works simply employ the regular fine-tuning strategy to train models. The second problem is the poor utilization of the intrinsic ability of PTLMs to exploit context, which hampers the performance of the models. This thesis aims to advance the current state of the art on the Legal RRL task by investigating three approaches devised to overcome such problems. The first approach relies on a data augmentation technique to generate synthetic sentence embeddings, thus increasing the amount of training data. The second approach exploits positional data by combining sentence embeddings and positional embeddings to enrich the training data. The third approach, called Dynamically-filled Contextualized Sentence Chunks (DFCSC), specifies a way to produce efficient sentence embeddings by better exploiting the encoding capabilities of PTLMs. The studies in this thesis show that the first two approaches have a limited impact on the performance of the models. Conversely, models based on the DFCSC approach achieve remarkable results and are the best performers in the respective studies. As a conclusion, this thesis propose the use of the DFCSC approach as a valuable contribution to the state of the art of the Legal RRL task.Universidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃOUFRNBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAOComputaçãoCodificação de sentençasBERTJulgamentoClassificação de sentençasSentence encodingJudgmentSentence classificationMelhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadoresImproving legal rhetorical role labeling through additional data and efficient exploitation of transformer modelsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALMelhorandorotulamentopapel_Lima_2023.pdfapplication/pdf1558798https://repositorio.ufrn.br/bitstream/123456789/56540/1/Melhorandorotulamentopapel_Lima_2023.pdf3ffc240cd8372e55e9ec8141cbcb90e4MD51123456789/565402023-12-20 17:17:45.5oai:https://repositorio.ufrn.br:123456789/56540Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-12-20T20:17:45Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
dc.title.alternative.pt_BR.fl_str_mv |
Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models |
title |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
spellingShingle |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores Lima, Alexandre Gomes de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Computação Codificação de sentenças BERT Julgamento Classificação de sentenças Sentence encoding Judgment Sentence classification |
title_short |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
title_full |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
title_fullStr |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
title_full_unstemmed |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
title_sort |
Melhorando o rotulamento de papel retórico legal através de dados adicionais e uso eficiente de modelos transformadores |
author |
Lima, Alexandre Gomes de |
author_facet |
Lima, Alexandre Gomes de |
author_role |
author |
dc.contributor.authorID.pt_BR.fl_str_mv |
https://orcid.org/0000-0001-7251-0008 |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4063478137671603 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/9520477461031645 |
dc.contributor.referees1.none.fl_str_mv |
Silva, Ivanovitch Medeiros Dantas da |
dc.contributor.referees1ID.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-0116-6489 |
dc.contributor.referees1Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3608440944832201 |
dc.contributor.referees2.none.fl_str_mv |
Moreno, José Guillermo |
dc.contributor.referees3.none.fl_str_mv |
Bezerra, Leonardo César Teonácio |
dc.contributor.referees4.none.fl_str_mv |
Dkaki, Taoufiq |
dc.contributor.author.fl_str_mv |
Lima, Alexandre Gomes de |
dc.contributor.advisor1.fl_str_mv |
Aranha, Eduardo Henrique da Silva |
contributor_str_mv |
Aranha, Eduardo Henrique da Silva |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::SISTEMAS DE COMPUTACAO Computação Codificação de sentenças BERT Julgamento Classificação de sentenças Sentence encoding Judgment Sentence classification |
dc.subject.por.fl_str_mv |
Computação Codificação de sentenças BERT Julgamento Classificação de sentenças Sentence encoding Judgment Sentence classification |
description |
Legal AI, a aplicação da Inteligência Artificial (IA) no domínio legal, é um campo de pesquisa que compreende várias dimensões e tarefas de interesse. Tal como em outros domínios de aplicação, um dos benefícios almejados é a automatização de tarefas, a qual aumenta a produtividade dos profissionais da área e torna o Direito mais acessível ao público em geral. Texto é uma fonte de dados importante no domínio legal, consequentemente Legal AI possui um grande interesse nos avanços relacionados ao Processamento de Linguagem Natural (PLN). Esta tese diz respeito à automatização do Rotulamento de Papel Retórico no Domínio Legal (RPRDL), uma tarefa que atribui funções semânticas a sentenças textuais em documentos jurídicos. RPRDL é uma tarefa relevante porque ela encontra informação que é útil tanto por si só, bem como para tarefas posteriores tais como sumarização jurídica e recuperação de jurisprudência. Há vários fatores que tornam a RPRDL uma tarefa não trivial, mesmo para os seres humanos: a heterogeneidade das fontes de documentos, a falta de padrões, necessidade de conhecimento específico do domínio e o nível de subjetividade inerente à tarefa. Estes fatores complicadores e o grande volume de documentos jurídicos justificam a automatização da tarefa. Essa automatização pode ser implementada como uma tarefa de classificação de sentenças, ou seja, as sentenças textuais são utilizadas como entrada de um modelo que atribui um rótulo, ou classe, para cada sentença informada. A utilização de Modelos Transformadores de Linguagem Pré-treinados (MTLP) no desenvolvimento de classificadores é uma escolha ´obvia visto que MTLPs representam o estado da arte de muitas tarefas de PLN, incluindo a classificação de texto. No entanto, esta tese evidencia dois problemas relevantes encontrados em trabalhos sobre RPRDL suportados por MTLP. O primeiro problema é a falta de trabalhos sobre melhores maneiras de lidar com as idiossincrasias de textos jurídicos e com conjuntos de dados relacionados à tarefa de RPRDL os quais são normalmente pequenos e desbalanceados. Quase todos os trabalhos relacionados empregam apenas a estratégia padrão de ajuste fino para treinar seus modelos. O segundo problema ´e o aproveitamento parcial da capacidade de exploração de contexto que é intrínseca aos MTLPs, um fato que prejudica o desempenho dos modelos. Diante disso, esta tese tem como objetivo avançar o estado da arte na tarefa de RPRDL por meio da investigação de três abordagens concebidas para superar esses problemas. A primeira abordagem tem base em um método de aumento de dados para gerar vetores representativos de sentença sintéticos, aumentando assim a quantidade de dados de treinamento. A segunda abordagem combina representação de conteúdo e representação posicional para enriquecer os vetores de treinamento. A terceira abordagem, denominada Preenchimento Dinâmico de Blocos de Sentença Contextualizados (PDBSC), define uma forma de produzir vetores representativos de sentença de alta qualidade através de uma utilização eficiente das capacidades de codificação dos MTLPs. Os estudos realizados nesta tese mostram que as duas primeiras abordagens têm um impacto limitado no desempenho dos modelos. Por outro lado, os modelos baseados na abordagem PDBSC obtêm resultados notáveis e são os que apresentam melhor desempenho nos respectivos estudos. Como conclusão, esta tese propõe o uso da abordagem PDBSC como uma contribuição valiosa ao estado da arte em RPRDL. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-12-20T20:16:46Z |
dc.date.available.fl_str_mv |
2023-12-20T20:16:46Z |
dc.date.issued.fl_str_mv |
2023-06-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/56540 |
identifier_str_mv |
LIMA, Alexandre Gomes de. Improving legal rhetorical role labeling through additional data and efficient exploitation of transformer models. Orientador: Dr. Eduardo Henrique da Silva Aranha. 2023. 135f. Tese (Doutorado em Ciência da Computação) - Centro de Ciências Exatas e da Terra, Universidade Federal do Rio Grande do Norte, Natal, 2023. |
url |
https://repositorio.ufrn.br/handle/123456789/56540 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM SISTEMAS E COMPUTAÇÃO |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/56540/1/Melhorandorotulamentopapel_Lima_2023.pdf |
bitstream.checksum.fl_str_mv |
3ffc240cd8372e55e9ec8141cbcb90e4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117653209284608 |