Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

CUNHA, Mateus Queiroz.

Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

Detalhes bibliográficos
Autor(a) principal:	CUNHA, Mateus Queiroz.
Data de Publicação:	2024
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFCG
Texto Completo:	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
Resumo:	A Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem Natural, contendo informações relevantes em diversos domínios que impactam a sociedade. O presente estudo concentra-se na identificação de publicações tributárias no Diário Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros. A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa abordagem na classificação de dados tributários, mesmo diante dos desafios identificados. A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto de dados de treinamento implicou em melhores resultados para o cenário em questão. Além disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral. Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em cenários com limitações de recurso de hardware.

Metadados do item

id	UFCG_c636f6c13a6e4621d88be01d65151785
oai_identifier_str	oai:localhost:riufcg/36228
network_acronym_str	UFCG
network_name_str	Biblioteca Digital de Teses e Dissertações da UFCG
repository_id_str	4851
spelling	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.Using large language models for act classification of the official gazette of the union in the tax domain.Uso de grandes modelos de lenguaje para la clasificación de actos del boletín oficial de la unión en el ámbito fiscal.Processamento de linguagem naturalClassificação de textoModelos de linguagem grandesDados desbalanceadosDomínio jurídicoDiários oficiaisNatural language processingText classificationModels large languageImbalanced dataLegal domainOfficial diariesCiência da ComputaçãoA Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem Natural, contendo informações relevantes em diversos domínios que impactam a sociedade. O presente estudo concentra-se na identificação de publicações tributárias no Diário Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros. A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa abordagem na classificação de dados tributários, mesmo diante dos desafios identificados. A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto de dados de treinamento implicou em melhores resultados para o cenário em questão. Além disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral. Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em cenários com limitações de recurso de hardware.The Legal domain stands as a promising application field for Natural Language Processing. Official Journals contain exceptionally relevant information across various legal subdomains, with significant implications for both public and private sectors. This study used a text classification approach to identify tax-related publications within the Brazilian Official Journal. While analyzing the tax-related context, we addressed the challenge of highly imbalanced data. Our investigation culminated in the creation of an automatically annotated dataset. Using transformer-based Large Language Models (LLMs) in our experiments underscored their suitability for tax-related data classification within the Brazilian Official Journal. Also, our study generated evidence that inserting imbalance into the training set can lead to better results in highly imbalanced contexts. Findings from our study indicate that encoder LLMs remain an efficient choice, offering speed and compatibility with consumer-grade hardware. These models maintain effectiveness even as the prevailing trend leans towards large decoder LLMs.Las Ciencias Jurídicas destacan como un campo prometedor para el Procesamiento del Lenguaje Natural, que contiene información relevante en diversas áreas que impactan a la sociedad. Este estudio se centra en identificar publicaciones tributarias en el Diário Oficial Federal (DOU) a través de un enfoque de clasificación de textos. Durante el análisis del contexto tributario en el DOU, el desafío de abordar el contexto desequilibrado, además de la necesidad de crear un conjunto de datos anotados centrados en el dominio fiscal, utilizando una estrategia de anotación automática de registros. El uso de modelos de lenguaje grandes (o LLMs), basados en transformadores, en los experimentos realizados resaltaron la efectividad de este enfoque para clasificar los datos tributarios, incluso frente a los desafíos identificados. De los resultados obtenidos se observó que mantener el desequilibrio en el conjunto de los datos de entrenamiento dio como resultado mejores resultados para el escenario en cuestión. Además Además, los resultados también indican que los LLM con arquitectura de codificador continúan siendo una opción eficiente que proporciona velocidad y compatibilidad con hardware de uso general. Estos modelos siguen siendo efectivos incluso en medio de la tendencia hacia la preferencia por los LLM. con arquitectura decodificadora con un número cada vez mayor de parámetros, especialmente en escenarios con limitaciones de recursos de hardware.Universidade Federal de Campina GrandeBrasilCentro de Engenharia Elétrica e Informática - CEEIPÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃOUFCGBAPTISTA, Cláudio de Souza.BAPTISTA, C. S.DE SOUZA BAPTISTA, CLÁUDIO.http://lattes.cnpq.br/0104124422364023ARAÚJO, Joseana Macêdo Fechine Régis de.FECHINE, J. M.ARAÚJO, J.M.F.R.ARAÚJO, JOSEANA M. F. R.http://lattes.cnpq.br/7179691582151907ALMEIDA, João Dallyson Sousa de.ALMEIDA, J. D. S.SOUSA DE ALMEIDA, JOÃO DALLYSON.http://lattes.cnpq.br/6047330108382641BARBOSA, Luciano de Andrade.Barbosa, L. A.http://lattes.cnpq.br/7113249247656195CUNHA, Mateus Queiroz.2024-02-192024-06-20T20:35:42Z2024-06-202024-06-20T20:35:42Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228CUNHA, Mateus Queiroz. Utilizando modelos de linguagem grandes para classificação de atos do Diário Oficial da União no domínio tributário. 2024. 165 fl. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFCGinstname:Universidade Federal de Campina Grande (UFCG)instacron:UFCG2024-06-26T16:51:50Zoai:localhost:riufcg/36228Biblioteca Digital de Teses e Dissertaçõeshttp://bdtd.ufcg.edu.br/PUBhttp://dspace.sti.ufcg.edu.br:8080/oai/requestbdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.bropendoar:48512024-06-26T16:51:50Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)false
dc.title.none.fl_str_mv	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário. Using large language models for act classification of the official gazette of the union in the tax domain. Uso de grandes modelos de lenguaje para la clasificación de actos del boletín oficial de la unión en el ámbito fiscal.
title	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.
spellingShingle	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário. CUNHA, Mateus Queiroz. Processamento de linguagem natural Classificação de texto Modelos de linguagem grandes Dados desbalanceados Domínio jurídico Diários oficiais Natural language processing Text classification Models large language Imbalanced data Legal domain Official diaries Ciência da Computação
title_short	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.
title_full	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.
title_fullStr	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.
title_full_unstemmed	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.
title_sort	Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.
author	CUNHA, Mateus Queiroz.
author_facet	CUNHA, Mateus Queiroz.
author_role	author
dc.contributor.none.fl_str_mv	BAPTISTA, Cláudio de Souza. BAPTISTA, C. S. DE SOUZA BAPTISTA, CLÁUDIO. http://lattes.cnpq.br/0104124422364023 ARAÚJO, Joseana Macêdo Fechine Régis de. FECHINE, J. M. ARAÚJO, J.M.F.R. ARAÚJO, JOSEANA M. F. R. http://lattes.cnpq.br/7179691582151907 ALMEIDA, João Dallyson Sousa de. ALMEIDA, J. D. S. SOUSA DE ALMEIDA, JOÃO DALLYSON. http://lattes.cnpq.br/6047330108382641 BARBOSA, Luciano de Andrade. Barbosa, L. A. http://lattes.cnpq.br/7113249247656195
dc.contributor.author.fl_str_mv	CUNHA, Mateus Queiroz.
dc.subject.por.fl_str_mv	Processamento de linguagem natural Classificação de texto Modelos de linguagem grandes Dados desbalanceados Domínio jurídico Diários oficiais Natural language processing Text classification Models large language Imbalanced data Legal domain Official diaries Ciência da Computação
topic	Processamento de linguagem natural Classificação de texto Modelos de linguagem grandes Dados desbalanceados Domínio jurídico Diários oficiais Natural language processing Text classification Models large language Imbalanced data Legal domain Official diaries Ciência da Computação
description	A Ciência Jurídica destaca-se como um campo promissor para o Processamento de Linguagem Natural, contendo informações relevantes em diversos domínios que impactam a sociedade. O presente estudo concentra-se na identificação de publicações tributárias no Diário Oficial da União (DOU) por meio de uma abordagem de classificação de texto. Durante a análise do contexto tributário no DOU, evidenciou-se o desafio de lidar com o contexto desbalanceado, além da necessidade da criação de um conjunto de dados anotado focado no domínio tributário, tendo sido empregada uma estratégia de anotação automática de registros. A utilização de Modelos de Linguagem Grandes (do inglês, Large Language Models, ou LLMs), baseados em transformers, nos experimentos conduzidos destacou a eficácia dessa abordagem na classificação de dados tributários, mesmo diante dos desafios identificados. A partir dos resultados obtidos, observou-se que manter o desbalanceamento no conjunto de dados de treinamento implicou em melhores resultados para o cenário em questão. Além disso, os resultados também indicam que os LLMs com arquitetura encoder continuam sendo uma opção eficiente, proporcionando rapidez e compatibilidade com hardware de uso geral. Esses modelos mantêm sua eficácia, mesmo em meio à tendência de preferência por LLMs com arquitetura decoder com um número cada vez maior de parâmetros, especialmente em cenários com limitações de recurso de hardware.
publishDate	2024
dc.date.none.fl_str_mv	2024-02-19 2024-06-20T20:35:42Z 2024-06-20 2024-06-20T20:35:42Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228 CUNHA, Mateus Queiroz. Utilizando modelos de linguagem grandes para classificação de atos do Diário Oficial da União no domínio tributário. 2024. 165 fl. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
url	http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
identifier_str_mv	CUNHA, Mateus Queiroz. Utilizando modelos de linguagem grandes para classificação de atos do Diário Oficial da União no domínio tributário. 2024. 165 fl. Dissertação (Mestrado em Ciência da Computação) – Programa de Pós-Graduação em Ciência da Computação, Centro de Engenharia Elétrica e Informática, Universidade Federal de Campina Grande, Paraíba, Brasil, 2024. Disponível em: http://dspace.sti.ufcg.edu.br:8080/jspui/handle/riufcg/36228
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
publisher.none.fl_str_mv	Universidade Federal de Campina Grande Brasil Centro de Engenharia Elétrica e Informática - CEEI PÓS-GRADUAÇÃO EM CIÊNCIA DA COMPUTAÇÃO UFCG
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFCG instname:Universidade Federal de Campina Grande (UFCG) instacron:UFCG
instname_str	Universidade Federal de Campina Grande (UFCG)
instacron_str	UFCG
institution	UFCG
reponame_str	Biblioteca Digital de Teses e Dissertações da UFCG
collection	Biblioteca Digital de Teses e Dissertações da UFCG
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFCG - Universidade Federal de Campina Grande (UFCG)
repository.mail.fl_str_mv	bdtd@setor.ufcg.edu.br \|\| bdtd@setor.ufcg.edu.br
_version_	1809744625604231168

Utilizando modelos de linguagem grandes para classificação de atos do diário oficial da união no domínio tributário.

Registros relacionados