Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos

Detalhes bibliográficos
Autor(a) principal: Cunha, Robson Ortz Oliveira
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/104/104131/tde-03042024-080044/
Resumo: Dada a crescente necessidade e importância da análise de dados textuais no ramo da inteligência artificial, modelos que possam compreender melhor a linguagem humana e lidar com dados não estruturados têm ganhado cada vez mais relevância. Neste trabalho, desenvolvemos um estudo sobre o Processo Hierárquico de Dirichlet (HDP) na modelagem de tópicos textuais explorando seus aspectos práticos ao aplicá-lo em um conjunto de dados (corpus) de processos jurídicos, compostos por três tipos de procedimentos distintos. Discorremos sobre as principais propriedades do HDP, sobre a ótica Bayesiana, assumindo que os dados sejam oriundos de uma distribuição de probabilidade Multinomial, baseados no modelo de representação textual de bag-of-words, comumente utilizado em processamento de linguagem natural. Procedemos ainda com algumas técnicas de pré-processamento textual, que resultaram em documentos (dados) mais parcimoniosos, e com estudo de simulação para verificar a performance do modelo. Ao fim do trabalho, apresentamos os resultados das aplicações realizadas e discutimos sobre a problemática da análise de dados em jurimetria.
id USP_0407bb303f388b8f7118d8711839b59a
oai_identifier_str oai:teses.usp.br:tde-03042024-080044
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de TópicosNonparametric Bayesian Hierarchical Model Applied to Topic ModelingHierarchical Dirichlet processJurimetriaJurimetryModelagem de tópicos textuaisModelo não paramétrico BayesianoNon-parametric Bayesian modelProcesso hierárquico de DirichletTopic modelingDada a crescente necessidade e importância da análise de dados textuais no ramo da inteligência artificial, modelos que possam compreender melhor a linguagem humana e lidar com dados não estruturados têm ganhado cada vez mais relevância. Neste trabalho, desenvolvemos um estudo sobre o Processo Hierárquico de Dirichlet (HDP) na modelagem de tópicos textuais explorando seus aspectos práticos ao aplicá-lo em um conjunto de dados (corpus) de processos jurídicos, compostos por três tipos de procedimentos distintos. Discorremos sobre as principais propriedades do HDP, sobre a ótica Bayesiana, assumindo que os dados sejam oriundos de uma distribuição de probabilidade Multinomial, baseados no modelo de representação textual de bag-of-words, comumente utilizado em processamento de linguagem natural. Procedemos ainda com algumas técnicas de pré-processamento textual, que resultaram em documentos (dados) mais parcimoniosos, e com estudo de simulação para verificar a performance do modelo. Ao fim do trabalho, apresentamos os resultados das aplicações realizadas e discutimos sobre a problemática da análise de dados em jurimetria.Given the growing need and importance of analyzing textual data in the field of artificial intelligence, models that can better understand human language and deal with unstructured data are increasingly relevant gains. In this work, we developed a study on the Hierarchical Dirichlet Process (HDP) in modeling textual topics, exploring its practical aspects by applying it to a data set (corpus) of legal process, composed of three types of different procedures. We will discuss the main properties of HDP, from a Bayesian perspctive, assuming that the data comes from Multinomial probability distribution, based on the bag-of-words textual representation model, commonly used in natural language processing. We also proceeded with some textual pre-processing techniches, which resulted in more parsimonious documents (data), and with a simulation study to verify the model\'s performance. At the end of the work, we present the results of the applications carried out and discuss the issues of data analysis in jurimetry.Biblioteca Digitais de Teses e Dissertações da USPStern, Rafael BassiCunha, Robson Ortz Oliveira2024-02-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/104/104131/tde-03042024-080044/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-04-03T19:51:03Zoai:teses.usp.br:tde-03042024-080044Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-04-03T19:51:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
Nonparametric Bayesian Hierarchical Model Applied to Topic Modeling
title Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
spellingShingle Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
Cunha, Robson Ortz Oliveira
Hierarchical Dirichlet process
Jurimetria
Jurimetry
Modelagem de tópicos textuais
Modelo não paramétrico Bayesiano
Non-parametric Bayesian model
Processo hierárquico de Dirichlet
Topic modeling
title_short Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
title_full Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
title_fullStr Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
title_full_unstemmed Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
title_sort Modelo Hierárquico Bayesiano Não Paramétrico Aplicado em Modelagem de Tópicos
author Cunha, Robson Ortz Oliveira
author_facet Cunha, Robson Ortz Oliveira
author_role author
dc.contributor.none.fl_str_mv Stern, Rafael Bassi
dc.contributor.author.fl_str_mv Cunha, Robson Ortz Oliveira
dc.subject.por.fl_str_mv Hierarchical Dirichlet process
Jurimetria
Jurimetry
Modelagem de tópicos textuais
Modelo não paramétrico Bayesiano
Non-parametric Bayesian model
Processo hierárquico de Dirichlet
Topic modeling
topic Hierarchical Dirichlet process
Jurimetria
Jurimetry
Modelagem de tópicos textuais
Modelo não paramétrico Bayesiano
Non-parametric Bayesian model
Processo hierárquico de Dirichlet
Topic modeling
description Dada a crescente necessidade e importância da análise de dados textuais no ramo da inteligência artificial, modelos que possam compreender melhor a linguagem humana e lidar com dados não estruturados têm ganhado cada vez mais relevância. Neste trabalho, desenvolvemos um estudo sobre o Processo Hierárquico de Dirichlet (HDP) na modelagem de tópicos textuais explorando seus aspectos práticos ao aplicá-lo em um conjunto de dados (corpus) de processos jurídicos, compostos por três tipos de procedimentos distintos. Discorremos sobre as principais propriedades do HDP, sobre a ótica Bayesiana, assumindo que os dados sejam oriundos de uma distribuição de probabilidade Multinomial, baseados no modelo de representação textual de bag-of-words, comumente utilizado em processamento de linguagem natural. Procedemos ainda com algumas técnicas de pré-processamento textual, que resultaram em documentos (dados) mais parcimoniosos, e com estudo de simulação para verificar a performance do modelo. Ao fim do trabalho, apresentamos os resultados das aplicações realizadas e discutimos sobre a problemática da análise de dados em jurimetria.
publishDate 2024
dc.date.none.fl_str_mv 2024-02-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/104/104131/tde-03042024-080044/
url https://www.teses.usp.br/teses/disponiveis/104/104131/tde-03042024-080044/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256632750243840