Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation

Detalhes bibliográficos
Autor(a) principal: Sousa, Luana da Silva
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/234658
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2022.
id UFSC_8e337fd2c99f72d5b0a5ab6dc7b25ec4
oai_identifier_str oai:repositorio.ufsc.br:123456789/234658
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet AllocationCiência da informaçãoRecuperação da informaçãoProcessamento de linguagem natural (Computação)Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2022.Uma das formas de tornar possível o acesso e recuperação da grande quantidade de informação sendo produzida nos últimos anos é com ferramentas para melhor entender o conteúdo de documentos de texto. O algoritmo de Topic Modeling é amplamente usado para esse tipo de problema, pois tem a capacidade de sumarizar e categorizar documentos de texto. Devido ao fato de ser um método estatístico e baseado em dados, ele pode produzir tópicos que nem sempre são interpretáveis (coerentes). Este trabalho é baseado na hipótese de que, dado que o LDA leva em consideração o número de ocorrências de palavras, é possível afetar a qualidade dos tópicos por meio de uma normalização semântica do texto, na qual os conceitos poderiam ser representados pela mesma palavra. Podemos encontrar uma descrição formal de conceitos usando uma base de conhecimento (da Web Semântica) ou conhecimento de domínio sobre um determinado tema, extraindo diversas formas de expressar um determinado conceito, a fim de normalizar o corpus. Foi usada a métrica de coerência dos tópicos para quantificar a influência da normalização semântica, dado que essa métrica representa a interpretabilidade semântica dos termos usados para descrever um tópico. Foram testadas duas hipóteses: (i) bases de conhecimento da web semântica para normalizar dois corpora de teste genéricos de forma automática, e (ii) conhecimento de domínio para efetuar a normalização em um corpus específico, a fim de aceitar ou rejeitar a hipótese de que a normalização afeta ou não a coerência dos tópicos extraída. Uma amostragem aleatória com um número variável de documentos (dependendo do corpus) foi selecionada para aplicar o teste estatístico de Mann-Whitney com a métrica Cv. Os resultados mostraram que a normalização semântica de corpus afeta, de forma positiva com significância estatística, a coerência dos tópicos extraídos via algoritmo LDA de Topic Modeling em um corpus de domínio específico, caso haja um percentual minimamente considerável de texto normalizado. É possível concluir também que as bases de conhecimento da Web Semântica ainda são incipientes para este tipo de aplicação.Abstract: One of the ways to make it possible to access and retrieve the large amount of information being produced in recent years is with tools to better understand the content of text documents. The Topic Modeling algorithm is widely used for this type of problem as it has the ability to summarize and categorize text documents. Due to the fact that it is a statistical and data-based method, it can produce topics that are not always interpretable (coherent). This work is based on the hypothesis that, given that the LDA takes into account the number of occurrences of words, it is possible to affect the quality of topics through a semantic normalization of the text, in which the concepts could be represented by the same word. We can find a formal description of concepts using a knowledge base (from Semantic Web) or domain knowledge on a given topic, extracting different ways of expressing a given concept in order to normalize the corpus. The topic coherence metric was used to quantify the influence of semantic normalization, since this metric represents the semantic interpretability of the terms used to describe a topic. Two hypotheses were tested: (i) semantic web knowledge bases to automatically normalize two generic test corpora, and (ii) domain knowledge to perform normalization on a specific corpus, in order to accept or reject the hypothesis that normalization affects or not the coherence of the extracted topics. A random sample with a variable number of documents (depending on the corpus) was selected to apply the Mann-Whitney statistical test with the metric Cv. The results showed that semantic corpus normalization positively affects the coherence of topics extracted via the LDA algorithm of Topic Modeling in a domain-specific corpus, if there is a minimally considerable percentage of normalized text. It is also possible to conclude that the Semantic Web knowledge bases are still incipient for this type of application.Araújo, Gustavo Medeiros deUniversidade Federal de Santa CatarinaSousa, Luana da Silva2022-05-19T14:45:25Z2022-05-19T14:45:25Z2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis77 p.| il., gráfs.application/pdf375925https://repositorio.ufsc.br/handle/123456789/234658porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2022-05-19T14:45:26Zoai:repositorio.ufsc.br:123456789/234658Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732022-05-19T14:45:26Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
title Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
spellingShingle Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
Sousa, Luana da Silva
Ciência da informação
Recuperação da informação
Processamento de linguagem natural (Computação)
title_short Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
title_full Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
title_fullStr Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
title_full_unstemmed Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
title_sort Avaliação do efeito de normalização de corpus na coerência de tópicos extraídos usando Latent Dirichlet Allocation
author Sousa, Luana da Silva
author_facet Sousa, Luana da Silva
author_role author
dc.contributor.none.fl_str_mv Araújo, Gustavo Medeiros de
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Sousa, Luana da Silva
dc.subject.por.fl_str_mv Ciência da informação
Recuperação da informação
Processamento de linguagem natural (Computação)
topic Ciência da informação
Recuperação da informação
Processamento de linguagem natural (Computação)
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Centro de Ciências da Educação, Programa de Pós-Graduação em Ciência da Informação, Florianópolis, 2022.
publishDate 2022
dc.date.none.fl_str_mv 2022-05-19T14:45:25Z
2022-05-19T14:45:25Z
2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 375925
https://repositorio.ufsc.br/handle/123456789/234658
identifier_str_mv 375925
url https://repositorio.ufsc.br/handle/123456789/234658
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 77 p.| il., gráfs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652364308021248