Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto

Detalhes bibliográficos
Autor(a) principal: Oliveira, Marcela Ribeiro de, 1996-
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/70832
Resumo: Orientador: Eduardo Jaques Spinosa
id UFPR_8f92bf8eceb07363696f916cbb4d8120
oai_identifier_str oai:acervodigital.ufpr.br:1884/70832
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Oliveira, Marcela Ribeiro de, 1996-Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaSpinosa, Eduardo Jaques, 1974-2021-06-21T17:45:12Z2021-06-21T17:45:12Z2020https://hdl.handle.net/1884/70832Orientador: Eduardo Jaques SpinosaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 09/12/2020Inclui referências: p. 83-86Área de concentração: Ciência da ComputaçãoResumo: Classificação de texto é um problema clássico na área de Processamento de Linguagem Natural. Uma tarefa essencial na classificação de texto é a construção da representação, que deve prover informações relevantes para o classificador. Um dos modelos de representação mais efetivos utiliza grafos para representar textos. Esta pesquisa propõe uma abordagem que utiliza esse modelo de representação e medidas de associatividade de palavras para incorporar mais informações aos grafos. Essas medidas servem como um guia para identificar e remover arestas entre as palavras com baixo valor de associatividade. Então, utilizando o node2vec, extraímos as características de cada grafo e utilizamos uma rede neural convolucional de texto para realizar a classificação. Conduzimos experimentos para comparar diferentes tipos de modelagem dos grafos em termos de acerto na classificação e da proporção de arestas que foram removidas. Os resultados obtidos indicaram que essa abordagem torna possível reduzir a quantidade de arestas no grafo mantendo o desempenho da classificação. Palavras-chave: classificação de texto, grafo de palavras, aprendizagem de representação de grafos.Abstract: Text classification is a classic problem in Natural Language Processing. An essential task in text classification is the construction of the representation, which must provide relevant information to the classifier. One of the most effective representation model uses graphs to represent texts. This research proposes an approach that uses this representation model and word association measures to incorporate more information into the graphs. These measures then serve as a guide to identify and remove edges between words with low association levels. Then, using node2vec, we extract the features of each graph and use a text convolutional neural network for classification. We conducted experiments in order to compare different kinds of graph modeling in terms of classification score and the proportion of edges that were removed. The results obtained indicate that this approach makes it possible to reduce the amount of edges in the graphs maintaining classification performance. Keywords: text classification, graph of words, graph representation learning1 arquivo (105 p.) : il. (algumas color.).application/pdfTeoria dos grafosProcessamento eletronico de dadosAlgorítmosCiência da ComputaçãoUma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de textoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - MARCELA RIBEIRO DE OLIVEIRA.pdfapplication/pdf5369499https://acervodigital.ufpr.br/bitstream/1884/70832/1/R%20-%20D%20-%20MARCELA%20RIBEIRO%20DE%20OLIVEIRA.pdf48d9644935dee3acc64eb60e77b65cd6MD51open access1884/708322021-06-21 14:45:12.407open accessoai:acervodigital.ufpr.br:1884/70832Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082021-06-21T17:45:12Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
title Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
spellingShingle Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
Oliveira, Marcela Ribeiro de, 1996-
Teoria dos grafos
Processamento eletronico de dados
Algorítmos
Ciência da Computação
title_short Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
title_full Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
title_fullStr Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
title_full_unstemmed Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
title_sort Uma abordagem para filtragem de arestas de grafos de palavras aplicada ao problema de classificação de texto
author Oliveira, Marcela Ribeiro de, 1996-
author_facet Oliveira, Marcela Ribeiro de, 1996-
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Oliveira, Marcela Ribeiro de, 1996-
dc.contributor.advisor1.fl_str_mv Spinosa, Eduardo Jaques, 1974-
contributor_str_mv Spinosa, Eduardo Jaques, 1974-
dc.subject.por.fl_str_mv Teoria dos grafos
Processamento eletronico de dados
Algorítmos
Ciência da Computação
topic Teoria dos grafos
Processamento eletronico de dados
Algorítmos
Ciência da Computação
description Orientador: Eduardo Jaques Spinosa
publishDate 2020
dc.date.issued.fl_str_mv 2020
dc.date.accessioned.fl_str_mv 2021-06-21T17:45:12Z
dc.date.available.fl_str_mv 2021-06-21T17:45:12Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/70832
url https://hdl.handle.net/1884/70832
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 arquivo (105 p.) : il. (algumas color.).
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/70832/1/R%20-%20D%20-%20MARCELA%20RIBEIRO%20DE%20OLIVEIRA.pdf
bitstream.checksum.fl_str_mv 48d9644935dee3acc64eb60e77b65cd6
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860291899686912