Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais

Detalhes bibliográficos
Autor(a) principal: Schmitt, Murilo Falleiros Lemos
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/58196
Resumo: Orientador: Eduardo Jaques Spinosa
id UFPR_13d4db921f834e1bec385b2b8d454c7e
oai_identifier_str oai:acervodigital.ufpr.br:1884/58196
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Schmitt, Murilo Falleiros LemosUniversidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em InformáticaSpinosa, Eduardo Jaques2019-02-08T16:22:00Z2019-02-08T16:22:00Z2018https://hdl.handle.net/1884/58196Orientador: Eduardo Jaques SpinosaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Exatas, Programa de Pós-Graduação em Informática. Defesa : Curitiba, 22/08/2018Inclui referências: p.59-62Área de concentração: Ciência da ComputaçãoResumo: Análise de sentimento é uma tarefa importante na área de Processamento de Linguagem Natural que consiste em automaticamente atribuir documentos de texto a classes previamente definidas que representam sentimentos ou opiniões positivas/negativas em relação a um determinado assunto. Para resolução dessa tarefa, podem ser utilizadas técnicas de aprendizado de máquina. No entanto, para que possam atingir uma boa capacidade de generalização, essas técnicas dependem de um pré-processamento cuidadoso e de uma representação adequada dos dados. Este trabalho propõe tratar essas questões fundamentais por meio de redes neurais convolucionais e algoritmos de agrupamento baseados em densidade. As representações de palavras utilizadas neste trabalho foram obtidas de vetores previamente treinados de maneira não-supervisionada, denominados word embeddings. Essas representações são capazes de capturar informações sintáticas e semânticas das palavras, o que leva palavras similares a serem projetadas próximas no espaço semântico. Neste cenário, o modelo proposto utiliza um algoritmo de agrupamento no espaço semântico para extrair informações adicionais das representações vetoriais das palavras com o objetivo de melhorar o desempenho da rede neural convolucional. Utilizou-se um algoritmo de agrupamento baseado em densidade para detecção e remoção de outliers dos documentos a serem classificados, antes desses documentos serem treinados e classificados pela rede neural convolucional. Para análise do modelo proposto, foram conduzidos experimentos com dois algoritmos de obtenção de word embeddings sobre cinco bases de dados, estudando-se o impacto da remoção de outliers em diferentes graus de intensidade. Os resultados demonstram que os outliers têm pouco impacto na taxa de acerto do classificador, podendo aumentar ligeiramente, mas sua remoção pode impactar positivamente no desempenho em termos de tempo de execução da rede. Palavras-chave: Deep Learning. Detecção de Outliers. Redes Neurais Convolucionais. Análise de Sentimento.Abstract: Sentiment analysis is an important task in Natural Language Processing that consists in automatically assigning text documents to predefined classes that represent sentiments or a positive/negative opinion about a subject. To solve this task, machine learning techniques can be used. However, in order to achieve good generalization, these techniques require a thorough preprocessing and an appropriate data representation. To deal with these fundamental issues, this work proposes the use of convolutional neural networks and density-based clustering algorithms. The word representations used in this work were obtained from vectors previously trained in an unsupervised way, denominated word embeddings. These representations are able to capture syntactic and semantic information of words, which leads to similar words being projected closer together in the semantic space. In this scenario, in order to improve the performance of the convolutional neural network, the use of a clustering algorithm in the semantic space to extract additional information from the data is proposed. A density-based clustering algorithm was used to detect and remove outliers from the documents to be classified before these documents were used to train the convolutional neural network. To evaluate the proposed method, experiments were conducted with two different embeddings across five datasets, by studying the impact of the removal of outliers in different degrees of intensity. Results show that the outliers have little impact on the classifier's accuracy, being able to improve it slightly, but their removal can have positive impact on performance in terms of network runtime. Keywords: Deep Learning. Outlier Detection. Convolutional Neural Networks. Sentiment Analysis.62 p. : il. (algumas color.).application/pdfRedes neurais (Computação)Ciência da ComputaçãoAlgoritmos de computadorInteligência artificialTesesDetecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionaisinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - MURILO FALLEIROS LEMOS SCHMITT.pdfapplication/pdf1912625https://acervodigital.ufpr.br/bitstream/1884/58196/1/R%20-%20D%20-%20MURILO%20FALLEIROS%20LEMOS%20SCHMITT.pdf938a817557984c5c1cccccebba162bf9MD51open access1884/581962019-02-08 14:22:00.238open accessoai:acervodigital.ufpr.br:1884/58196Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082019-02-08T16:22Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
title Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
spellingShingle Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
Schmitt, Murilo Falleiros Lemos
Redes neurais (Computação)
Ciência da Computação
Algoritmos de computador
Inteligência artificial
Teses
title_short Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
title_full Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
title_fullStr Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
title_full_unstemmed Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
title_sort Detecção de outliers no espaço semântico aplicada à análise de sentimento por redes neurais convolucionais
author Schmitt, Murilo Falleiros Lemos
author_facet Schmitt, Murilo Falleiros Lemos
author_role author
dc.contributor.other.pt_BR.fl_str_mv Universidade Federal do Paraná. Setor de Ciências Exatas. Programa de Pós-Graduação em Informática
dc.contributor.author.fl_str_mv Schmitt, Murilo Falleiros Lemos
dc.contributor.advisor1.fl_str_mv Spinosa, Eduardo Jaques
contributor_str_mv Spinosa, Eduardo Jaques
dc.subject.por.fl_str_mv Redes neurais (Computação)
Ciência da Computação
Algoritmos de computador
Inteligência artificial
Teses
topic Redes neurais (Computação)
Ciência da Computação
Algoritmos de computador
Inteligência artificial
Teses
description Orientador: Eduardo Jaques Spinosa
publishDate 2018
dc.date.issued.fl_str_mv 2018
dc.date.accessioned.fl_str_mv 2019-02-08T16:22:00Z
dc.date.available.fl_str_mv 2019-02-08T16:22:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/58196
url https://hdl.handle.net/1884/58196
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 62 p. : il. (algumas color.).
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/58196/1/R%20-%20D%20-%20MURILO%20FALLEIROS%20LEMOS%20SCHMITT.pdf
bitstream.checksum.fl_str_mv 938a817557984c5c1cccccebba162bf9
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860262443089920