SentiElection: análise de sentimento no twitter baseada em centralidade de palavras
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | http://www.teses.usp.br/teses/disponiveis/59/59143/tde-16082019-215233/ |
Resumo: | As redes sociais,a exemplo doTwitter,são um fenômeno que atraíram rapidamente milhões de usuários ativos. O uso destas redes permite que diariamente sejam trocadas milhões de postagens referentes a uma innidade de tópicos. Toda esta pletora de textos tem motivado várias pesquisas na área de Processamento de Língua Natural, principalmente no tópico de análise de sentimento (AS) que busca extrair, analisar e quanticar a opinião do usuário sobre um determinado assunto. Devido ao alto custo envolvido no processo de extração e análise manual desses dados, diversos estudos têm focado na busca de soluções para a automatização dessa tarefa. Esta pesquisa propõe uma nova metodologia de AS sobre tweets baseada na Teoria de Grafos chamada SentiElection. Nossa hipótese é que textos positivos e textos negativos guardam, entre si, semelhanças no encadeamento de palavras. Calculamos essa importância através do uso de medidas de centralidade de vértices em grafos de palavras, sendo assim, a classe a qual determinado texto obtiver o maior valor de importância corresponderá a seu sentimento. O SentiElection é uma medida composta pelas medidas de centralidade de autovetor, Katz e PageRank. Em nossos experimentos o SentiElection apresentou resultados competitivos em relação a métodos tradicionais de AS, atingindo valores de acurácia e medida-F superiores a 70%. Além disso, nesses mesmos experimentos, o método aqui proposto obteve desempenho superior à técnica que o inspirou, a qual também faz uso de similaridade de grafos para a classicação de sentimentos |
id |
USP_cffa701984a516b5459157949e27d44f |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-16082019-215233 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavrasSentiElection: twitter sentiment analysis based on word\'s centralityAnálise de sentimento no TwitterBinary classicationCentrality measuresClassicação bináriaGrafo de palavrasMedidas de centralidadeTwitter sentiment analysisWord graphsAs redes sociais,a exemplo doTwitter,são um fenômeno que atraíram rapidamente milhões de usuários ativos. O uso destas redes permite que diariamente sejam trocadas milhões de postagens referentes a uma innidade de tópicos. Toda esta pletora de textos tem motivado várias pesquisas na área de Processamento de Língua Natural, principalmente no tópico de análise de sentimento (AS) que busca extrair, analisar e quanticar a opinião do usuário sobre um determinado assunto. Devido ao alto custo envolvido no processo de extração e análise manual desses dados, diversos estudos têm focado na busca de soluções para a automatização dessa tarefa. Esta pesquisa propõe uma nova metodologia de AS sobre tweets baseada na Teoria de Grafos chamada SentiElection. Nossa hipótese é que textos positivos e textos negativos guardam, entre si, semelhanças no encadeamento de palavras. Calculamos essa importância através do uso de medidas de centralidade de vértices em grafos de palavras, sendo assim, a classe a qual determinado texto obtiver o maior valor de importância corresponderá a seu sentimento. O SentiElection é uma medida composta pelas medidas de centralidade de autovetor, Katz e PageRank. Em nossos experimentos o SentiElection apresentou resultados competitivos em relação a métodos tradicionais de AS, atingindo valores de acurácia e medida-F superiores a 70%. Além disso, nesses mesmos experimentos, o método aqui proposto obteve desempenho superior à técnica que o inspirou, a qual também faz uso de similaridade de grafos para a classicação de sentimentosSocial networks, like Twitter, are a phenomenon that has quickly attracted millions of active users. The use of these social networks allows millions of posts to be exchanged daily on a multitude of topics. This plethora of texts has motivated several research topics in the area of Natural Language Processing, mainly in the topic of sentiment analysis (SA). SA seeks to extract, analyze, and quantify the users opinion on a particular subject. Due to the high cost involved in the manual extraction and analysis of social network data, several studies have focused on nding solutions to automate this task. This research proposes a new SA methodology over tweets based on Graph Theory analysis called SentiElection. We hypothesize that positive and negative tweet texts are similar in their own class if these messages are compared based on the sequence of words in a sentence. Vertex centrality measures are applied to word graphs to measure how an incoming tweets relates either to a positive set of tweets or to a negative one. SentiElection is a compilation of centrality measures, such as, eigenvector, Katz similarity and PageRank. In our experiments, the SentiElection presented competitive results compared to traditional SA methods, reaching accuracy and F-measurement values higher than 70%. Moreover, in these same experiments, the method proposed here obtained superior performance to the technique that inspired it, which makes use of graph similarity for sentiment classicationBiblioteca Digitais de Teses e Dissertações da USPRuiz, Evandro Eduardo SeronVilarinho, George Narita2019-06-27info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/59/59143/tde-16082019-215233/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-11-08T22:01:10Zoai:teses.usp.br:tde-16082019-215233Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-11-08T22:01:10Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras SentiElection: twitter sentiment analysis based on word\'s centrality |
title |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras |
spellingShingle |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras Vilarinho, George Narita Análise de sentimento no Twitter Binary classication Centrality measures Classicação binária Grafo de palavras Medidas de centralidade Twitter sentiment analysis Word graphs |
title_short |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras |
title_full |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras |
title_fullStr |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras |
title_full_unstemmed |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras |
title_sort |
SentiElection: análise de sentimento no twitter baseada em centralidade de palavras |
author |
Vilarinho, George Narita |
author_facet |
Vilarinho, George Narita |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ruiz, Evandro Eduardo Seron |
dc.contributor.author.fl_str_mv |
Vilarinho, George Narita |
dc.subject.por.fl_str_mv |
Análise de sentimento no Twitter Binary classication Centrality measures Classicação binária Grafo de palavras Medidas de centralidade Twitter sentiment analysis Word graphs |
topic |
Análise de sentimento no Twitter Binary classication Centrality measures Classicação binária Grafo de palavras Medidas de centralidade Twitter sentiment analysis Word graphs |
description |
As redes sociais,a exemplo doTwitter,são um fenômeno que atraíram rapidamente milhões de usuários ativos. O uso destas redes permite que diariamente sejam trocadas milhões de postagens referentes a uma innidade de tópicos. Toda esta pletora de textos tem motivado várias pesquisas na área de Processamento de Língua Natural, principalmente no tópico de análise de sentimento (AS) que busca extrair, analisar e quanticar a opinião do usuário sobre um determinado assunto. Devido ao alto custo envolvido no processo de extração e análise manual desses dados, diversos estudos têm focado na busca de soluções para a automatização dessa tarefa. Esta pesquisa propõe uma nova metodologia de AS sobre tweets baseada na Teoria de Grafos chamada SentiElection. Nossa hipótese é que textos positivos e textos negativos guardam, entre si, semelhanças no encadeamento de palavras. Calculamos essa importância através do uso de medidas de centralidade de vértices em grafos de palavras, sendo assim, a classe a qual determinado texto obtiver o maior valor de importância corresponderá a seu sentimento. O SentiElection é uma medida composta pelas medidas de centralidade de autovetor, Katz e PageRank. Em nossos experimentos o SentiElection apresentou resultados competitivos em relação a métodos tradicionais de AS, atingindo valores de acurácia e medida-F superiores a 70%. Além disso, nesses mesmos experimentos, o método aqui proposto obteve desempenho superior à técnica que o inspirou, a qual também faz uso de similaridade de grafos para a classicação de sentimentos |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-06-27 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://www.teses.usp.br/teses/disponiveis/59/59143/tde-16082019-215233/ |
url |
http://www.teses.usp.br/teses/disponiveis/59/59143/tde-16082019-215233/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090776196448256 |