Aprendizado profundo para classificação de sentimentos em microblogs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFU |
Texto Completo: | https://repositorio.ufu.br/handle/123456789/26220 |
Resumo: | The Internet today represents one of the leading means of communication and information sharing. In Brazil and in several other countries, the vast majority of the population uses it for a variety of activities. Examples include social networks and microblogs, environments where there are frequent manifestation of opinions and discussions about products, services or other subjects of general interest. In this context, the task of sentiment analysis may label opinions expressed in such vehicles as positive, negative or neutral, using algorithms of natural language processing (NLP) and machine learning. The objective of this study was to investigate the application of deep learning techniques to sentiment classification on a Twitter corpus, considering subjects of interest to the population. Specifically, this study considered the manifestation of opinions about the Brazilian presidential elections of 2018. Data collection was done through Tweepy, an application programming interface (API) provided by Twitter, on all days of televised debates. The database was preprocessed using NLP techniques. To perform the experiments, a relevant set of data classification algorithms was selected from the literature (naive Bayes, decision tree, logistic regression and support vector machines), and compared with deep neural networks. The results obtained showed that the logistic regression classifier achieved the best performance among traditional algorithms, with an averaged accuracy of 54%. The predictive performance of the deep neural network was equivalent, achieving the same 54% of averaged accuracy in a given parameter setting. This result is promising because there is a large space for improving the performance of such a technique as a small amount of parameters was studied. In addition, the poor performance of other techniques, such as the naive Bayes, show that the number of labeled tweets (Twitter posts) on the database is still small and that the overall performance of the classification techniques can be improved by labeling more of them. |
id |
UFU_de27028e26a8a116736decb40761e3df |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/26220 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
Aprendizado profundo para classificação de sentimentos em microblogsDeep learning for sentiment classification in microblogsAprendizado profundoDeep learningAprendizado de máquinaMachine learningAnálise de sentimentosSentiment analysisRedes neuraisNeural networksProcessamento de línguas naturaisNatural language processingCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOThe Internet today represents one of the leading means of communication and information sharing. In Brazil and in several other countries, the vast majority of the population uses it for a variety of activities. Examples include social networks and microblogs, environments where there are frequent manifestation of opinions and discussions about products, services or other subjects of general interest. In this context, the task of sentiment analysis may label opinions expressed in such vehicles as positive, negative or neutral, using algorithms of natural language processing (NLP) and machine learning. The objective of this study was to investigate the application of deep learning techniques to sentiment classification on a Twitter corpus, considering subjects of interest to the population. Specifically, this study considered the manifestation of opinions about the Brazilian presidential elections of 2018. Data collection was done through Tweepy, an application programming interface (API) provided by Twitter, on all days of televised debates. The database was preprocessed using NLP techniques. To perform the experiments, a relevant set of data classification algorithms was selected from the literature (naive Bayes, decision tree, logistic regression and support vector machines), and compared with deep neural networks. The results obtained showed that the logistic regression classifier achieved the best performance among traditional algorithms, with an averaged accuracy of 54%. The predictive performance of the deep neural network was equivalent, achieving the same 54% of averaged accuracy in a given parameter setting. This result is promising because there is a large space for improving the performance of such a technique as a small amount of parameters was studied. In addition, the poor performance of other techniques, such as the naive Bayes, show that the number of labeled tweets (Twitter posts) on the database is still small and that the overall performance of the classification techniques can be improved by labeling more of them.UFU - Universidade Federal de UberlândiaTrabalho de Conclusão de Curso (Graduação)A Internet, atualmente, representa um dos maiores meios de comunicação e compartilhamento de informações. No Brasil e em vários outros países, a grande maioria da população a utiliza para uma série de atividades. Exemplos incluem as redes sociais e os microblogs, ambientes onde são frequentes as manifestações de opiniões e discussões sobre produtos, serviços ou outros assuntos de interesse geral. Neste contexto, a tarefa de classificação de sentimentos pode rotular opiniões expressas em tais veículos como positivas, negativas ou neutras, utilizando algoritmos para Processamento de Línguas Naturais (PLN) e Aprendizado de Máquina. O objetivo desse trabalho foi investigar a aplicação de técnicas de Aprendizado Profundo para classificação de sentimentos em publicações da rede social Twitter, considerando assuntos de interesse para a população. Especificamente, este estudo considerou a manifestação de opiniões sobre a corrida presidencial brasileira no ano de 2018. A coleta dos dados foi realizada por meio da Tweepy, uma Interface de Programação de Aplicativos (API) disponibilizada pelo Twitter, em todos os dias que houveram debates televisionados. A base de dados foi pré-processada utilizando técnicas de PLN. Para a realização dos experimentos, um conjunto relevante de algoritmos de classificação de dados foi selecionado a partir da literatura (naive Bayes, árvore de decisão, regressão logística, máquina de vetores de suporte), e comparados com as redes neurais profundas. Os resultados obtidos mostraram que o classificador de regressão logística alcançou o melhor desempenho entre os algoritmos tradicionais, com 54% de acurácia média. O desempenho das redes neurais profundas foi equivalente, alcançando até 54% de acurácia média de acordo com os ajustes dos parâmetros. Este resultado é visto como promissor, uma vez que há espaço para melhora de desempenho dessas técnicas se considerarmos que um número bastante reduzido de parâmetros foi estudado. Ademais, o baixo desempenho de outras técnicas, tais como o naive Bayes, evidenciam que o número de tweets (publicações do Twitter) rotulados na base de dados ainda é pequeno e que o desempenho geral das técnicas pode ser melhorado pela anotação de mais deles.Universidade Federal de UberlândiaBrasilSistemas de InformaçãoCarneiro, Murillo Guimarãeshttp://lattes.cnpq.br/8158868389973535Lopes, Carlos Robertohttp://lattes.cnpq.br/6737493567462425Martins, Luiz Gustavo Almeidahttp://lattes.cnpq.br/2546751023256424Graciano, Gabriel Franco Dias2019-07-22T13:24:00Z2019-07-22T13:24:00Z2019-07-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfGRACIANO, Gabriel Franco Dias. Aprendizado profundo para classificação de sentimentos em microblogs. 2019. 48 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal de Uberlândia, Monte Carmelo, 2019.https://repositorio.ufu.br/handle/123456789/26220porhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2019-07-23T06:07:16Zoai:repositorio.ufu.br:123456789/26220Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2019-07-23T06:07:16Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
Aprendizado profundo para classificação de sentimentos em microblogs Deep learning for sentiment classification in microblogs |
title |
Aprendizado profundo para classificação de sentimentos em microblogs |
spellingShingle |
Aprendizado profundo para classificação de sentimentos em microblogs Graciano, Gabriel Franco Dias Aprendizado profundo Deep learning Aprendizado de máquina Machine learning Análise de sentimentos Sentiment analysis Redes neurais Neural networks Processamento de línguas naturais Natural language processing CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Aprendizado profundo para classificação de sentimentos em microblogs |
title_full |
Aprendizado profundo para classificação de sentimentos em microblogs |
title_fullStr |
Aprendizado profundo para classificação de sentimentos em microblogs |
title_full_unstemmed |
Aprendizado profundo para classificação de sentimentos em microblogs |
title_sort |
Aprendizado profundo para classificação de sentimentos em microblogs |
author |
Graciano, Gabriel Franco Dias |
author_facet |
Graciano, Gabriel Franco Dias |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carneiro, Murillo Guimarães http://lattes.cnpq.br/8158868389973535 Lopes, Carlos Roberto http://lattes.cnpq.br/6737493567462425 Martins, Luiz Gustavo Almeida http://lattes.cnpq.br/2546751023256424 |
dc.contributor.author.fl_str_mv |
Graciano, Gabriel Franco Dias |
dc.subject.por.fl_str_mv |
Aprendizado profundo Deep learning Aprendizado de máquina Machine learning Análise de sentimentos Sentiment analysis Redes neurais Neural networks Processamento de línguas naturais Natural language processing CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
topic |
Aprendizado profundo Deep learning Aprendizado de máquina Machine learning Análise de sentimentos Sentiment analysis Redes neurais Neural networks Processamento de línguas naturais Natural language processing CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
The Internet today represents one of the leading means of communication and information sharing. In Brazil and in several other countries, the vast majority of the population uses it for a variety of activities. Examples include social networks and microblogs, environments where there are frequent manifestation of opinions and discussions about products, services or other subjects of general interest. In this context, the task of sentiment analysis may label opinions expressed in such vehicles as positive, negative or neutral, using algorithms of natural language processing (NLP) and machine learning. The objective of this study was to investigate the application of deep learning techniques to sentiment classification on a Twitter corpus, considering subjects of interest to the population. Specifically, this study considered the manifestation of opinions about the Brazilian presidential elections of 2018. Data collection was done through Tweepy, an application programming interface (API) provided by Twitter, on all days of televised debates. The database was preprocessed using NLP techniques. To perform the experiments, a relevant set of data classification algorithms was selected from the literature (naive Bayes, decision tree, logistic regression and support vector machines), and compared with deep neural networks. The results obtained showed that the logistic regression classifier achieved the best performance among traditional algorithms, with an averaged accuracy of 54%. The predictive performance of the deep neural network was equivalent, achieving the same 54% of averaged accuracy in a given parameter setting. This result is promising because there is a large space for improving the performance of such a technique as a small amount of parameters was studied. In addition, the poor performance of other techniques, such as the naive Bayes, show that the number of labeled tweets (Twitter posts) on the database is still small and that the overall performance of the classification techniques can be improved by labeling more of them. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-07-22T13:24:00Z 2019-07-22T13:24:00Z 2019-07-12 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
GRACIANO, Gabriel Franco Dias. Aprendizado profundo para classificação de sentimentos em microblogs. 2019. 48 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal de Uberlândia, Monte Carmelo, 2019. https://repositorio.ufu.br/handle/123456789/26220 |
identifier_str_mv |
GRACIANO, Gabriel Franco Dias. Aprendizado profundo para classificação de sentimentos em microblogs. 2019. 48 f. Trabalho de Conclusão de Curso (Graduação em Sistemas de Informação) - Universidade Federal de Uberlândia, Monte Carmelo, 2019. |
url |
https://repositorio.ufu.br/handle/123456789/26220 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/publicdomain/zero/1.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/publicdomain/zero/1.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Sistemas de Informação |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Sistemas de Informação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1813711332343545856 |