Metodologias para análise de sentimentos de tweets sobre o mercado financeiro
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Monografias da UnB |
Texto Completo: | https://bdm.unb.br/handle/10483/29207 |
Resumo: | Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019. |
id |
UNB-2_2171e5d238aa5c7578dbb2275e8f14bd |
---|---|
oai_identifier_str |
oai:bdm.unb.br:10483/29207 |
network_acronym_str |
UNB-2 |
network_name_str |
Biblioteca Digital de Monografias da UnB |
repository_id_str |
11571 |
spelling |
Medeiros, Murilo CerqueiraBorges, Vinicius Ruela PereiraMEDEIROS, Murilo Cerqueira. Metodologias para análise de sentimentos de tweets sobre o mercado financeiro. 2019. 72 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019.https://bdm.unb.br/handle/10483/29207Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019.Este trabalho descreve duas metodologias para análise de sentimentos de tweets relaciona- dos com ações da bolsa de valores. A Metodologia I envolve aprendizagem supervisionada e foca na classificação de sentimentos de tweets escritos em Língua Portuguesa. Essa metodologia faz uso de duas técnicas de redução de dimensionalidade, o Principal Com- ponent Analysis e o t-Stochastic Neighbor Embedding para viabilizar a análise visual para descoberta de conhecimento em tweets. Os tweets são agrupados através do algoritmo K- Means. Além disso, são utilizados os métodos Latent Dirichlet Allocation e Non-Negative Matrix Factorization para extração de tópicos. São empregados os classificadores Naive- Bayes, Support Vector Machine e Random Forest e o desempenho entre eles é comparado e analisado. Os resultados revelaram forte relação entre os tópicos e os grupos a que os tweets pertencem e os classificadores foram capazes de melhor identificarem a ausência do que a presença de um sentimento em um tweet. A Metodologia II envolve aprendizagem não supervisionada para analisar os sentimentos de tweets escritos em Língua Inglesa e utiliza os resultados desta análise para prever por meio de aprendizagem supervisionada a variação diária de ações da empresa americana Apple, Inc. O algoritmo Principal Com- ponent Analysis foi selecionado para a redução de dimensionalidade e os tópicos foram extraídos por meio do uso da técnica Latent Dirichlet Allocation e Non-Negative Matrix Factorization. Os tweets são agrupados por meio do algoritmo K-Means e Expectation Maximization. São utilizados os classificadores Regressão Logística, Naive-Bayes, Sup- port Vector Machine e Random Forest para a previsão da variação das ações da empresa Apple, Inc. Os resultados revelaram a existência de relação entre os grupos a que os tweets pertencem e os tópicos extraídos. Além disso, os resultados mostraram taxas de F1-Score próximas de 0, 9 em alguns experimentos para os classificadores Support Vector Machine e Random Forest.Submitted by Luanna Maia (luanna@bce.unb.br) on 2021-11-17T17:45:05Z No. of bitstreams: 1 2019_MuriloCerqueiraMedeiros_tcc.pdf: 3414732 bytes, checksum: c2f4d03c03a201170bebb506f5d4ab80 (MD5)Approved for entry into archive by Luanna Maia (luanna@bce.unb.br) on 2021-11-17T17:45:13Z (GMT) No. of bitstreams: 1 2019_MuriloCerqueiraMedeiros_tcc.pdf: 3414732 bytes, checksum: c2f4d03c03a201170bebb506f5d4ab80 (MD5)Made available in DSpace on 2021-11-17T17:45:13Z (GMT). No. of bitstreams: 1 2019_MuriloCerqueiraMedeiros_tcc.pdf: 3414732 bytes, checksum: c2f4d03c03a201170bebb506f5d4ab80 (MD5)This work focuses on the development of two methodologies for tweet sentiment analy- sis. The Methodology I is based on supervised learning and concerns on identifying the sentiments in tweets in Portuguese language. This methodology employs two techniques for dimensionality reduction: Principal Component Analysis and t-Stochastic Neighbor Embedding for the visual analysis process. Tweets are clustered using the K-Means al- gorithm. Moreover, Latent Dirichlet Allocation and Non-Negative Matrix Factorization algorithms are used to extract the topics in the tweets. The classifiers Naive-Bayes, Sup- port Vector Machine and Random Forest are used to identify the sentiments in the tweets. Experiments were conducted in order to evaluate and validate Methodology I. The results showed a strong relationship between the topics and the clusters. The classifiers were able to better identify when a sentiment was absent in a tweet rather than when a sentiment was present. The Methodology II applies unsupervised learning for sentiment analysis of tweets published in English about the company Apple, Inc. The sentiment analysis results is used among with supervised learning to predict the daily variation of the Ap- ple, Inc. stock price. The Principal Component Analysis is the chosen algorithm for dimensionality reduction and topics are extracted using the Latent Dirichlet Allocation and the Non-Negative matrix Factorization algorithms. The tweets are clustered with the K-Means and the Expectation Maximization algorithm. The classifiers Logistic Re- gression, Naive-Bayes, Support Vector Machine, and Random Forest are used to predict the Apple, Inc stock price variation. The results revealed a relationship between clusters and topics. Also, the results showed F1-Scores close to 0.9 in some experiments for the classifiers Support Vector Machine and Random Forest.A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor que autoriza a Biblioteca Digital da Produção Intelectual Discente da Universidade de Brasília (BDM) a disponibilizar o trabalho de conclusão de curso por meio do sítio bdm.unb.br, com as seguintes condições: disponível sob Licença Creative Commons 4.0 International, que permite copiar, distribuir e transmitir o trabalho, desde que seja citado o autor e licenciante. Não permite o uso para fins comerciais nem a adaptação desta.info:eu-repo/semantics/openAccessMineração de textoAprendizado de máquinaMetodologias para análise de sentimentos de tweets sobre o mercado financeiroinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis2021-11-17T17:45:13Z2021-11-17T17:45:13Z2019-12-03porreponame:Biblioteca Digital de Monografias da UnBinstname:Universidade de Brasília (UnB)instacron:UNBLICENSElicense.txtlicense.txttext/plain1817http://bdm.unb.br/xmlui/bitstream/10483/29207/2/license.txt21554873e56ad8ddc69c092699b98f95MD52ORIGINAL2019_MuriloCerqueiraMedeiros_tcc.pdf2019_MuriloCerqueiraMedeiros_tcc.pdfapplication/pdf3414732http://bdm.unb.br/xmlui/bitstream/10483/29207/1/2019_MuriloCerqueiraMedeiros_tcc.pdfc2f4d03c03a201170bebb506f5d4ab80MD5110483/292072021-11-17 15:45:13.711oai:bdm.unb.br:10483/29207w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLAphbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbmEgQmlibGlvdGVjYSBEaWdpdGFsIGRhIFByb2R1w6fDo28gCkRpc2NlbnRlIGRhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEuIFBvciBmYXZvciwgbGVpYSBhCmxpY2Vuw6dhIGF0ZW50YW1lbnRlLiBDYXNvIG5lY2Vzc2l0ZSBkZSBhbGd1bSBlc2NsYXJlY2ltZW50byBlbnRyZSBlbQpjb250YXRvIGF0cmF2w6lzIGRlOiBiZG1AYmNlLnVuYi5iciBvdSAzMTA3LTI2ODcuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQW8gYXNzaW5hciBlIGVudHJlZ2FyIGVzdGEgbGljZW7Dp2EsIG8vYSBTci4vU3JhLiAoYXV0b3Igb3UgZGV0ZW50b3IgZG9zCmRpcmVpdG9zIGRlIGF1dG9yKToKCmEpIENvbmNlZGUgw6AgVW5pdmVyc2lkYWRlIGRlIEJyYXPDrWxpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUKcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291CmRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0KZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUKZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYQp0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kKcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MKZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcwpkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEgb3MgZGlyZWl0b3MKcmVxdWVyaWRvcyBwb3IgZXN0YSBsaWNlbsOnYSwgZSBxdWUgZXNzZSBtYXRlcmlhbCBjdWpvcyBkaXJlaXRvcyBzw6NvIGRlCnRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIG91CmNvbnRlw7pkbyBkbyBkb2N1bWVudG8gZW50cmVndWUuCgpTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSDDqSBiYXNlYWRvIGVtIHRyYWJhbGhvIGZpbmFuY2lhZG8gb3UgYXBvaWFkbwpwb3Igb3V0cmEgaW5zdGl0dWnDp8OjbyBxdWUgbsOjbyBhIFVuaXZlcnNpZGFkZSBkZSBCcmFzw61saWEsIGRlY2xhcmEgcXVlCmN1bXByaXUgcXVhaXNxdWVyIG9icmlnYcOnw7VlcyBleGlnaWRhcyBwZWxvIHJlc3BlY3Rpdm8gY29udHJhdG8gb3UKYWNvcmRvLgoKQSBVbml2ZXJzaWRhZGUgZGUgQnJhc8OtbGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldSAocykgbm9tZSAocykKY29tbyBvIChzKSBhdXRvciAoZXMpIG91IGRldGVudG9yIChlcykgZG9zIGRpcmVpdG9zIGRvIGRvY3VtZW50bwplbnRyZWd1ZSwgZSBuw6NvIGZhcsOhIHF1YWxxdWVyIGFsdGVyYcOnw6NvLCBwYXJhIGFsw6ltIGRhcyBwZXJtaXRpZGFzIHBvcgplc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Monografiahttps://bdm.unb.br/PUBhttp://bdm.unb.br/oai/requestbdm@bce.unb.br||patricia@bce.unb.bropendoar:115712021-11-17T17:45:13Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB)false |
dc.title.pt_BR.fl_str_mv |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
title |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
spellingShingle |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro Medeiros, Murilo Cerqueira Mineração de texto Aprendizado de máquina |
title_short |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
title_full |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
title_fullStr |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
title_full_unstemmed |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
title_sort |
Metodologias para análise de sentimentos de tweets sobre o mercado financeiro |
author |
Medeiros, Murilo Cerqueira |
author_facet |
Medeiros, Murilo Cerqueira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Medeiros, Murilo Cerqueira |
dc.contributor.advisor1.fl_str_mv |
Borges, Vinicius Ruela Pereira |
contributor_str_mv |
Borges, Vinicius Ruela Pereira |
dc.subject.keyword.pt_BR.fl_str_mv |
Mineração de texto Aprendizado de máquina |
topic |
Mineração de texto Aprendizado de máquina |
description |
Trabalho de Conclusão de Curso (graduação)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2019. |
publishDate |
2019 |
dc.date.submitted.none.fl_str_mv |
2019-12-03 |
dc.date.accessioned.fl_str_mv |
2021-11-17T17:45:13Z |
dc.date.available.fl_str_mv |
2021-11-17T17:45:13Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MEDEIROS, Murilo Cerqueira. Metodologias para análise de sentimentos de tweets sobre o mercado financeiro. 2019. 72 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019. |
dc.identifier.uri.fl_str_mv |
https://bdm.unb.br/handle/10483/29207 |
identifier_str_mv |
MEDEIROS, Murilo Cerqueira. Metodologias para análise de sentimentos de tweets sobre o mercado financeiro. 2019. 72 f., il. Trabalho de conclusão de curso (Bacharelado em Engenharia da Computação)—Universidade de Brasília, Brasília, 2019. |
url |
https://bdm.unb.br/handle/10483/29207 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Monografias da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Biblioteca Digital de Monografias da UnB |
collection |
Biblioteca Digital de Monografias da UnB |
bitstream.url.fl_str_mv |
http://bdm.unb.br/xmlui/bitstream/10483/29207/2/license.txt http://bdm.unb.br/xmlui/bitstream/10483/29207/1/2019_MuriloCerqueiraMedeiros_tcc.pdf |
bitstream.checksum.fl_str_mv |
21554873e56ad8ddc69c092699b98f95 c2f4d03c03a201170bebb506f5d4ab80 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Monografias da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
bdm@bce.unb.br||patricia@bce.unb.br |
_version_ |
1813908060851142656 |