Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários

Detalhes bibliográficos
Autor(a) principal: Marques, Thamires Louzada
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/28455
Resumo: Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.
id UFF-2_f9c3bbddf2ac9709d70b31c96872152b
oai_identifier_str oai:app.uff.br:1/28455
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuáriosAprendizado de máquinaMineração de textoClassificação de dadosTwitterTwitter (Site de relacionamentos)Mineração de textoModelo estatísticoEste projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.52 f.Kubrusly, Jessica QuintanilhaKubrusly, Jessica QuintanilhaCosta, Patrícia Lusié Velozo daErbisti, Rafael SantosMarques, Thamires Louzada2023-04-04T19:44:13Z2023-04-04T19:44:13Z2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfMARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/28455CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-04-04T19:44:17Zoai:app.uff.br:1/28455Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-04-04T19:44:17Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
spellingShingle Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
Marques, Thamires Louzada
Aprendizado de máquina
Mineração de texto
Classificação de dados
Twitter
Twitter (Site de relacionamentos)
Mineração de texto
Modelo estatístico
title_short Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_full Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_fullStr Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_full_unstemmed Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_sort Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
author Marques, Thamires Louzada
author_facet Marques, Thamires Louzada
author_role author
dc.contributor.none.fl_str_mv Kubrusly, Jessica Quintanilha
Kubrusly, Jessica Quintanilha
Costa, Patrícia Lusié Velozo da
Erbisti, Rafael Santos
dc.contributor.author.fl_str_mv Marques, Thamires Louzada
dc.subject.por.fl_str_mv Aprendizado de máquina
Mineração de texto
Classificação de dados
Twitter
Twitter (Site de relacionamentos)
Mineração de texto
Modelo estatístico
topic Aprendizado de máquina
Mineração de texto
Classificação de dados
Twitter
Twitter (Site de relacionamentos)
Mineração de texto
Modelo estatístico
description Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.
publishDate 2022
dc.date.none.fl_str_mv 2022
2023-04-04T19:44:13Z
2023-04-04T19:44:13Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.
http://app.uff.br/riuff/handle/1/28455
identifier_str_mv MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.
url http://app.uff.br/riuff/handle/1/28455
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1819053613189693440