Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/28455 |
Resumo: | Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff. |
id |
UFF-2_f9c3bbddf2ac9709d70b31c96872152b |
---|---|
oai_identifier_str |
oai:app.uff.br:1/28455 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuáriosAprendizado de máquinaMineração de textoClassificação de dadosTwitterTwitter (Site de relacionamentos)Mineração de textoModelo estatísticoEste projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.52 f.Kubrusly, Jessica QuintanilhaKubrusly, Jessica QuintanilhaCosta, Patrícia Lusié Velozo daErbisti, Rafael SantosMarques, Thamires Louzada2023-04-04T19:44:13Z2023-04-04T19:44:13Z2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfMARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/28455CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-04-04T19:44:17Zoai:app.uff.br:1/28455Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-04-04T19:44:17Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
title |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
spellingShingle |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários Marques, Thamires Louzada Aprendizado de máquina Mineração de texto Classificação de dados Twitter (Site de relacionamentos) Mineração de texto Modelo estatístico |
title_short |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
title_full |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
title_fullStr |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
title_full_unstemmed |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
title_sort |
Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários |
author |
Marques, Thamires Louzada |
author_facet |
Marques, Thamires Louzada |
author_role |
author |
dc.contributor.none.fl_str_mv |
Kubrusly, Jessica Quintanilha Kubrusly, Jessica Quintanilha Costa, Patrícia Lusié Velozo da Erbisti, Rafael Santos |
dc.contributor.author.fl_str_mv |
Marques, Thamires Louzada |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Mineração de texto Classificação de dados Twitter (Site de relacionamentos) Mineração de texto Modelo estatístico |
topic |
Aprendizado de máquina Mineração de texto Classificação de dados Twitter (Site de relacionamentos) Mineração de texto Modelo estatístico |
description |
Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022 2023-04-04T19:44:13Z 2023-04-04T19:44:13Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022. http://app.uff.br/riuff/handle/1/28455 |
identifier_str_mv |
MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022. |
url |
http://app.uff.br/riuff/handle/1/28455 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1819053613189693440 |