Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários

Marques, Thamires Louzada

Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários

Detalhes bibliográficos
Autor(a) principal:	Marques, Thamires Louzada
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo:	http://app.uff.br/riuff/handle/1/28455
Resumo:	Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.

Metadados do item

id	UFF-2_f9c3bbddf2ac9709d70b31c96872152b
oai_identifier_str	oai:app.uff.br:1/28455
network_acronym_str	UFF-2
network_name_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str	2120
spelling	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuáriosAprendizado de máquinaMineração de textoClassificação de dadosTwitterTwitter (Site de relacionamentos)Mineração de textoModelo estatísticoEste projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.52 f.Kubrusly, Jessica QuintanilhaKubrusly, Jessica QuintanilhaCosta, Patrícia Lusié Velozo daErbisti, Rafael SantosMarques, Thamires Louzada2023-04-04T19:44:13Z2023-04-04T19:44:13Z2022info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfMARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/28455CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-04-04T19:44:17Zoai:app.uff.br:1/28455Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-04-04T19:44:17Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
spellingShingle	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários Marques, Thamires Louzada Aprendizado de máquina Mineração de texto Classificação de dados Twitter Twitter (Site de relacionamentos) Mineração de texto Modelo estatístico
title_short	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_full	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_fullStr	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_full_unstemmed	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
title_sort	Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários
author	Marques, Thamires Louzada
author_facet	Marques, Thamires Louzada
author_role	author
dc.contributor.none.fl_str_mv	Kubrusly, Jessica Quintanilha Kubrusly, Jessica Quintanilha Costa, Patrícia Lusié Velozo da Erbisti, Rafael Santos
dc.contributor.author.fl_str_mv	Marques, Thamires Louzada
dc.subject.por.fl_str_mv	Aprendizado de máquina Mineração de texto Classificação de dados Twitter Twitter (Site de relacionamentos) Mineração de texto Modelo estatístico
topic	Aprendizado de máquina Mineração de texto Classificação de dados Twitter Twitter (Site de relacionamentos) Mineração de texto Modelo estatístico
description	Este projeto possui como finalidade realizar a coleta de um banco de dados supervisionado do Twitter e utilizar nele técnicas de mineração de textos, pré-processamento e aprendizado de máquina com algoritmos de classificação. O banco textual foi coletado e então tratado e transformado em uma matriz termo-documento, com a utilização de nuvens de palavras e análises de sentimentos para a parte exploratória. Foram utilizados quatro métodos de classificação: Árvore de Decisão, Floresta Aleatória, Gradient Boosting Machine e Extreme Gradient Boosting (XGBOOST). Esses métodos foram treinados em dois conjuntos de dados, com e sem balanceamento de classes. Nos resultados, foi possível observar que não houve grande diferença nas previsões dos modelos treinados nos dados balanceados e desbalanceados, o que contrariou o esperado de que a performance dos classificadores em dados balanceados traria ganhos expressivos na qualidade dos ajustes. Os resultados da especificidade foram baixos para todos os modelos estimados, e ao observar as matrizes de confusão, foi noticiado que havia uma grande quantidade de casos positivos sendo classificados como negativos, o que pode ser a motivação desses valores baixos. Os métodos de classificação que obtiveram melhores métricas médias foram os de boosting, com acurácia de 64,56%, sensibilidade de 97,25% e especificidade de 14,56%. Todos os conjuntos de dados e códigos desenvolvidos no R estão disponíveis no GitHub do projeto, criado pela autora https://github.com/thamirubs/tcc-uff.
publishDate	2022
dc.date.none.fl_str_mv	2022 2023-04-04T19:44:13Z 2023-04-04T19:44:13Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022. http://app.uff.br/riuff/handle/1/28455
identifier_str_mv	MARQUES, Thamires Louzada. Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários. 2022. 52 f. Trabalho de Conclusão de Curso (Graduação de Estatística) - Instituto de Matemática e Estatística, Universidade Federal Fluminense, Niterói, 2022.
url	http://app.uff.br/riuff/handle/1/28455
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	CC-BY-SA info:eu-repo/semantics/openAccess
rights_invalid_str_mv	CC-BY-SA
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF
instname_str	Universidade Federal Fluminense (UFF)
instacron_str	UFF
institution	UFF
reponame_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv	riuff@id.uff.br
_version_	1802135297227489280

Mineração de textos no Twitter: aprendizado de máquina para classificação da opinião política dos usuários

Registros relacionados