Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)

Detalhes bibliográficos
Autor(a) principal: Queiroz, Maria Eduarda do Prado e
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/217538
Resumo: O Latent Dirichlet Allocation (LDA) é um modelo generativo para grupos de dados discretos como corpus de texto. Modelos generativos são aqueles que aleatoriamente geram os dados a partir das variáveis latentes. Nesse estudo vamos analisar o perfil do Twitter de pré-candidatos a presidência do Brasil no ano de 2021, usando técnicas de mineração de texto como, frequência de termos através de nuvens de palavras, análise de sentimentos, análise de agrupamento e análise da frequência inversa do termo (TF-IDF), além da aplicação do algoritmo LDA para o grupo de perfis. Para a realização das análises foram colhidos oitenta mil tweets de cada pré-candidato no período de 08/09/2021 a 27/10/2021, os dados foram tratados eliminando qualquer caracter que fosse irrelevante para a análise. Os resultados indicaram os termos mais frequentes e relevantes para cada perfil e com a aplicação do algoritmo constatamos que existe um grande número de termos que compõem cada assunto e qual pré-candidato tem a maior probabilidade de ser citado em determinado assunto.
id UNSP_d10c93458ff77d085f80fa9e34ae6862
oai_identifier_str oai:repositorio.unesp.br:11449/217538
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)An analysis of tweets from pre-candidates for the presidency of the Brazil: application of the Latent Dirichlet Allocation algorithm (LDA)Mineração de textoLatent Dirichilet AllocationModelos de tópicosTF-IDFAnálise de sentimentosText miningLatent Dirichlet AllocationTopic modelsSentiment analysisO Latent Dirichlet Allocation (LDA) é um modelo generativo para grupos de dados discretos como corpus de texto. Modelos generativos são aqueles que aleatoriamente geram os dados a partir das variáveis latentes. Nesse estudo vamos analisar o perfil do Twitter de pré-candidatos a presidência do Brasil no ano de 2021, usando técnicas de mineração de texto como, frequência de termos através de nuvens de palavras, análise de sentimentos, análise de agrupamento e análise da frequência inversa do termo (TF-IDF), além da aplicação do algoritmo LDA para o grupo de perfis. Para a realização das análises foram colhidos oitenta mil tweets de cada pré-candidato no período de 08/09/2021 a 27/10/2021, os dados foram tratados eliminando qualquer caracter que fosse irrelevante para a análise. Os resultados indicaram os termos mais frequentes e relevantes para cada perfil e com a aplicação do algoritmo constatamos que existe um grande número de termos que compõem cada assunto e qual pré-candidato tem a maior probabilidade de ser citado em determinado assunto.Latent Dirichlet Allocation (LDA) is a generative model for discrete data groups as a text corpus. Generative models are those that randomly generate data from latent variables. In this study we will analyze the Twitter profile of pre-candidates for the presidency of Brazil in the year 2021, using text mining techniques such as term frequency through word clouds, sentiment analysis, cluster analysis and inverse frequency analysis. of the term (TF-IDF), in addition to the application of the LDA algorithm for the profile group. In order to carry out the analysis, eighty thousand tweets were collected from each pre-candidate in the period from 09/08/2021 to 10/27/2021, the data were processed by eliminating any character that was irrelevant to the analysis. The results indicated the most frequent and relevant terms for each profile and with the application of the algorithm we found that there is a large number of terms that make up each subject and which pre-candidate is most likely to be cited in a given subject.Não recebi financiamentoUniversidade Estadual Paulista (Unesp)Schlünzen Junior, Klaus [UNESP]Universidade Estadual Paulista (Unesp)Queiroz, Maria Eduarda do Prado e2022-03-31T13:02:13Z2022-03-31T13:02:13Z2022-03-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfhttp://hdl.handle.net/11449/217538porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-12-15T06:20:47Zoai:repositorio.unesp.br:11449/217538Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462023-12-15T06:20:47Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
An analysis of tweets from pre-candidates for the presidency of the Brazil: application of the Latent Dirichlet Allocation algorithm (LDA)
title Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
spellingShingle Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
Queiroz, Maria Eduarda do Prado e
Mineração de texto
Latent Dirichilet Allocation
Modelos de tópicos
TF-IDF
Análise de sentimentos
Text mining
Latent Dirichlet Allocation
Topic models
Sentiment analysis
title_short Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
title_full Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
title_fullStr Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
title_full_unstemmed Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
title_sort Uma análise dos tweets de pré-candidatos a presidência do Brasil: aplicação do algoritmo de Latent Dirichlet Allocation (LDA)
author Queiroz, Maria Eduarda do Prado e
author_facet Queiroz, Maria Eduarda do Prado e
author_role author
dc.contributor.none.fl_str_mv Schlünzen Junior, Klaus [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Queiroz, Maria Eduarda do Prado e
dc.subject.por.fl_str_mv Mineração de texto
Latent Dirichilet Allocation
Modelos de tópicos
TF-IDF
Análise de sentimentos
Text mining
Latent Dirichlet Allocation
Topic models
Sentiment analysis
topic Mineração de texto
Latent Dirichilet Allocation
Modelos de tópicos
TF-IDF
Análise de sentimentos
Text mining
Latent Dirichlet Allocation
Topic models
Sentiment analysis
description O Latent Dirichlet Allocation (LDA) é um modelo generativo para grupos de dados discretos como corpus de texto. Modelos generativos são aqueles que aleatoriamente geram os dados a partir das variáveis latentes. Nesse estudo vamos analisar o perfil do Twitter de pré-candidatos a presidência do Brasil no ano de 2021, usando técnicas de mineração de texto como, frequência de termos através de nuvens de palavras, análise de sentimentos, análise de agrupamento e análise da frequência inversa do termo (TF-IDF), além da aplicação do algoritmo LDA para o grupo de perfis. Para a realização das análises foram colhidos oitenta mil tweets de cada pré-candidato no período de 08/09/2021 a 27/10/2021, os dados foram tratados eliminando qualquer caracter que fosse irrelevante para a análise. Os resultados indicaram os termos mais frequentes e relevantes para cada perfil e com a aplicação do algoritmo constatamos que existe um grande número de termos que compõem cada assunto e qual pré-candidato tem a maior probabilidade de ser citado em determinado assunto.
publishDate 2022
dc.date.none.fl_str_mv 2022-03-31T13:02:13Z
2022-03-31T13:02:13Z
2022-03-11
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/217538
url http://hdl.handle.net/11449/217538
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1799965298379456512