Análise e processamento de dados de redes sociais

Detalhes bibliográficos
Autor(a) principal: Cândido, Carolina Gaspar
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.21/12477
Resumo: Trabalho final de mestrado para obtenção do grau de Mestre em Engenharia Informática e de Computadores
id RCAP_542f36b01edf127aa5a14f55ba3d8e27
oai_identifier_str oai:repositorio.ipl.pt:10400.21/12477
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Análise e processamento de dados de redes sociaisAprendizagem automáticaMachine learningTwitterClassificaçãoClassificationAgrupamentoClusteringTrabalho final de mestrado para obtenção do grau de Mestre em Engenharia Informática e de ComputadoresNos últimos anos a utilização de redes sociais tem vindo a aumentar consideravelmente. A rede social Twitter destaca-se pela facilidade de comunicação livre entre os utilizadores e pela sua utilização por parte de figuras dos media e de estado de todo o mundo, o que faz com que seja utilizada como instrumento de comunicação sobre a atualidade de todo o mundo. Esta forte utilização constitui uma considerável quantidade de dados, que quando explorados representam informação sobre as opiniões dos utilizadores. Um exemplo desta exploração de dados são estudos de mercados que já são realizados atualmente com base na análise dos comentários de utilizadores em rede sociais sobre um determinado produto. Atualmente existem muitos estudos e ferramentas disponíveis para, utilizando os dados provenientes do Twitter realizar uma análise sentimental. Quer seja utilizando as hashtags e os emojis ou o próprio texto como indicador da polaridade do tweet. No entanto existe a necessidade da utilização destes dados provenientes do Twitter para a classificação de temas e não só pelo tom apreciativo ou negativo que o tweet transparece. Por classificação de temas tem-se por exemplo, aferir através da análise dos dados das redes sociais quanto ao populismo ou orientação política, podendo esta análise ser utilizada para adaptar uma campanha política. No entanto, não existe atualmente uma plataforma que realize os vários passos desta análise. Neste trabalho foi criada uma plataforma que disponibiliza uma análise de tweets. A plataforma tira partido da framework Apache Spark para as implementações dos algoritmos, assim como da sua capacidade de paralelizar tarefas. O worflow que é necessário para atingir a análise de tweets pretendida, consiste na obtenção de tweets, seguida pela filtragem do seu conteúdo não relevante e, paralelamente, é realizada a classificação e o agrupamento por comunidades tendo em conta a relação de influência entre utilizadores, estabelecida pelo mecanismo de retweet. Como algoritmos de classificação, a plataforma tem disponíveis: Naive Bayes, Random Forest e Neural Networks. Como algoritmos de agrupamento, a plataforma tem disponíveis: k-Means, Gaussian Mixture e Louvain. Como resultado do workflow, a plataforma torna disponível todos os tweets classificados, as comunidades de utilizadores existentes e apresenta análise estatística dos resultados. Foram realizadas avaliações experimentais com as quais foi possível observar que a melhor estratégia, dos algoritmos a utilizar, depende dos dados a analisar.Social media usage had a considerable increase in recent years. Twitter stands out for its ease of communication between users and for being used by the media and state figures around the world. This makes it a communication tool for spreading news around the world. This heavy use creates a considerable amount of data, which when exploited, represents information about the opinion of its users. An example of this exploitation is that nowadays, market studies are being conducted based on the analysis of user comments on social media about a given product. Currently, there exist many studies and tools available which can use data from Twitter to perform sentiment analysis. Whether using hashtags and emojis or using the text itself as an indicator of the polarity of the tweet. However, there is a need to use this data from Twitter to classify by the subject and not only by the tone the tweet transpires, appreciative, or negative. By classifying subjects, one can, for example, measure through the analysis of social media data regarding populism or political orientation. This analysis can be used to adapt a political campaign. However, currently, there isn't a platform that performs the various steps of this analysis. In this work a platform that provides an analysis of tweets is elaborated. The platform relies on the framework Apache Spark for its algorithms and its ability to parallelize work. The workflow that is needed to achieve the analysis consists of obtaining the tweets, followed by filtering non relevant information and then the tweets are, in parallel, classified and organized by communities according to the relationship of influence between users established by retweets. This platform provides some classification algorithms such as Naïve Bayes, Random Forest and Neural Networks. It also provides some clustering algorithms such as k-Means, Gaussian Mixture and Louvain. As a result of this workflow, the platform makes available all the tweets classified, the communities found, and also presents some statistics for the data obtained. The algorithms used in classification and in clustering are chosen by the user according to the context of study. Experimental evaluations were carried out with which it was possible to observe that the best strategy, in terms of the algorithms to use, depends on the data to be analyzed.Instituto Superior de Engenharia de LisboaVaz, Cátia Raquel JesusRCIPLCândido, Carolina Gaspar2020-12-15T19:49:40Z2020-09-282020-09-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.21/12477TID:202557685porCÂNDIDO, Carolina Gaspar - Análise e processamento de dados de redes sociais. Lisboa: Instituto Superior de Engenharia de Lisboa, 2020. Dissertação de mestrado.info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-08-03T10:05:28Zoai:repositorio.ipl.pt:10400.21/12477Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:20:33.854729Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Análise e processamento de dados de redes sociais
title Análise e processamento de dados de redes sociais
spellingShingle Análise e processamento de dados de redes sociais
Cândido, Carolina Gaspar
Aprendizagem automática
Machine learning
Twitter
Classificação
Classification
Agrupamento
Clustering
title_short Análise e processamento de dados de redes sociais
title_full Análise e processamento de dados de redes sociais
title_fullStr Análise e processamento de dados de redes sociais
title_full_unstemmed Análise e processamento de dados de redes sociais
title_sort Análise e processamento de dados de redes sociais
author Cândido, Carolina Gaspar
author_facet Cândido, Carolina Gaspar
author_role author
dc.contributor.none.fl_str_mv Vaz, Cátia Raquel Jesus
RCIPL
dc.contributor.author.fl_str_mv Cândido, Carolina Gaspar
dc.subject.por.fl_str_mv Aprendizagem automática
Machine learning
Twitter
Classificação
Classification
Agrupamento
Clustering
topic Aprendizagem automática
Machine learning
Twitter
Classificação
Classification
Agrupamento
Clustering
description Trabalho final de mestrado para obtenção do grau de Mestre em Engenharia Informática e de Computadores
publishDate 2020
dc.date.none.fl_str_mv 2020-12-15T19:49:40Z
2020-09-28
2020-09-28T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.21/12477
TID:202557685
url http://hdl.handle.net/10400.21/12477
identifier_str_mv TID:202557685
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv CÂNDIDO, Carolina Gaspar - Análise e processamento de dados de redes sociais. Lisboa: Instituto Superior de Engenharia de Lisboa, 2020. Dissertação de mestrado.
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
publisher.none.fl_str_mv Instituto Superior de Engenharia de Lisboa
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133474449260544