Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde

Araujo, Gabriela Denise

Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde

Detalhes bibliográficos
Autor(a) principal:	Araujo, Gabriela Denise
Data de Publicação:	2014
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da UNIFESP
Texto Completo:	http://repositorio.unifesp.br/handle/11600/41280
Resumo:	Objetivo: Construir um método de classificação de sentimento, aqui denominado Sentiment Descriptor Indexing (SDI) ou Indexador de Descritores Sentimentais, para ser aplicado em mensagens do Twitter em português brasileiro relacionadas a temas de saúde possibilitando oferecer uma análise de sentimento com caracterização de aspectos da popularidade e repercussão dos temas. Métodos: A primeira etapa considerou a construção do algoritmo SDI que se baseia na coocorrência de termos do Twitter com descritores do vocabulário ANEW-BR. Emoticons e tratamento de negação foram incorporados no SDI. Na segunda etapa foi realizada uma avaliação do desempenho do algoritmo SDI para mensagens sobre o tema “câncer” de um pe-ríodo de três semanas. As mensagens foram classificadas por voluntários como sa-úde ou não saúde, e positiva, negativa ou neutra e em paralelo pelo SDI. As classifi-cações foram pareadas gerando uma avaliação de desempenho. Também foram geradas análise de sentimento e nuvem de termos. Na terceira etapa foi realizado um experimento de análise de sentimento para os temas “câncer” e “diabetes” em um período de seis meses, com análises de repercussão e popularidade. Resulta-dos: As classificações humana e SDI concordaram na classificação majoritária posi-tiva. Os valores de precisão e revocação resultaram 0,68 e 0,67 respectivamente, gerando melhor desempenho com f0,5-measure 0,68. No experimento coletou-se um total de 25.230 mensagens sobre o tema "câncer" com classificação de sentimento positiva (71%). Pela nuvem de palavras foi possível observar que celebridades, insti-tutos, hospitais, campanhas de saúde e tipos de câncer são assuntos populares so-bre o tema. Para o tema "diabetes" 3.328 mensagens foram coletadas com classifi-cação de sentimento positiva (78%). Para este tema as palavras mais frequentes, indicadas na nuvem de palavras, estavam relacionadas a alimentos e doenças como obesidade e hipertensão. Conclusão: Os resultados obtidos na etapa de avaliação do classificador SDI mostrou que o SDI teve um bom desempenho na tarefa de clas-sificar mensagens do Twitter sobre saúde comparada a classificação realizada por humanos. Entretanto, o tema escolhido retornou mensagens difíceis de serem rotu-ladas até mesmo pelos humanos, gerando discordâncias nas classificações. As con-tribuições deste trabalho visam suprir a falta de métodos de análise de sentimentos para a língua portuguesa brasileira bem como incentivar sua aplicação na melhoria de outras atividades em processamento de linguagem natural.

Metadados do item

id	UFSP_a43bb0d09a71d5d5dc7629c3ec261155
oai_identifier_str	oai:repositorio.unifesp.br/:11600/41280
network_acronym_str	UFSP
network_name_str	Repositório Institucional da UNIFESP
repository_id_str	3465
spelling	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúdeSentiment analysis of Twitter’s messages in brazilian portuguese about health topics.Análise de SentimentoTwitterClassificaçãoCâncerDiabetesSaúdeSentiment AnalysisTwitterClassificationHealthCancerDiabetesObjetivo: Construir um método de classificação de sentimento, aqui denominado Sentiment Descriptor Indexing (SDI) ou Indexador de Descritores Sentimentais, para ser aplicado em mensagens do Twitter em português brasileiro relacionadas a temas de saúde possibilitando oferecer uma análise de sentimento com caracterização de aspectos da popularidade e repercussão dos temas. Métodos: A primeira etapa considerou a construção do algoritmo SDI que se baseia na coocorrência de termos do Twitter com descritores do vocabulário ANEW-BR. Emoticons e tratamento de negação foram incorporados no SDI. Na segunda etapa foi realizada uma avaliação do desempenho do algoritmo SDI para mensagens sobre o tema “câncer” de um pe-ríodo de três semanas. As mensagens foram classificadas por voluntários como sa-úde ou não saúde, e positiva, negativa ou neutra e em paralelo pelo SDI. As classifi-cações foram pareadas gerando uma avaliação de desempenho. Também foram geradas análise de sentimento e nuvem de termos. Na terceira etapa foi realizado um experimento de análise de sentimento para os temas “câncer” e “diabetes” em um período de seis meses, com análises de repercussão e popularidade. Resulta-dos: As classificações humana e SDI concordaram na classificação majoritária posi-tiva. Os valores de precisão e revocação resultaram 0,68 e 0,67 respectivamente, gerando melhor desempenho com f0,5-measure 0,68. No experimento coletou-se um total de 25.230 mensagens sobre o tema "câncer" com classificação de sentimento positiva (71%). Pela nuvem de palavras foi possível observar que celebridades, insti-tutos, hospitais, campanhas de saúde e tipos de câncer são assuntos populares so-bre o tema. Para o tema "diabetes" 3.328 mensagens foram coletadas com classifi-cação de sentimento positiva (78%). Para este tema as palavras mais frequentes, indicadas na nuvem de palavras, estavam relacionadas a alimentos e doenças como obesidade e hipertensão. Conclusão: Os resultados obtidos na etapa de avaliação do classificador SDI mostrou que o SDI teve um bom desempenho na tarefa de clas-sificar mensagens do Twitter sobre saúde comparada a classificação realizada por humanos. Entretanto, o tema escolhido retornou mensagens difíceis de serem rotu-ladas até mesmo pelos humanos, gerando discordâncias nas classificações. As con-tribuições deste trabalho visam suprir a falta de métodos de análise de sentimentos para a língua portuguesa brasileira bem como incentivar sua aplicação na melhoria de outras atividades em processamento de linguagem natural.Objective: Build a sentiment classification method, named Sentiment Descriptor In-dexing (SDI), to be applied in Twitter’s messages in brazilian portuguese related to health topics, providing sentiment analysis with characterization of aspects of the popularity and impact of issues. Methods: The first step regarded the SDI algorithm construction that it is based on the cooccurence of Twitter's terms with descriptors of ANEW-BR vocabulary. Emoticons and deny treatment were embedded in the SDI. In the second step, an evaluation was performed in the algorithm SDI for messages related the topic "cancer" collected in a period of three weeks. The messages were classified by volunteers in topic about health or not health, and positive, negative or neutral and in parallel by the SDI. The ratings were paired generating a performance evaluation, sentiment analysis and cloud of terms. In the third step an experiment of sentiment analysis was performed for the topics "cancer" and "diabetes" in a period of six months, with analysis of impact and popularity. Results: The human and SDI classifications agreed in positive majority classification. The values of precision and recall resulted 0.68 and 0.67 respectively, the best performance was in f0,5-measure 0,68. In experiment, it was collected a total of 25,230 messages on "cancer" and the sentiment classification of these messages was positive (71%). Through the cloud of words was possible to observe that celebrities, institutes, hospitals, health campaigns and types of cancers are popular subjects on the topic. For the topic "diabetes", 3,328 messages were collected and the sentimental classification was positive (78%). For this topic the most frequent words, given the cloud of words were related to food and diseases such as obesity and hypertension. Conclusions: The results obtained in the evaluation step showed that the SDI had a good performance in the task of classifying Twitter’s messages about health topics compared the classification performed by humans. However, the topic chosen brought messages difficult to be labeled even by humans, causing disagreements in the classifications among them. The contributions of this work aims to meet the lack of sentiment analysis methods for the brazilian portuguese language and encourage its application in improving oth-er activities in natural language processing.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)Universidade Federal de São Paulo (UNIFESP)Pisa, Ivan TorresUniversidade Federal de São Paulo (UNIFESP)Araujo, Gabriela Denise2017-09-20T14:18:49Z2017-09-20T14:18:49Z2014-07-31info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersionapplication/pdfARAUJO, Gabriela Denise. Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde. 2014. 84 f. Dissertação (Mestrado) – Escola Paulista de Medicina, Universidade Federal de São Paulo. São Paulo, 2014.Dissertação - Gabriela Denise de Araujo.pdfhttp://repositorio.unifesp.br/handle/11600/41280porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-05T19:27:35Zoai:repositorio.unifesp.br/:11600/41280Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-05T19:27:35Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde Sentiment analysis of Twitter’s messages in brazilian portuguese about health topics.
title	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde
spellingShingle	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde Araujo, Gabriela Denise Análise de Sentimento Twitter Classificação Câncer Diabetes Saúde Sentiment Analysis Twitter Classification Health Cancer Diabetes
title_short	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde
title_full	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde
title_fullStr	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde
title_full_unstemmed	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde
title_sort	Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde
author	Araujo, Gabriela Denise
author_facet	Araujo, Gabriela Denise
author_role	author
dc.contributor.none.fl_str_mv	Pisa, Ivan Torres Universidade Federal de São Paulo (UNIFESP)
dc.contributor.author.fl_str_mv	Araujo, Gabriela Denise
dc.subject.por.fl_str_mv	Análise de Sentimento Twitter Classificação Câncer Diabetes Saúde Sentiment Analysis Twitter Classification Health Cancer Diabetes
topic	Análise de Sentimento Twitter Classificação Câncer Diabetes Saúde Sentiment Analysis Twitter Classification Health Cancer Diabetes
description	Objetivo: Construir um método de classificação de sentimento, aqui denominado Sentiment Descriptor Indexing (SDI) ou Indexador de Descritores Sentimentais, para ser aplicado em mensagens do Twitter em português brasileiro relacionadas a temas de saúde possibilitando oferecer uma análise de sentimento com caracterização de aspectos da popularidade e repercussão dos temas. Métodos: A primeira etapa considerou a construção do algoritmo SDI que se baseia na coocorrência de termos do Twitter com descritores do vocabulário ANEW-BR. Emoticons e tratamento de negação foram incorporados no SDI. Na segunda etapa foi realizada uma avaliação do desempenho do algoritmo SDI para mensagens sobre o tema “câncer” de um pe-ríodo de três semanas. As mensagens foram classificadas por voluntários como sa-úde ou não saúde, e positiva, negativa ou neutra e em paralelo pelo SDI. As classifi-cações foram pareadas gerando uma avaliação de desempenho. Também foram geradas análise de sentimento e nuvem de termos. Na terceira etapa foi realizado um experimento de análise de sentimento para os temas “câncer” e “diabetes” em um período de seis meses, com análises de repercussão e popularidade. Resulta-dos: As classificações humana e SDI concordaram na classificação majoritária posi-tiva. Os valores de precisão e revocação resultaram 0,68 e 0,67 respectivamente, gerando melhor desempenho com f0,5-measure 0,68. No experimento coletou-se um total de 25.230 mensagens sobre o tema "câncer" com classificação de sentimento positiva (71%). Pela nuvem de palavras foi possível observar que celebridades, insti-tutos, hospitais, campanhas de saúde e tipos de câncer são assuntos populares so-bre o tema. Para o tema "diabetes" 3.328 mensagens foram coletadas com classifi-cação de sentimento positiva (78%). Para este tema as palavras mais frequentes, indicadas na nuvem de palavras, estavam relacionadas a alimentos e doenças como obesidade e hipertensão. Conclusão: Os resultados obtidos na etapa de avaliação do classificador SDI mostrou que o SDI teve um bom desempenho na tarefa de clas-sificar mensagens do Twitter sobre saúde comparada a classificação realizada por humanos. Entretanto, o tema escolhido retornou mensagens difíceis de serem rotu-ladas até mesmo pelos humanos, gerando discordâncias nas classificações. As con-tribuições deste trabalho visam suprir a falta de métodos de análise de sentimentos para a língua portuguesa brasileira bem como incentivar sua aplicação na melhoria de outras atividades em processamento de linguagem natural.
publishDate	2014
dc.date.none.fl_str_mv	2014-07-31 2017-09-20T14:18:49Z 2017-09-20T14:18:49Z
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	ARAUJO, Gabriela Denise. Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde. 2014. 84 f. Dissertação (Mestrado) – Escola Paulista de Medicina, Universidade Federal de São Paulo. São Paulo, 2014. Dissertação - Gabriela Denise de Araujo.pdf http://repositorio.unifesp.br/handle/11600/41280
identifier_str_mv	ARAUJO, Gabriela Denise. Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde. 2014. 84 f. Dissertação (Mestrado) – Escola Paulista de Medicina, Universidade Federal de São Paulo. São Paulo, 2014. Dissertação - Gabriela Denise de Araujo.pdf
url	http://repositorio.unifesp.br/handle/11600/41280
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Universidade Federal de São Paulo (UNIFESP)
publisher.none.fl_str_mv	Universidade Federal de São Paulo (UNIFESP)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP
instname_str	Universidade Federal de São Paulo (UNIFESP)
instacron_str	UNIFESP
institution	UNIFESP
reponame_str	Repositório Institucional da UNIFESP
collection	Repositório Institucional da UNIFESP
repository.name.fl_str_mv	Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv	biblioteca.csp@unifesp.br
_version_	1814268368457302016

Análise de sentimento de mensagens do Twitter em português brasileiro relacionadas a temas de saúde

Registros relacionados