Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets

Detalhes bibliográficos
Autor(a) principal: Cunha, Holisson Soares da
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: https://tede2.pucrs.br/tede2/handle/tede/10483
Resumo: Daily, millions of users use Twitter to share messages, providing a huge amount of opinionated content on various topics of interest to society. In addition to the volume of messages, Twitter is characterized as a social network in data streaming, that generates new messages in real-time at high speed and with a nonstationary distribution. Because of these characteristics, recent research in Sentiment Analysis has explored Twitter as an online classification task, considering constraints of time, memory, and the need to adapt to changes that may occur in the data distribution. Called concept drift, this phenomenon occurs due to potential changes in the distribution that generates new data within the stream, directly affecting the algorithm’s ability to generalize. Furthermore, the Sentiment Analysis introduces a special kind of challenge, called feature drift. In this case, new relevant attributes are found along the stream and known attributes may become irrelevant, which suggests the use of dynamic feature space. Based on these challenges, this work proposes SENTIMENTSTREAM, a dynamic ensemble classifier, which incrementally processes and analyses new instances along the stream. Specialized to process Twitter data, SENTIMENTSTREAM is composed of two main components: (i) A concept drift detector, able to detect and react efficiently to abrupt changes in the data distribution, and (ii) a feature drift detector, which uses an automatic strategy to monitor and identify potential changes in the attributes space. Experimentation with real data of Twitter indicates that Twitter SENTIMENTSTREAM presents effective results, being effective for tweets classification and treatment of potential changes in the data distribution.
id P_RS_1df397272856fadbf7b47b9d67c017dc
oai_identifier_str oai:tede2.pucrs.br:tede/10483
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Ruiz, Duncan Dubugras Alcobahttp://lattes.cnpq.br/8250832800932125http://lattes.cnpq.br/5628596240762051Cunha, Holisson Soares da2022-09-22T14:51:40Z2016-04-30https://tede2.pucrs.br/tede2/handle/tede/10483Daily, millions of users use Twitter to share messages, providing a huge amount of opinionated content on various topics of interest to society. In addition to the volume of messages, Twitter is characterized as a social network in data streaming, that generates new messages in real-time at high speed and with a nonstationary distribution. Because of these characteristics, recent research in Sentiment Analysis has explored Twitter as an online classification task, considering constraints of time, memory, and the need to adapt to changes that may occur in the data distribution. Called concept drift, this phenomenon occurs due to potential changes in the distribution that generates new data within the stream, directly affecting the algorithm’s ability to generalize. Furthermore, the Sentiment Analysis introduces a special kind of challenge, called feature drift. In this case, new relevant attributes are found along the stream and known attributes may become irrelevant, which suggests the use of dynamic feature space. Based on these challenges, this work proposes SENTIMENTSTREAM, a dynamic ensemble classifier, which incrementally processes and analyses new instances along the stream. Specialized to process Twitter data, SENTIMENTSTREAM is composed of two main components: (i) A concept drift detector, able to detect and react efficiently to abrupt changes in the data distribution, and (ii) a feature drift detector, which uses an automatic strategy to monitor and identify potential changes in the attributes space. Experimentation with real data of Twitter indicates that Twitter SENTIMENTSTREAM presents effective results, being effective for tweets classification and treatment of potential changes in the data distribution.Diariamente, milhões de usuários utilizam o Twitter para compartilhar mensagens, fornecendo um enorme volume de conteúdo opinativo sobre diversos tópicos de interesse da sociedade. Além da quantidade de mensagens, o Twitter caracteriza-se como uma rede social de Fluxo Contínuo de Dados, que gera novas mensagens em tempo real, em alta velocidade e com distribuição não estacionária. Devido a essas características, pesquisas recentes em Análise de Sentimento têm explorado o Twitter em tarefas de classificação online, considerando restrições de tempo, memória e a necessidade de adaptação às mudanças que podem ocorrer na distribuição dos dados. Chamado de Concept Drift, esse fenômeno ocorre em decorrência de potenciais mudanças na distribuição que gera novos dados dentro do fluxo, afetando diretamente a capacidade de generalização do algoritmo. Além disso, a Análise de Sentimento introduz um tipo especial de mudança, chamada de Feature Drift. Trata-se de um problema onde novos atributos relevantes são encontrados ao longo do fluxo e atributos conhecidos se tornam irrelevantes, o que sugere o uso de um espaço dimensional dinâmico. Com base nesses desafios, neste trabalho é proposto SENTIMENTSTREAM, um comitê de classificadores dinâmico, baseado em lotes de dados, e que incrementalmente processa e avalia novas instâncias ao longo do fluxo. Especializado na classificação de tweets, SENTIMENTSTREAM é composto por dois componentes principais: (i) Um detector de concept drift, capaz de detectar e reagir de forma eficiente a mudanças abruptas na distribuição dos dados e, (ii) um detector de feature drift, que utiliza uma estratégia automática para monitorar e identificar potenciais mudanças no espaço de atributos. Experimentos com dados reais do Twitter indicam que SENTIMENTSTREAM apresenta resultados efetivos, sendo eficaz no processo de classificação de tweets e no tratamento de mudanças abruptas na distribuição dos dados.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2022-09-13T14:37:06Z No. of bitstreams: 1 HOLISSON_SOARES_DA_CUNHA_DIS.pdf: 3077414 bytes, checksum: 3be370fa6634c67d0528f840a9d423fa (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2022-09-22T14:43:54Z (GMT) No. of bitstreams: 1 HOLISSON_SOARES_DA_CUNHA_DIS.pdf: 3077414 bytes, checksum: 3be370fa6634c67d0528f840a9d423fa (MD5)Made available in DSpace on 2022-09-22T14:51:40Z (GMT). No. of bitstreams: 1 HOLISSON_SOARES_DA_CUNHA_DIS.pdf: 3077414 bytes, checksum: 3be370fa6634c67d0528f840a9d423fa (MD5) Previous issue date: 2016-04-30Fundação de Amparo à Pesquisa do Estado do Rio Grande do Sul (FAPERGS)application/pdfhttps://tede2.pucrs.br/tede2/retrieve/185535/HOLISSON_SOARES_DA_CUNHA_DIS.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaAnálise de SentimentoMineração em Fluxo Contínuo de DadosAprendizado de MáquinaEspaço Dinâmico de AtributosComitê de ClassificadoresSentiment AnalysisData Stream MiningMachine LearningDynamic Feature SpaceConcept DriftFeature DriftEnsemble ClassifiersCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOSentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação-4570527706994352458500500600-862078257083325301-1630786350484456662info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILHOLISSON_SOARES_DA_CUNHA_DIS.pdf.jpgHOLISSON_SOARES_DA_CUNHA_DIS.pdf.jpgimage/jpeg5564https://tede2.pucrs.br/tede2/bitstream/tede/10483/4/HOLISSON_SOARES_DA_CUNHA_DIS.pdf.jpg0b4aa8ae05f6add613a57c3001606df8MD54TEXTHOLISSON_SOARES_DA_CUNHA_DIS.pdf.txtHOLISSON_SOARES_DA_CUNHA_DIS.pdf.txttext/plain173053https://tede2.pucrs.br/tede2/bitstream/tede/10483/3/HOLISSON_SOARES_DA_CUNHA_DIS.pdf.txt2d6a0f948c1b4571c3b1605e47a61b49MD53ORIGINALHOLISSON_SOARES_DA_CUNHA_DIS.pdfHOLISSON_SOARES_DA_CUNHA_DIS.pdfapplication/pdf3077414https://tede2.pucrs.br/tede2/bitstream/tede/10483/2/HOLISSON_SOARES_DA_CUNHA_DIS.pdf3be370fa6634c67d0528f840a9d423faMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590https://tede2.pucrs.br/tede2/bitstream/tede/10483/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/104832022-09-22 12:00:29.102oai:tede2.pucrs.br:tede/10483QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2022-09-22T15:00:29Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
title Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
spellingShingle Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
Cunha, Holisson Soares da
Análise de Sentimento
Mineração em Fluxo Contínuo de Dados
Aprendizado de Máquina
Espaço Dinâmico de Atributos
Comitê de Classificadores
Sentiment Analysis
Data Stream Mining
Machine Learning
Dynamic Feature Space
Concept Drift
Feature Drift
Ensemble Classifiers
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
title_full Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
title_fullStr Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
title_full_unstemmed Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
title_sort Sentimentstream : um comitê de classificadores adaptativo para análise de sentimento de tweets
author Cunha, Holisson Soares da
author_facet Cunha, Holisson Soares da
author_role author
dc.contributor.advisor1.fl_str_mv Ruiz, Duncan Dubugras Alcoba
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/8250832800932125
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/5628596240762051
dc.contributor.author.fl_str_mv Cunha, Holisson Soares da
contributor_str_mv Ruiz, Duncan Dubugras Alcoba
dc.subject.por.fl_str_mv Análise de Sentimento
Mineração em Fluxo Contínuo de Dados
Aprendizado de Máquina
Espaço Dinâmico de Atributos
Comitê de Classificadores
topic Análise de Sentimento
Mineração em Fluxo Contínuo de Dados
Aprendizado de Máquina
Espaço Dinâmico de Atributos
Comitê de Classificadores
Sentiment Analysis
Data Stream Mining
Machine Learning
Dynamic Feature Space
Concept Drift
Feature Drift
Ensemble Classifiers
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Sentiment Analysis
Data Stream Mining
Machine Learning
Dynamic Feature Space
Concept Drift
Feature Drift
Ensemble Classifiers
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Daily, millions of users use Twitter to share messages, providing a huge amount of opinionated content on various topics of interest to society. In addition to the volume of messages, Twitter is characterized as a social network in data streaming, that generates new messages in real-time at high speed and with a nonstationary distribution. Because of these characteristics, recent research in Sentiment Analysis has explored Twitter as an online classification task, considering constraints of time, memory, and the need to adapt to changes that may occur in the data distribution. Called concept drift, this phenomenon occurs due to potential changes in the distribution that generates new data within the stream, directly affecting the algorithm’s ability to generalize. Furthermore, the Sentiment Analysis introduces a special kind of challenge, called feature drift. In this case, new relevant attributes are found along the stream and known attributes may become irrelevant, which suggests the use of dynamic feature space. Based on these challenges, this work proposes SENTIMENTSTREAM, a dynamic ensemble classifier, which incrementally processes and analyses new instances along the stream. Specialized to process Twitter data, SENTIMENTSTREAM is composed of two main components: (i) A concept drift detector, able to detect and react efficiently to abrupt changes in the data distribution, and (ii) a feature drift detector, which uses an automatic strategy to monitor and identify potential changes in the attributes space. Experimentation with real data of Twitter indicates that Twitter SENTIMENTSTREAM presents effective results, being effective for tweets classification and treatment of potential changes in the data distribution.
publishDate 2016
dc.date.issued.fl_str_mv 2016-04-30
dc.date.accessioned.fl_str_mv 2022-09-22T14:51:40Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://tede2.pucrs.br/tede2/handle/tede/10483
url https://tede2.pucrs.br/tede2/handle/tede/10483
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv -4570527706994352458
dc.relation.confidence.fl_str_mv 500
500
600
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.relation.sponsorship.fl_str_mv -1630786350484456662
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv https://tede2.pucrs.br/tede2/bitstream/tede/10483/4/HOLISSON_SOARES_DA_CUNHA_DIS.pdf.jpg
https://tede2.pucrs.br/tede2/bitstream/tede/10483/3/HOLISSON_SOARES_DA_CUNHA_DIS.pdf.txt
https://tede2.pucrs.br/tede2/bitstream/tede/10483/2/HOLISSON_SOARES_DA_CUNHA_DIS.pdf
https://tede2.pucrs.br/tede2/bitstream/tede/10483/1/license.txt
bitstream.checksum.fl_str_mv 0b4aa8ae05f6add613a57c3001606df8
2d6a0f948c1b4571c3b1605e47a61b49
3be370fa6634c67d0528f840a9d423fa
220e11f2d3ba5354f917c7035aadef24
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765357982908416