Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual

Grzeça, Marcos Augusto

Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual

Detalhes bibliográficos
Autor(a) principal:	Grzeça, Marcos Augusto
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/252738
Resumo:	O consumo excessivo de álcool é responsável por três milhões de mortes anualmente e continua crescendo em todo o mundo, tornando-se um importante problema de saúde pública. As redes sociais provêm informações para monitorar e entender os problemas de saúde pública, inclusive o abuso de álcool. As informações extraídas das redes sociais podem auxiliar os gestores públicos a reduzir o uso nocivo do álcool, porém é necessário investir em métodos para extrair e identificar automaticamente o consumo de álcool a partir das redes sociais. Este trabalho aborda a classificação automática de textos bêbados a partir do Twitter, que consiste na classificação de tweets em {bêbado, sóbrio} de acordo com o seu conteúdo. Métodos tradicionais de processamento de linguagem natural não apresentam bom desempenho na identificação de tweets bêbados (ou seja, postados sob a influência de álcool), pois os tweets são curtos, esparsos e escritos com vocabulário específico da Internet. Para superar esses desafios e classificar os tweets, são propostos dois métodos que exploram estratégias distintas de enriquecimento contextual: Drunk2Symbol e Drunk2Vec. Drunk2Symbol expande o vocabulário e fornece contexto aos tweets explorando o enriquecimento contextual externo (Web Semântica). Drunk2Symbol também extrai features que caracterizam o abuso de álcool. Por outro lado, Drunk2Vec utiliza a semântica distribucional para identificar palavras similares e para lidar com as idiossincrasias da linguagem empregada em tweets bêbados. Para equilibrar as melhorias dos dois métodos, foi utilizado um conjunto de classificadores, denominado Drunk2Ensemble. Este trabalho disponibiliza duas bases de dados públicas relacionadas ao consumo de álcool e uma análise exploratória que ilustra a riqueza e a aplicabilidade das informações extraídas a partir das redes sociais. Para avaliar o desempenho dos métodos, foi definido um protocolo experimental abrangente, envolvendo três classificadores e cinco bases de dados que abordam diferentes comportamentos relacionados ao consumo de álcool no Twitter. Os resultados demonstram alto desempenho, com a medida F1 superior a 88,8 pontos percentuais em todas as bases de dados, superando o baseline com melhorias estatisticamente significativas. Os métodos propostos podem identificar tweets bêbados e fornecer informações importantes que ajudam a monitorar e entender os fatores relacionados ao consumo excessivo de álcool.

Metadados do item

id	URGS_78749e9e3c03ff8aad94629d031fbdde
oai_identifier_str	oai:www.lume.ufrgs.br:10183/252738
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Grzeça, Marcos AugustoGalante, Renata de Matos2022-12-15T04:50:38Z2020http://hdl.handle.net/10183/252738001114284O consumo excessivo de álcool é responsável por três milhões de mortes anualmente e continua crescendo em todo o mundo, tornando-se um importante problema de saúde pública. As redes sociais provêm informações para monitorar e entender os problemas de saúde pública, inclusive o abuso de álcool. As informações extraídas das redes sociais podem auxiliar os gestores públicos a reduzir o uso nocivo do álcool, porém é necessário investir em métodos para extrair e identificar automaticamente o consumo de álcool a partir das redes sociais. Este trabalho aborda a classificação automática de textos bêbados a partir do Twitter, que consiste na classificação de tweets em {bêbado, sóbrio} de acordo com o seu conteúdo. Métodos tradicionais de processamento de linguagem natural não apresentam bom desempenho na identificação de tweets bêbados (ou seja, postados sob a influência de álcool), pois os tweets são curtos, esparsos e escritos com vocabulário específico da Internet. Para superar esses desafios e classificar os tweets, são propostos dois métodos que exploram estratégias distintas de enriquecimento contextual: Drunk2Symbol e Drunk2Vec. Drunk2Symbol expande o vocabulário e fornece contexto aos tweets explorando o enriquecimento contextual externo (Web Semântica). Drunk2Symbol também extrai features que caracterizam o abuso de álcool. Por outro lado, Drunk2Vec utiliza a semântica distribucional para identificar palavras similares e para lidar com as idiossincrasias da linguagem empregada em tweets bêbados. Para equilibrar as melhorias dos dois métodos, foi utilizado um conjunto de classificadores, denominado Drunk2Ensemble. Este trabalho disponibiliza duas bases de dados públicas relacionadas ao consumo de álcool e uma análise exploratória que ilustra a riqueza e a aplicabilidade das informações extraídas a partir das redes sociais. Para avaliar o desempenho dos métodos, foi definido um protocolo experimental abrangente, envolvendo três classificadores e cinco bases de dados que abordam diferentes comportamentos relacionados ao consumo de álcool no Twitter. Os resultados demonstram alto desempenho, com a medida F1 superior a 88,8 pontos percentuais em todas as bases de dados, superando o baseline com melhorias estatisticamente significativas. Os métodos propostos podem identificar tweets bêbados e fornecer informações importantes que ajudam a monitorar e entender os fatores relacionados ao consumo excessivo de álcool.Excessive alcohol consumption causes about 3 million deaths annually and continues to grow worldwide, becoming a major public health problem. Social networks provide information to monitor and understand public health issues, including alcohol abuse. The information extracted from social network can help public managers to reduce harmful alcohol use, but it is necessary to invest in methods to automatically extract and identify alcohol consumption from social networks. This work deals with the automatic classification of drunk texting from Twitter, which consists of the classification of tweets in {drunk, sober} according to their content. Traditional methods of natural language processing do not perform well in identifying drunk tweets (i.e., posted under the influence of alcohol) because tweets are short, sparse, and written with Internet-specific vocabulary. To overcome these challenges and classify tweets, two methods that explore distinct contextual enrichment strategies are proposed: Drunk2Symbol and Drunk2Vec. Drunk2Symbol expands the vocabulary and provides context for tweets by exploring external contextual enrichment (SemanticWeb). Drunk2Symbol also extracts features that characterize drunk behavior. On the other hand, Drunk2Vec uses distributional semantics to identify similar words and to deal with the idiosyncrasies of the language used in drunk tweets. An ensemble, namely Drunk2Ensemble, was used to combine the improvements of both methods. This work provides two public datasets related to alcohol consumption and an exploratory analysis that illustrate the richness and application of information extracted from social networks. To evaluate the performance of methods, a broad experimental protocol was defined, involving three classifiers and five datasets addressing different drunk texting behaviors related to alcohol consumption on Twitter. The results show high performance, with the F1 measure higher than 88.8 percentage points in all datasets, outperforming the baseline with statistically significant improvements. The proposed methods can identify drunk tweets and provide relevant information that helps to monitor and understand factors related to excessive alcohol consumption.application/pdfporBanco de dadosDrunk tweets classificationContextual enrichmentSemantic webWord embeddingsNatural language processingDrunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextualDrunk2Symbol and Drunk2Vec : methods to identify drunk texting exploring contextual enrichmentinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2020mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001114284.pdf.txt001114284.pdf.txtExtracted Texttext/plain182196http://www.lume.ufrgs.br/bitstream/10183/252738/2/001114284.pdf.txtfe94e993ffb3aef806e32e6d99033a0dMD52ORIGINAL001114284.pdfTexto completoapplication/pdf2288335http://www.lume.ufrgs.br/bitstream/10183/252738/1/001114284.pdfae2f1b781eddc4cba30a72a5d330fe8dMD5110183/2527382022-12-16 05:49:59.810227oai:www.lume.ufrgs.br:10183/252738Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532022-12-16T07:49:59Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
dc.title.alternative.en.fl_str_mv	Drunk2Symbol and Drunk2Vec : methods to identify drunk texting exploring contextual enrichment
title	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
spellingShingle	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual Grzeça, Marcos Augusto Banco de dados Drunk tweets classification Contextual enrichment Semantic web Word embeddings Natural language processing
title_short	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
title_full	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
title_fullStr	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
title_full_unstemmed	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
title_sort	Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual
author	Grzeça, Marcos Augusto
author_facet	Grzeça, Marcos Augusto
author_role	author
dc.contributor.author.fl_str_mv	Grzeça, Marcos Augusto
dc.contributor.advisor1.fl_str_mv	Galante, Renata de Matos
contributor_str_mv	Galante, Renata de Matos
dc.subject.por.fl_str_mv	Banco de dados
topic	Banco de dados Drunk tweets classification Contextual enrichment Semantic web Word embeddings Natural language processing
dc.subject.eng.fl_str_mv	Drunk tweets classification Contextual enrichment Semantic web Word embeddings Natural language processing
description	O consumo excessivo de álcool é responsável por três milhões de mortes anualmente e continua crescendo em todo o mundo, tornando-se um importante problema de saúde pública. As redes sociais provêm informações para monitorar e entender os problemas de saúde pública, inclusive o abuso de álcool. As informações extraídas das redes sociais podem auxiliar os gestores públicos a reduzir o uso nocivo do álcool, porém é necessário investir em métodos para extrair e identificar automaticamente o consumo de álcool a partir das redes sociais. Este trabalho aborda a classificação automática de textos bêbados a partir do Twitter, que consiste na classificação de tweets em {bêbado, sóbrio} de acordo com o seu conteúdo. Métodos tradicionais de processamento de linguagem natural não apresentam bom desempenho na identificação de tweets bêbados (ou seja, postados sob a influência de álcool), pois os tweets são curtos, esparsos e escritos com vocabulário específico da Internet. Para superar esses desafios e classificar os tweets, são propostos dois métodos que exploram estratégias distintas de enriquecimento contextual: Drunk2Symbol e Drunk2Vec. Drunk2Symbol expande o vocabulário e fornece contexto aos tweets explorando o enriquecimento contextual externo (Web Semântica). Drunk2Symbol também extrai features que caracterizam o abuso de álcool. Por outro lado, Drunk2Vec utiliza a semântica distribucional para identificar palavras similares e para lidar com as idiossincrasias da linguagem empregada em tweets bêbados. Para equilibrar as melhorias dos dois métodos, foi utilizado um conjunto de classificadores, denominado Drunk2Ensemble. Este trabalho disponibiliza duas bases de dados públicas relacionadas ao consumo de álcool e uma análise exploratória que ilustra a riqueza e a aplicabilidade das informações extraídas a partir das redes sociais. Para avaliar o desempenho dos métodos, foi definido um protocolo experimental abrangente, envolvendo três classificadores e cinco bases de dados que abordam diferentes comportamentos relacionados ao consumo de álcool no Twitter. Os resultados demonstram alto desempenho, com a medida F1 superior a 88,8 pontos percentuais em todas as bases de dados, superando o baseline com melhorias estatisticamente significativas. Os métodos propostos podem identificar tweets bêbados e fornecer informações importantes que ajudam a monitorar e entender os fatores relacionados ao consumo excessivo de álcool.
publishDate	2020
dc.date.issued.fl_str_mv	2020
dc.date.accessioned.fl_str_mv	2022-12-15T04:50:38Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/252738
dc.identifier.nrb.pt_BR.fl_str_mv	001114284
url	http://hdl.handle.net/10183/252738
identifier_str_mv	001114284
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/252738/2/001114284.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/252738/1/001114284.pdf
bitstream.checksum.fl_str_mv	fe94e993ffb3aef806e32e6d99033a0d ae2f1b781eddc4cba30a72a5d330fe8d
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085604511186944

Drunk2Symbol e drunk2Vec : métodos para a identificação de textos bêbados explorando enriquecimento contextual

Registros relacionados