Rotulação automática de depressão nas postagens do Reddit
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPR |
Texto Completo: | https://hdl.handle.net/1884/83546 |
Resumo: | Orientadora: Profª Drª Denise Fukumi Tsunoda |
id |
UFPR_1781efbdad3662be666981dc6a6636c4 |
---|---|
oai_identifier_str |
oai:acervodigital.ufpr.br:1884/83546 |
network_acronym_str |
UFPR |
network_name_str |
Repositório Institucional da UFPR |
repository_id_str |
308 |
spelling |
Mayer, Fernanda BrenneisenUniversidade Federal do Paraná. Setor de Ciências Sociais Aplicadas. Programa de Pós-Graduação em Gestão da InformaçãoTsunoda, Denise Fukumi, 1972-Grützmann, Marco Antonio Bittencourt2023-09-19T18:54:50Z2023-09-19T18:54:50Z2023https://hdl.handle.net/1884/83546Orientadora: Profª Drª Denise Fukumi TsunodaCoorientadora: Profª Drª Fernanda Brenneisen MayerDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Gestão da Informação. Defesa : Curitiba, 30/03/2023Inclui referênciasResumo: A depressão é a principal causa de incapacidade em todo o mundo, afetando o humor e os sentimentos das pessoas que possuem o transtorno. Os usuários de redes sociais usam as plataformas para obter apoio nesses casos, reconhecer que não estão sozinhos e compartilhar suas experiências. Existe uma crescente área interdisciplinar que utiliza técnicas de mineração de dados para identificar tendências depressivas por meio de redes sociais, porém um os maiores desafios é a rotulação dos dados e seus atributos. O presente trabalho se propõe a aprofundar sobre quais atributos podem ser considerados para rotulação automática de depressão em postagens em Redes Sociais, utilizando o Reddit como rede social alvo. A metodologia inclui revisão de metodologias e tecnologias, desenho da metodologia geral do trabalho, captura e exploração de dados obtidos por meio da rede social Reddit, pré-processamento e extração de "features", análise estatística descritiva, comparação de desempenho de classificadores para rotulação automática e aferição e discussão dos resultados. A coleta de dados foi realizada utilizando o repositório de dados PushShift e a API pushshift.io Reddit, com dados coletados exclusivamente do subreddit "Desabafos" no período de 01/01/2021 a 30/06/2022. Como resultados, identificado que os atributos metadados, os atributos retirados da rede social em si e o texto transformado em dimensões de atributos (através de técnicas como BoW e TF-IDF) são eficientes na classificação da classe "depressão", utilizando-se do método Random Forest, podendo seu resultado variar dependendo de qual classe será utilizada no contexto de "não depressivo" para treinamento do classificador. Outrossim, avaliado 17 atributos e suas importâncias na classificação, onde os quatro principais são a carga sentimental encontrada no texto, a variância de sentimento, o tamanho do texto em si e quantidade de pessoas citadas nos textos.Abstract: Depression is the leading cause of disability worldwide, affecting the mood and feelings of people with the disorder. Social media users use the platforms to get support in these cases, recognize that they are not alone and share their experiences. There is a growing interdisciplinary area that uses data mining techniques to try to identify depressive tendencies through social networks, but one of the biggest challenges is the labeling of the data and its attributes. The present work proposes to delve into what attributes can be considered for automatic labeling of Depression in posts on Social Networks, using Reddit as the target social network. The methodology includes review of methodologies and technologies, design of the general methodology of the work, capture and exploration of data obtained through social networks (in this case, Reddit), pre-processing and acceptance of "features", descriptive statistics, descriptive analysis, performance comparison of classifieds for automatic labeling and measurement and discussion of results. Data collection was carried out using the PushShift data repository and the pushshift.io API As a result, we identified that attributes derived from the text, attributes taken from the social network itself and the text transformed into attribute dimensions (through techniques such as BoW and TF-IDF) are efficient in classifying the "Depression" class, using the Random Forest method, allowing its result to vary depending on which class will be used in the context of "non-depressive" for training the classifier. Others evaluate 17 features and their importance in the classification, where the four main ones are the sentimental content found in the text, the sentiment variance, the size of the text itself and the number of people mentioned in the texts.1 recurso online : PDF.application/pdfMineração de dados (Computação)DepressãoRedes sociais on-lineCiência da InformaçãoRotulação automática de depressão nas postagens do Redditinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - MARCO ANTONIO BITTENCOURT GRUTZMANN.pdfapplication/pdf3691438https://acervodigital.ufpr.br/bitstream/1884/83546/1/R%20-%20D%20-%20MARCO%20ANTONIO%20BITTENCOURT%20GRUTZMANN.pdfc81b44bc0306d3c8b76e74db90f63167MD51open access1884/835462023-09-19 15:54:51.005open accessoai:acervodigital.ufpr.br:1884/83546Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-09-19T18:54:51Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false |
dc.title.pt_BR.fl_str_mv |
Rotulação automática de depressão nas postagens do Reddit |
title |
Rotulação automática de depressão nas postagens do Reddit |
spellingShingle |
Rotulação automática de depressão nas postagens do Reddit Grützmann, Marco Antonio Bittencourt Mineração de dados (Computação) Depressão Redes sociais on-line Ciência da Informação |
title_short |
Rotulação automática de depressão nas postagens do Reddit |
title_full |
Rotulação automática de depressão nas postagens do Reddit |
title_fullStr |
Rotulação automática de depressão nas postagens do Reddit |
title_full_unstemmed |
Rotulação automática de depressão nas postagens do Reddit |
title_sort |
Rotulação automática de depressão nas postagens do Reddit |
author |
Grützmann, Marco Antonio Bittencourt |
author_facet |
Grützmann, Marco Antonio Bittencourt |
author_role |
author |
dc.contributor.other.pt_BR.fl_str_mv |
Mayer, Fernanda Brenneisen Universidade Federal do Paraná. Setor de Ciências Sociais Aplicadas. Programa de Pós-Graduação em Gestão da Informação |
dc.contributor.advisor1.fl_str_mv |
Tsunoda, Denise Fukumi, 1972- |
dc.contributor.author.fl_str_mv |
Grützmann, Marco Antonio Bittencourt |
contributor_str_mv |
Tsunoda, Denise Fukumi, 1972- |
dc.subject.por.fl_str_mv |
Mineração de dados (Computação) Depressão Redes sociais on-line Ciência da Informação |
topic |
Mineração de dados (Computação) Depressão Redes sociais on-line Ciência da Informação |
description |
Orientadora: Profª Drª Denise Fukumi Tsunoda |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-09-19T18:54:50Z |
dc.date.available.fl_str_mv |
2023-09-19T18:54:50Z |
dc.date.issued.fl_str_mv |
2023 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1884/83546 |
url |
https://hdl.handle.net/1884/83546 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
1 recurso online : PDF. application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPR instname:Universidade Federal do Paraná (UFPR) instacron:UFPR |
instname_str |
Universidade Federal do Paraná (UFPR) |
instacron_str |
UFPR |
institution |
UFPR |
reponame_str |
Repositório Institucional da UFPR |
collection |
Repositório Institucional da UFPR |
bitstream.url.fl_str_mv |
https://acervodigital.ufpr.br/bitstream/1884/83546/1/R%20-%20D%20-%20MARCO%20ANTONIO%20BITTENCOURT%20GRUTZMANN.pdf |
bitstream.checksum.fl_str_mv |
c81b44bc0306d3c8b76e74db90f63167 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR) |
repository.mail.fl_str_mv |
|
_version_ |
1801860713526853632 |