Rotulação automática de depressão nas postagens do Reddit

Detalhes bibliográficos
Autor(a) principal: Grützmann, Marco Antonio Bittencourt
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: https://hdl.handle.net/1884/83546
Resumo: Orientadora: Profª Drª Denise Fukumi Tsunoda
id UFPR_1781efbdad3662be666981dc6a6636c4
oai_identifier_str oai:acervodigital.ufpr.br:1884/83546
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Mayer, Fernanda BrenneisenUniversidade Federal do Paraná. Setor de Ciências Sociais Aplicadas. Programa de Pós-Graduação em Gestão da InformaçãoTsunoda, Denise Fukumi, 1972-Grützmann, Marco Antonio Bittencourt2023-09-19T18:54:50Z2023-09-19T18:54:50Z2023https://hdl.handle.net/1884/83546Orientadora: Profª Drª Denise Fukumi TsunodaCoorientadora: Profª Drª Fernanda Brenneisen MayerDissertação (mestrado) - Universidade Federal do Paraná, Setor de Ciências Sociais Aplicadas, Programa de Pós-Graduação em Gestão da Informação. Defesa : Curitiba, 30/03/2023Inclui referênciasResumo: A depressão é a principal causa de incapacidade em todo o mundo, afetando o humor e os sentimentos das pessoas que possuem o transtorno. Os usuários de redes sociais usam as plataformas para obter apoio nesses casos, reconhecer que não estão sozinhos e compartilhar suas experiências. Existe uma crescente área interdisciplinar que utiliza técnicas de mineração de dados para identificar tendências depressivas por meio de redes sociais, porém um os maiores desafios é a rotulação dos dados e seus atributos. O presente trabalho se propõe a aprofundar sobre quais atributos podem ser considerados para rotulação automática de depressão em postagens em Redes Sociais, utilizando o Reddit como rede social alvo. A metodologia inclui revisão de metodologias e tecnologias, desenho da metodologia geral do trabalho, captura e exploração de dados obtidos por meio da rede social Reddit, pré-processamento e extração de "features", análise estatística descritiva, comparação de desempenho de classificadores para rotulação automática e aferição e discussão dos resultados. A coleta de dados foi realizada utilizando o repositório de dados PushShift e a API pushshift.io Reddit, com dados coletados exclusivamente do subreddit "Desabafos" no período de 01/01/2021 a 30/06/2022. Como resultados, identificado que os atributos metadados, os atributos retirados da rede social em si e o texto transformado em dimensões de atributos (através de técnicas como BoW e TF-IDF) são eficientes na classificação da classe "depressão", utilizando-se do método Random Forest, podendo seu resultado variar dependendo de qual classe será utilizada no contexto de "não depressivo" para treinamento do classificador. Outrossim, avaliado 17 atributos e suas importâncias na classificação, onde os quatro principais são a carga sentimental encontrada no texto, a variância de sentimento, o tamanho do texto em si e quantidade de pessoas citadas nos textos.Abstract: Depression is the leading cause of disability worldwide, affecting the mood and feelings of people with the disorder. Social media users use the platforms to get support in these cases, recognize that they are not alone and share their experiences. There is a growing interdisciplinary area that uses data mining techniques to try to identify depressive tendencies through social networks, but one of the biggest challenges is the labeling of the data and its attributes. The present work proposes to delve into what attributes can be considered for automatic labeling of Depression in posts on Social Networks, using Reddit as the target social network. The methodology includes review of methodologies and technologies, design of the general methodology of the work, capture and exploration of data obtained through social networks (in this case, Reddit), pre-processing and acceptance of "features", descriptive statistics, descriptive analysis, performance comparison of classifieds for automatic labeling and measurement and discussion of results. Data collection was carried out using the PushShift data repository and the pushshift.io API As a result, we identified that attributes derived from the text, attributes taken from the social network itself and the text transformed into attribute dimensions (through techniques such as BoW and TF-IDF) are efficient in classifying the "Depression" class, using the Random Forest method, allowing its result to vary depending on which class will be used in the context of "non-depressive" for training the classifier. Others evaluate 17 features and their importance in the classification, where the four main ones are the sentimental content found in the text, the sentiment variance, the size of the text itself and the number of people mentioned in the texts.1 recurso online : PDF.application/pdfMineração de dados (Computação)DepressãoRedes sociais on-lineCiência da InformaçãoRotulação automática de depressão nas postagens do Redditinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - MARCO ANTONIO BITTENCOURT GRUTZMANN.pdfapplication/pdf3691438https://acervodigital.ufpr.br/bitstream/1884/83546/1/R%20-%20D%20-%20MARCO%20ANTONIO%20BITTENCOURT%20GRUTZMANN.pdfc81b44bc0306d3c8b76e74db90f63167MD51open access1884/835462023-09-19 15:54:51.005open accessoai:acervodigital.ufpr.br:1884/83546Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082023-09-19T18:54:51Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.pt_BR.fl_str_mv Rotulação automática de depressão nas postagens do Reddit
title Rotulação automática de depressão nas postagens do Reddit
spellingShingle Rotulação automática de depressão nas postagens do Reddit
Grützmann, Marco Antonio Bittencourt
Mineração de dados (Computação)
Depressão
Redes sociais on-line
Ciência da Informação
title_short Rotulação automática de depressão nas postagens do Reddit
title_full Rotulação automática de depressão nas postagens do Reddit
title_fullStr Rotulação automática de depressão nas postagens do Reddit
title_full_unstemmed Rotulação automática de depressão nas postagens do Reddit
title_sort Rotulação automática de depressão nas postagens do Reddit
author Grützmann, Marco Antonio Bittencourt
author_facet Grützmann, Marco Antonio Bittencourt
author_role author
dc.contributor.other.pt_BR.fl_str_mv Mayer, Fernanda Brenneisen
Universidade Federal do Paraná. Setor de Ciências Sociais Aplicadas. Programa de Pós-Graduação em Gestão da Informação
dc.contributor.advisor1.fl_str_mv Tsunoda, Denise Fukumi, 1972-
dc.contributor.author.fl_str_mv Grützmann, Marco Antonio Bittencourt
contributor_str_mv Tsunoda, Denise Fukumi, 1972-
dc.subject.por.fl_str_mv Mineração de dados (Computação)
Depressão
Redes sociais on-line
Ciência da Informação
topic Mineração de dados (Computação)
Depressão
Redes sociais on-line
Ciência da Informação
description Orientadora: Profª Drª Denise Fukumi Tsunoda
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-09-19T18:54:50Z
dc.date.available.fl_str_mv 2023-09-19T18:54:50Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1884/83546
url https://hdl.handle.net/1884/83546
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 1 recurso online : PDF.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/83546/1/R%20-%20D%20-%20MARCO%20ANTONIO%20BITTENCOURT%20GRUTZMANN.pdf
bitstream.checksum.fl_str_mv c81b44bc0306d3c8b76e74db90f63167
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860713526853632