Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo

Detalhes bibliográficos
Autor(a) principal: Daroz, Thalessa Hungerbühler
Data de Publicação: 2024
Outros Autores: Cunha, Luan Pereira
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: https://app.uff.br/riuff/handle/1/33679
Resumo: As mídias sociais constituem um espaço aberto, não apresentam barreiras ao seu acesso. Tornou-se uma forma dos indivíduos expressarem raiva, medo, felicidade, ódio, esperança, amor e tristeza sem se sentirem constrangidos. Um desses fenômenos negativos observados é a propagação do discurso de ódio online (cyber hate). Assim, este trabalho visa detectar discursos de ódio/ofensivo na língua portuguesa. Para atingir esse objetivo, foram analisadas diferentes configurações, hiperparâmetros e técnicas de Aprendizado Profundo. Construímos uma base de dados a partir de tuítes (pequenas postagens) coletados da plataforma Twitter. Depois tratamos a base e a utilizamos como entrada nos modelos de Aprendizado Profundo CNN, LSTM e Bi-LSTM. Também submetemos a base bruta e tratada aos baselines Naive Bayes e SNN. Como contribuição, foram produzidas três bases de dados no idioma Português-BR, e os seguintes dicionários, também em Português: um de termos ofensivos, um de termos obscenos e um de termos informais utilizados na internet, definimos e validamos o pipeline para identificação do discurso de ódio nos modelos estudados para as bases desenvolvidas. Além disso, a pesquisa evidenciou que independente dos classificadores selecionados (Bi-LSTM, CNN e LTSM) o desempenho obtido foi praticamente o mesmo para as bases de dados avaliadas, significando que não se faz necessário um intenso pré-processamento. Deve-se ressaltar que todos os recursos estão disponíveis no GitHub sob demanda em https://github.com/LuanPCunha/TCC
id UFF-2_d5b39acb27284b849f8669aec34df44c
oai_identifier_str oai:app.uff.br:1/33679
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Detecção de discurso de ódio uma abordagem baseada em aprendizado profundoDiscurso de ódioAprendizado profundoTwiterMídia socialHate speechDeep LearningTwitterAs mídias sociais constituem um espaço aberto, não apresentam barreiras ao seu acesso. Tornou-se uma forma dos indivíduos expressarem raiva, medo, felicidade, ódio, esperança, amor e tristeza sem se sentirem constrangidos. Um desses fenômenos negativos observados é a propagação do discurso de ódio online (cyber hate). Assim, este trabalho visa detectar discursos de ódio/ofensivo na língua portuguesa. Para atingir esse objetivo, foram analisadas diferentes configurações, hiperparâmetros e técnicas de Aprendizado Profundo. Construímos uma base de dados a partir de tuítes (pequenas postagens) coletados da plataforma Twitter. Depois tratamos a base e a utilizamos como entrada nos modelos de Aprendizado Profundo CNN, LSTM e Bi-LSTM. Também submetemos a base bruta e tratada aos baselines Naive Bayes e SNN. Como contribuição, foram produzidas três bases de dados no idioma Português-BR, e os seguintes dicionários, também em Português: um de termos ofensivos, um de termos obscenos e um de termos informais utilizados na internet, definimos e validamos o pipeline para identificação do discurso de ódio nos modelos estudados para as bases desenvolvidas. Além disso, a pesquisa evidenciou que independente dos classificadores selecionados (Bi-LSTM, CNN e LTSM) o desempenho obtido foi praticamente o mesmo para as bases de dados avaliadas, significando que não se faz necessário um intenso pré-processamento. Deve-se ressaltar que todos os recursos estão disponíveis no GitHub sob demanda em https://github.com/LuanPCunha/TCCSocial media constitute an open space, they do not present barriers to their access. It has become a way for individuals to express anger, fear, happiness, hate, hope, love and sadness without feeling embarrassed. One of these negative phenomena observed is the spread of online hate speech (cyber hate). Thus, this work aims to detect hate/offensive speech in Portuguese. To achieve this goal, different configurations, hyperparameters and Deep Learning techniques were analyzed. We built a database from tweets (small posts) collected from the Twitter platform. Then we treat the base and use it as input in the Deep Learning models CNN, LSTM and Bi-LSTM. We also submitted the raw and treated base to the Naive Bayes and SNN baselines. As a contribution, three databases were produced in the Portuguese-BR language, and the following dictionaries, also in Portuguese: one with offensive terms, one with obscene terms and one with informal terms used on the internet, we defined and validated the pipeline for identifying hate speech in the aforementioned models for the three databases. In addition, the research showed that regardless of the selected classifiers (Bi-LSTM, CNN and LTSM) the performance obtained was practically the same for the evaluated databases, meaning that intense pre-processing is not necessary. It should be noted that all features are available on GitHub on demand at https://github.com/LuanPCunha/TCC140 p.Silva, Leila Weitzel Coelho dahttp://lattes.cnpq.br/./2768655384552211Gomes, Janaína Sant'Anna GomideOliveira, Laura Emmanuella Alves Dos Santos Santana DeVianna, Dalessandro Soareshttp://lattes.cnpq.br/./4873901371931398Daroz, Thalessa HungerbühlerCunha, Luan Pereira2024-07-25T22:25:27Z2024-07-25T22:25:27Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfapplication/pdfDAROZ, Thalessa Hungerbühler; CUNHA, Luan Pereira. Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Instituto de Ciência e Tecnologia, Universidade Federal Fluminense, Rio das Ostras, 2022.https://app.uff.br/riuff/handle/1/33679CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2024-07-25T22:25:32Zoai:app.uff.br:1/33679Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:11:34.593716Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
title Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
spellingShingle Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
Daroz, Thalessa Hungerbühler
Discurso de ódio
Aprendizado profundo
Twiter
Mídia social
Hate speech
Deep Learning
Twitter
title_short Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
title_full Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
title_fullStr Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
title_full_unstemmed Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
title_sort Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
author Daroz, Thalessa Hungerbühler
author_facet Daroz, Thalessa Hungerbühler
Cunha, Luan Pereira
author_role author
author2 Cunha, Luan Pereira
author2_role author
dc.contributor.none.fl_str_mv Silva, Leila Weitzel Coelho da
http://lattes.cnpq.br/./2768655384552211
Gomes, Janaína Sant'Anna Gomide
Oliveira, Laura Emmanuella Alves Dos Santos Santana De
Vianna, Dalessandro Soares
http://lattes.cnpq.br/./4873901371931398
dc.contributor.author.fl_str_mv Daroz, Thalessa Hungerbühler
Cunha, Luan Pereira
dc.subject.por.fl_str_mv Discurso de ódio
Aprendizado profundo
Twiter
Mídia social
Hate speech
Deep Learning
Twitter
topic Discurso de ódio
Aprendizado profundo
Twiter
Mídia social
Hate speech
Deep Learning
Twitter
description As mídias sociais constituem um espaço aberto, não apresentam barreiras ao seu acesso. Tornou-se uma forma dos indivíduos expressarem raiva, medo, felicidade, ódio, esperança, amor e tristeza sem se sentirem constrangidos. Um desses fenômenos negativos observados é a propagação do discurso de ódio online (cyber hate). Assim, este trabalho visa detectar discursos de ódio/ofensivo na língua portuguesa. Para atingir esse objetivo, foram analisadas diferentes configurações, hiperparâmetros e técnicas de Aprendizado Profundo. Construímos uma base de dados a partir de tuítes (pequenas postagens) coletados da plataforma Twitter. Depois tratamos a base e a utilizamos como entrada nos modelos de Aprendizado Profundo CNN, LSTM e Bi-LSTM. Também submetemos a base bruta e tratada aos baselines Naive Bayes e SNN. Como contribuição, foram produzidas três bases de dados no idioma Português-BR, e os seguintes dicionários, também em Português: um de termos ofensivos, um de termos obscenos e um de termos informais utilizados na internet, definimos e validamos o pipeline para identificação do discurso de ódio nos modelos estudados para as bases desenvolvidas. Além disso, a pesquisa evidenciou que independente dos classificadores selecionados (Bi-LSTM, CNN e LTSM) o desempenho obtido foi praticamente o mesmo para as bases de dados avaliadas, significando que não se faz necessário um intenso pré-processamento. Deve-se ressaltar que todos os recursos estão disponíveis no GitHub sob demanda em https://github.com/LuanPCunha/TCC
publishDate 2024
dc.date.none.fl_str_mv 2024-07-25T22:25:27Z
2024-07-25T22:25:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv DAROZ, Thalessa Hungerbühler; CUNHA, Luan Pereira. Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Instituto de Ciência e Tecnologia, Universidade Federal Fluminense, Rio das Ostras, 2022.
https://app.uff.br/riuff/handle/1/33679
identifier_str_mv DAROZ, Thalessa Hungerbühler; CUNHA, Luan Pereira. Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Instituto de Ciência e Tecnologia, Universidade Federal Fluminense, Rio das Ostras, 2022.
url https://app.uff.br/riuff/handle/1/33679
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823685522161664