Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Outros Autores: | |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | https://app.uff.br/riuff/handle/1/33679 |
Resumo: | As mídias sociais constituem um espaço aberto, não apresentam barreiras ao seu acesso. Tornou-se uma forma dos indivíduos expressarem raiva, medo, felicidade, ódio, esperança, amor e tristeza sem se sentirem constrangidos. Um desses fenômenos negativos observados é a propagação do discurso de ódio online (cyber hate). Assim, este trabalho visa detectar discursos de ódio/ofensivo na língua portuguesa. Para atingir esse objetivo, foram analisadas diferentes configurações, hiperparâmetros e técnicas de Aprendizado Profundo. Construímos uma base de dados a partir de tuítes (pequenas postagens) coletados da plataforma Twitter. Depois tratamos a base e a utilizamos como entrada nos modelos de Aprendizado Profundo CNN, LSTM e Bi-LSTM. Também submetemos a base bruta e tratada aos baselines Naive Bayes e SNN. Como contribuição, foram produzidas três bases de dados no idioma Português-BR, e os seguintes dicionários, também em Português: um de termos ofensivos, um de termos obscenos e um de termos informais utilizados na internet, definimos e validamos o pipeline para identificação do discurso de ódio nos modelos estudados para as bases desenvolvidas. Além disso, a pesquisa evidenciou que independente dos classificadores selecionados (Bi-LSTM, CNN e LTSM) o desempenho obtido foi praticamente o mesmo para as bases de dados avaliadas, significando que não se faz necessário um intenso pré-processamento. Deve-se ressaltar que todos os recursos estão disponíveis no GitHub sob demanda em https://github.com/LuanPCunha/TCC |
id |
UFF-2_d5b39acb27284b849f8669aec34df44c |
---|---|
oai_identifier_str |
oai:app.uff.br:1/33679 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundoDiscurso de ódioAprendizado profundoTwiterMídia socialHate speechDeep LearningTwitterAs mídias sociais constituem um espaço aberto, não apresentam barreiras ao seu acesso. Tornou-se uma forma dos indivíduos expressarem raiva, medo, felicidade, ódio, esperança, amor e tristeza sem se sentirem constrangidos. Um desses fenômenos negativos observados é a propagação do discurso de ódio online (cyber hate). Assim, este trabalho visa detectar discursos de ódio/ofensivo na língua portuguesa. Para atingir esse objetivo, foram analisadas diferentes configurações, hiperparâmetros e técnicas de Aprendizado Profundo. Construímos uma base de dados a partir de tuítes (pequenas postagens) coletados da plataforma Twitter. Depois tratamos a base e a utilizamos como entrada nos modelos de Aprendizado Profundo CNN, LSTM e Bi-LSTM. Também submetemos a base bruta e tratada aos baselines Naive Bayes e SNN. Como contribuição, foram produzidas três bases de dados no idioma Português-BR, e os seguintes dicionários, também em Português: um de termos ofensivos, um de termos obscenos e um de termos informais utilizados na internet, definimos e validamos o pipeline para identificação do discurso de ódio nos modelos estudados para as bases desenvolvidas. Além disso, a pesquisa evidenciou que independente dos classificadores selecionados (Bi-LSTM, CNN e LTSM) o desempenho obtido foi praticamente o mesmo para as bases de dados avaliadas, significando que não se faz necessário um intenso pré-processamento. Deve-se ressaltar que todos os recursos estão disponíveis no GitHub sob demanda em https://github.com/LuanPCunha/TCCSocial media constitute an open space, they do not present barriers to their access. It has become a way for individuals to express anger, fear, happiness, hate, hope, love and sadness without feeling embarrassed. One of these negative phenomena observed is the spread of online hate speech (cyber hate). Thus, this work aims to detect hate/offensive speech in Portuguese. To achieve this goal, different configurations, hyperparameters and Deep Learning techniques were analyzed. We built a database from tweets (small posts) collected from the Twitter platform. Then we treat the base and use it as input in the Deep Learning models CNN, LSTM and Bi-LSTM. We also submitted the raw and treated base to the Naive Bayes and SNN baselines. As a contribution, three databases were produced in the Portuguese-BR language, and the following dictionaries, also in Portuguese: one with offensive terms, one with obscene terms and one with informal terms used on the internet, we defined and validated the pipeline for identifying hate speech in the aforementioned models for the three databases. In addition, the research showed that regardless of the selected classifiers (Bi-LSTM, CNN and LTSM) the performance obtained was practically the same for the evaluated databases, meaning that intense pre-processing is not necessary. It should be noted that all features are available on GitHub on demand at https://github.com/LuanPCunha/TCC140 p.Silva, Leila Weitzel Coelho dahttp://lattes.cnpq.br/./2768655384552211Gomes, Janaína Sant'Anna GomideOliveira, Laura Emmanuella Alves Dos Santos Santana DeVianna, Dalessandro Soareshttp://lattes.cnpq.br/./4873901371931398Daroz, Thalessa HungerbühlerCunha, Luan Pereira2024-07-25T22:25:27Z2024-07-25T22:25:27Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfapplication/pdfDAROZ, Thalessa Hungerbühler; CUNHA, Luan Pereira. Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Instituto de Ciência e Tecnologia, Universidade Federal Fluminense, Rio das Ostras, 2022.https://app.uff.br/riuff/handle/1/33679CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2024-07-25T22:25:32Zoai:app.uff.br:1/33679Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:11:34.593716Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
title |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
spellingShingle |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo Daroz, Thalessa Hungerbühler Discurso de ódio Aprendizado profundo Twiter Mídia social Hate speech Deep Learning |
title_short |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
title_full |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
title_fullStr |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
title_full_unstemmed |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
title_sort |
Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo |
author |
Daroz, Thalessa Hungerbühler |
author_facet |
Daroz, Thalessa Hungerbühler Cunha, Luan Pereira |
author_role |
author |
author2 |
Cunha, Luan Pereira |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Silva, Leila Weitzel Coelho da http://lattes.cnpq.br/./2768655384552211 Gomes, Janaína Sant'Anna Gomide Oliveira, Laura Emmanuella Alves Dos Santos Santana De Vianna, Dalessandro Soares http://lattes.cnpq.br/./4873901371931398 |
dc.contributor.author.fl_str_mv |
Daroz, Thalessa Hungerbühler Cunha, Luan Pereira |
dc.subject.por.fl_str_mv |
Discurso de ódio Aprendizado profundo Twiter Mídia social Hate speech Deep Learning |
topic |
Discurso de ódio Aprendizado profundo Twiter Mídia social Hate speech Deep Learning |
description |
As mídias sociais constituem um espaço aberto, não apresentam barreiras ao seu acesso. Tornou-se uma forma dos indivíduos expressarem raiva, medo, felicidade, ódio, esperança, amor e tristeza sem se sentirem constrangidos. Um desses fenômenos negativos observados é a propagação do discurso de ódio online (cyber hate). Assim, este trabalho visa detectar discursos de ódio/ofensivo na língua portuguesa. Para atingir esse objetivo, foram analisadas diferentes configurações, hiperparâmetros e técnicas de Aprendizado Profundo. Construímos uma base de dados a partir de tuítes (pequenas postagens) coletados da plataforma Twitter. Depois tratamos a base e a utilizamos como entrada nos modelos de Aprendizado Profundo CNN, LSTM e Bi-LSTM. Também submetemos a base bruta e tratada aos baselines Naive Bayes e SNN. Como contribuição, foram produzidas três bases de dados no idioma Português-BR, e os seguintes dicionários, também em Português: um de termos ofensivos, um de termos obscenos e um de termos informais utilizados na internet, definimos e validamos o pipeline para identificação do discurso de ódio nos modelos estudados para as bases desenvolvidas. Além disso, a pesquisa evidenciou que independente dos classificadores selecionados (Bi-LSTM, CNN e LTSM) o desempenho obtido foi praticamente o mesmo para as bases de dados avaliadas, significando que não se faz necessário um intenso pré-processamento. Deve-se ressaltar que todos os recursos estão disponíveis no GitHub sob demanda em https://github.com/LuanPCunha/TCC |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-07-25T22:25:27Z 2024-07-25T22:25:27Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
DAROZ, Thalessa Hungerbühler; CUNHA, Luan Pereira. Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Instituto de Ciência e Tecnologia, Universidade Federal Fluminense, Rio das Ostras, 2022. https://app.uff.br/riuff/handle/1/33679 |
identifier_str_mv |
DAROZ, Thalessa Hungerbühler; CUNHA, Luan Pereira. Detecção de discurso de ódio uma abordagem baseada em aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Instituto de Ciência e Tecnologia, Universidade Federal Fluminense, Rio das Ostras, 2022. |
url |
https://app.uff.br/riuff/handle/1/33679 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823685522161664 |