Aplicação de meta-atributos para detecção de discurso de ódio

Sponchiado, Artur Constanzi

Aplicação de meta-atributos para detecção de discurso de ódio

Detalhes bibliográficos
Autor(a) principal:	Sponchiado, Artur Constanzi
Data de Publicação:	2019
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFFS (Repositório Digital da UFFS)
Texto Completo:	https://rd.uffs.edu.br/handle/prefix/3365
Resumo:	Com o advento das redes sociais online, espaços de interação entre usuários estão surgindo. Tais espaços podem ser desde comentários em um site de vídeos, até a seção de discussão em um site de notícias, por exemplo. Nesses ambientes, pessoas podem conversar, expor suas opiniões, debater ideias, etc. Todavia, existem grupos se formando que, aproveitando-se do anonimato, propagam discursos de ódio, disseminando ideias xenofóbicas, racistas, entre outras. Indivíduos que compartilham mensagens deste tipo tendem a disfarçar suas palavras, com caracteres especiais ou até mesmo o sarcasmo, tornando assim uma tarefa difícil para algoritmos básicos bloquearem tal conteúdo. Assim, faz-se necessário um meio para detectar estes discursos de forma automática, visto que devido a quantidade de mensagens publicadas diariamente ser muito grande, tal tarefa torna-se inviável. Utilizando abordagens de pré processamento de dados e extração de atributos e meta-atributos, este trabalho obtém resultados promissores na área de detecção de discursos de ódio em textos. O método proposto consiste na stemização e remoção de stopwords na parte do pré-processamento dos dados e na extração de meta-atributos utilizando o algoritmo KNN. Utilizando validação cruzada de 10 vezes e o SVM como classificador, o método proposto obtém melhorias de até 9.67% em relação ao baseline apresentado.

Metadados do item

id	UFFS_756b09f37a3c5071806d98a3b9b3219f
oai_identifier_str	oai:rd.uffs.edu.br:prefix/3365
network_acronym_str	UFFS
network_name_str	Repositório Institucional da UFFS (Repositório Digital da UFFS)
repository_id_str	3924
spelling	Dal Bianco, GuilhermeSponchiado, Artur Constanzi20192020-02-03T15:10:36Z20192020-02-03T15:10:36Z2019https://rd.uffs.edu.br/handle/prefix/3365Com o advento das redes sociais online, espaços de interação entre usuários estão surgindo. Tais espaços podem ser desde comentários em um site de vídeos, até a seção de discussão em um site de notícias, por exemplo. Nesses ambientes, pessoas podem conversar, expor suas opiniões, debater ideias, etc. Todavia, existem grupos se formando que, aproveitando-se do anonimato, propagam discursos de ódio, disseminando ideias xenofóbicas, racistas, entre outras. Indivíduos que compartilham mensagens deste tipo tendem a disfarçar suas palavras, com caracteres especiais ou até mesmo o sarcasmo, tornando assim uma tarefa difícil para algoritmos básicos bloquearem tal conteúdo. Assim, faz-se necessário um meio para detectar estes discursos de forma automática, visto que devido a quantidade de mensagens publicadas diariamente ser muito grande, tal tarefa torna-se inviável. Utilizando abordagens de pré processamento de dados e extração de atributos e meta-atributos, este trabalho obtém resultados promissores na área de detecção de discursos de ódio em textos. O método proposto consiste na stemização e remoção de stopwords na parte do pré-processamento dos dados e na extração de meta-atributos utilizando o algoritmo KNN. Utilizando validação cruzada de 10 vezes e o SVM como classificador, o método proposto obtém melhorias de até 9.67% em relação ao baseline apresentado.With the advent of online social networking, user interaction spaces are emerging. Such spaces can range from comments on a video site to the discussion section on a news site, for example. In these environments, people can chat, expose their opinions, discuss ideas, etc. However, groups are emerging and taking advantage of anonymity to spread hate speech, disseminating xenophobic and racist views, among others. Individuals who share such messages tend to hide their words with special characters or even sarcasm. It makes a difficult task for basic algorithms to block the content. Thus, it is necessary a way to detect these speeches automatically, since the amount of messages published daily is very large, such task becomes impracticable. Using preprocessing methods for features and meta-features extraction, this work obtain promising results in the area of hate speech detection in texts. The proposed method consists of stemization and removal of stopwords for data pre-processing and meta-features extraction with KNN algorithm. Using 10-fold cross validation and the SVM classifier, the proposed method achieves improvements of up to 9.67% over the baseline presented.Submitted by Suelen Spindola Bilhar (suelen.bilhar@uffs.edu.br) on 2019-12-20T17:15:32Z No. of bitstreams: 1 SPONCHIADO.pdf: 1315092 bytes, checksum: b1c60e1cb81ed5e31ced9ec0ee3b90dc (MD5)Approved for entry into archive by Franciele Scaglioni da Cruz (franciele.cruz@uffs.edu.br) on 2020-02-03T15:10:36Z (GMT) No. of bitstreams: 1 SPONCHIADO.pdf: 1315092 bytes, checksum: b1c60e1cb81ed5e31ced9ec0ee3b90dc (MD5)Made available in DSpace on 2020-02-03T15:10:36Z (GMT). No. of bitstreams: 1 SPONCHIADO.pdf: 1315092 bytes, checksum: b1c60e1cb81ed5e31ced9ec0ee3b90dc (MD5) Previous issue date: 2019porUniversidade Federal da Fronteira SulUFFSBrasilCampus ChapecóProcessamento de linguagem naturalRedes sociaisProcessamento de dadosAprendizado computacionalAplicação de meta-atributos para detecção de discurso de ódioinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFFS (Repositório Digital da UFFS)instname:Universidade Federal Fronteira do Sul (UFFS)instacron:UFFSLICENSElicense.txtlicense.txttext/plain; charset=utf-81866https://rd.uffs.edu.br:8443/bitstream/prefix/3365/2/license.txt43cd690d6a359e86c1fe3d5b7cba0c9bMD52ORIGINALSPONCHIADO.pdfSPONCHIADO.pdfapplication/pdf1315092https://rd.uffs.edu.br:8443/bitstream/prefix/3365/1/SPONCHIADO.pdfb1c60e1cb81ed5e31ced9ec0ee3b90dcMD51prefix/33652020-02-03 13:10:36.364oai:rd.uffs.edu.br:prefix/3365TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEKCkNvbSBhIGFwcmVzZW50YcOnw6NvIGRlc3RhIGxpY2Vuw6dhLCB2b2PDqiAobyBhdXRvciAoZXMpIG91IG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpIGNvbmNlZGUgYW8gUmVwb3NpdMOzcmlvIApJbnN0aXR1Y2lvbmFsIG8gZGlyZWl0byBuw6NvLWV4Y2x1c2l2byBkZSByZXByb2R1emlyLCAgdHJhZHV6aXIgKGNvbmZvcm1lIGRlZmluaWRvIGFiYWl4byksIGUvb3UgZGlzdHJpYnVpciBhIApzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIApmb3JtYXRvcyDDoXVkaW8gb3UgdsOtZGVvLgoKVm9jw6ogY29uY29yZGEgcXVlIG8gRGVwb3NpdGEgcG9kZSwgc2VtIGFsdGVyYXIgbyBjb250ZcO6ZG8sIHRyYW5zcG9yIGEgc3VhIHB1YmxpY2HDp8OjbyBwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byAKcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIERlcG9zaXRhIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBkZSBzdWEgcHVibGljYcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIAplIHByZXNlcnZhw6fDo28uCgpWb2PDqiBkZWNsYXJhIHF1ZSBhIHN1YSBwdWJsaWNhw6fDo28gw6kgb3JpZ2luYWwgZSBxdWUgdm9jw6ogdGVtIG8gcG9kZXIgZGUgY29uY2VkZXIgb3MgZGlyZWl0b3MgY29udGlkb3MgbmVzdGEgbGljZW7Dp2EuIApWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRhIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgCmRlIG5pbmd1w6ltLgoKQ2FzbyBhIHN1YSBwdWJsaWNhw6fDo28gY29udGVuaGEgbWF0ZXJpYWwgcXVlIHZvY8OqIG7Do28gcG9zc3VpIGEgdGl0dWxhcmlkYWRlIGRvcyBkaXJlaXRvcyBhdXRvcmFpcywgdm9jw6ogZGVjbGFyYSBxdWUgCm9idGV2ZSBhIHBlcm1pc3PDo28gaXJyZXN0cml0YSBkbyBkZXRlbnRvciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgcGFyYSBjb25jZWRlciBhbyBEZXBvc2l0YSBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgCm5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIGlkZW50aWZpY2FkbyBlIHJlY29uaGVjaWRvIG5vIHRleHRvIApvdSBubyBjb250ZcO6ZG8gZGEgcHVibGljYcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFBVQkxJQ0HDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSBBUE9JTyBERSBVTUEgQUfDik5DSUEgREUgRk9NRU5UTyBPVSBPVVRSTyAKT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgCkVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpPIERlcG9zaXRhIHNlIGNvbXByb21ldGUgYSBpZGVudGlmaWNhciBjbGFyYW1lbnRlIG8gc2V1IG5vbWUgKHMpIG91IG8ocykgbm9tZShzKSBkbyhzKSBkZXRlbnRvcihlcykgZG9zIGRpcmVpdG9zIAphdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório InstitucionalPUBhttps://rd.uffs.edu.br/oai/requestopendoar:39242020-02-03T15:10:36Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)false
dc.title.pt_BR.fl_str_mv	Aplicação de meta-atributos para detecção de discurso de ódio
title	Aplicação de meta-atributos para detecção de discurso de ódio
spellingShingle	Aplicação de meta-atributos para detecção de discurso de ódio Sponchiado, Artur Constanzi Processamento de linguagem natural Redes sociais Processamento de dados Aprendizado computacional
title_short	Aplicação de meta-atributos para detecção de discurso de ódio
title_full	Aplicação de meta-atributos para detecção de discurso de ódio
title_fullStr	Aplicação de meta-atributos para detecção de discurso de ódio
title_full_unstemmed	Aplicação de meta-atributos para detecção de discurso de ódio
title_sort	Aplicação de meta-atributos para detecção de discurso de ódio
author	Sponchiado, Artur Constanzi
author_facet	Sponchiado, Artur Constanzi
author_role	author
dc.contributor.advisor1.fl_str_mv	Dal Bianco, Guilherme
dc.contributor.author.fl_str_mv	Sponchiado, Artur Constanzi
contributor_str_mv	Dal Bianco, Guilherme
dc.subject.por.fl_str_mv	Processamento de linguagem natural Redes sociais Processamento de dados Aprendizado computacional
topic	Processamento de linguagem natural Redes sociais Processamento de dados Aprendizado computacional
description	Com o advento das redes sociais online, espaços de interação entre usuários estão surgindo. Tais espaços podem ser desde comentários em um site de vídeos, até a seção de discussão em um site de notícias, por exemplo. Nesses ambientes, pessoas podem conversar, expor suas opiniões, debater ideias, etc. Todavia, existem grupos se formando que, aproveitando-se do anonimato, propagam discursos de ódio, disseminando ideias xenofóbicas, racistas, entre outras. Indivíduos que compartilham mensagens deste tipo tendem a disfarçar suas palavras, com caracteres especiais ou até mesmo o sarcasmo, tornando assim uma tarefa difícil para algoritmos básicos bloquearem tal conteúdo. Assim, faz-se necessário um meio para detectar estes discursos de forma automática, visto que devido a quantidade de mensagens publicadas diariamente ser muito grande, tal tarefa torna-se inviável. Utilizando abordagens de pré processamento de dados e extração de atributos e meta-atributos, este trabalho obtém resultados promissores na área de detecção de discursos de ódio em textos. O método proposto consiste na stemização e remoção de stopwords na parte do pré-processamento dos dados e na extração de meta-atributos utilizando o algoritmo KNN. Utilizando validação cruzada de 10 vezes e o SVM como classificador, o método proposto obtém melhorias de até 9.67% em relação ao baseline apresentado.
publishDate	2019
dc.date.none.fl_str_mv	2019
dc.date.available.fl_str_mv	2019 2020-02-03T15:10:36Z
dc.date.issued.fl_str_mv	2019
dc.date.accessioned.fl_str_mv	2020-02-03T15:10:36Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://rd.uffs.edu.br/handle/prefix/3365
url	https://rd.uffs.edu.br/handle/prefix/3365
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal da Fronteira Sul
dc.publisher.initials.fl_str_mv	UFFS
dc.publisher.country.fl_str_mv	Brasil
dc.publisher.department.fl_str_mv	Campus Chapecó
publisher.none.fl_str_mv	Universidade Federal da Fronteira Sul
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFFS (Repositório Digital da UFFS) instname:Universidade Federal Fronteira do Sul (UFFS) instacron:UFFS
instname_str	Universidade Federal Fronteira do Sul (UFFS)
instacron_str	UFFS
institution	UFFS
reponame_str	Repositório Institucional da UFFS (Repositório Digital da UFFS)
collection	Repositório Institucional da UFFS (Repositório Digital da UFFS)
bitstream.url.fl_str_mv	https://rd.uffs.edu.br:8443/bitstream/prefix/3365/2/license.txt https://rd.uffs.edu.br:8443/bitstream/prefix/3365/1/SPONCHIADO.pdf
bitstream.checksum.fl_str_mv	43cd690d6a359e86c1fe3d5b7cba0c9b b1c60e1cb81ed5e31ced9ec0ee3b90dc
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFFS (Repositório Digital da UFFS) - Universidade Federal Fronteira do Sul (UFFS)
repository.mail.fl_str_mv
_version_	1809094616362778624

Aplicação de meta-atributos para detecção de discurso de ódio

Registros relacionados