Identificação de comentários ofensivos da Web

Detalhes bibliográficos
Autor(a) principal: Pelle, Rogers Prates de
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/193539
Resumo: Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.
id URGS_784c3a232a5c13c42242aa338860a470
oai_identifier_str oai:www.lume.ufrgs.br:10183/193539
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Pelle, Rogers Prates deMoreira, Viviane Pereira2019-04-26T02:38:23Z2019http://hdl.handle.net/10183/193539001089534Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.With Web 2.0, users went from being consumers of the available information to becoming the authors of most of the content produced. Users post their opinions in the form of blogs, tweets, posts on social networks, and comments on news portals. Offensive posts are a constant nuisance on many web platforms and have been causing embarrassment, arguments and litigation. As a consequence, there has been a growing interest in creating methods to automatically identify this type of content. Automatically identifying offensive content is a challenging task that needs to address a range of issues such as: the various ways that offenses can be written; the fact that the authors usually disguise profanity to try to circumvent the filters; the dynamism of the Internet vocabulary, among others. In this work, we propose Hate2Vec an approach to detect offensive comments on theWeb. Hate2Vec is composed of a classifier’s ensemble in which a meta-classifier decides whether or not a comment is offensive based on the output of three base classifiers: (i) a lexicon-based classifier which leverages the semantic relatedness of word embeddings; (ii) a logistic regression classifier based on comment embeddings; (iii) and a standard bag-of-words classifier based on unigram features. Our experiments with datasets in English and Portuguese have yielded high classification results (F-measure above 0.9) and significantly outperformed a traditional BOW classifier used as baseline.application/pdfporProcessamento : Linguagem naturalInformatica : LinguisticaIdentification of offensive commentsText classificationNatural language processingWord embeddingsIdentificação de comentários ofensivos da WebIdentification of offensive comments on the web info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001089534.pdf.txt001089534.pdf.txtExtracted Texttext/plain115248http://www.lume.ufrgs.br/bitstream/10183/193539/2/001089534.pdf.txt8bb21dcded5fdfe0ce232e8ab92b0b9dMD52ORIGINAL001089534.pdfTexto completoapplication/pdf877045http://www.lume.ufrgs.br/bitstream/10183/193539/1/001089534.pdf061eb2a380223f455fa6bb9e5f90d6ffMD5110183/1935392019-04-27 02:39:55.437752oai:www.lume.ufrgs.br:10183/193539Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532019-04-27T05:39:55Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Identificação de comentários ofensivos da Web
dc.title.alternative.en.fl_str_mv Identification of offensive comments on the web
title Identificação de comentários ofensivos da Web
spellingShingle Identificação de comentários ofensivos da Web
Pelle, Rogers Prates de
Processamento : Linguagem natural
Informatica : Linguistica
Identification of offensive comments
Text classification
Natural language processing
Word embeddings
title_short Identificação de comentários ofensivos da Web
title_full Identificação de comentários ofensivos da Web
title_fullStr Identificação de comentários ofensivos da Web
title_full_unstemmed Identificação de comentários ofensivos da Web
title_sort Identificação de comentários ofensivos da Web
author Pelle, Rogers Prates de
author_facet Pelle, Rogers Prates de
author_role author
dc.contributor.author.fl_str_mv Pelle, Rogers Prates de
dc.contributor.advisor1.fl_str_mv Moreira, Viviane Pereira
contributor_str_mv Moreira, Viviane Pereira
dc.subject.por.fl_str_mv Processamento : Linguagem natural
Informatica : Linguistica
topic Processamento : Linguagem natural
Informatica : Linguistica
Identification of offensive comments
Text classification
Natural language processing
Word embeddings
dc.subject.eng.fl_str_mv Identification of offensive comments
Text classification
Natural language processing
Word embeddings
description Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.
publishDate 2019
dc.date.accessioned.fl_str_mv 2019-04-26T02:38:23Z
dc.date.issued.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/193539
dc.identifier.nrb.pt_BR.fl_str_mv 001089534
url http://hdl.handle.net/10183/193539
identifier_str_mv 001089534
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/193539/2/001089534.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/193539/1/001089534.pdf
bitstream.checksum.fl_str_mv 8bb21dcded5fdfe0ce232e8ab92b0b9d
061eb2a380223f455fa6bb9e5f90d6ff
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085476706549760