Identificação de comentários ofensivos da Web
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/193539 |
Resumo: | Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline. |
id |
URGS_784c3a232a5c13c42242aa338860a470 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/193539 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Pelle, Rogers Prates deMoreira, Viviane Pereira2019-04-26T02:38:23Z2019http://hdl.handle.net/10183/193539001089534Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.With Web 2.0, users went from being consumers of the available information to becoming the authors of most of the content produced. Users post their opinions in the form of blogs, tweets, posts on social networks, and comments on news portals. Offensive posts are a constant nuisance on many web platforms and have been causing embarrassment, arguments and litigation. As a consequence, there has been a growing interest in creating methods to automatically identify this type of content. Automatically identifying offensive content is a challenging task that needs to address a range of issues such as: the various ways that offenses can be written; the fact that the authors usually disguise profanity to try to circumvent the filters; the dynamism of the Internet vocabulary, among others. In this work, we propose Hate2Vec an approach to detect offensive comments on theWeb. Hate2Vec is composed of a classifier’s ensemble in which a meta-classifier decides whether or not a comment is offensive based on the output of three base classifiers: (i) a lexicon-based classifier which leverages the semantic relatedness of word embeddings; (ii) a logistic regression classifier based on comment embeddings; (iii) and a standard bag-of-words classifier based on unigram features. Our experiments with datasets in English and Portuguese have yielded high classification results (F-measure above 0.9) and significantly outperformed a traditional BOW classifier used as baseline.application/pdfporProcessamento : Linguagem naturalInformatica : LinguisticaIdentification of offensive commentsText classificationNatural language processingWord embeddingsIdentificação de comentários ofensivos da WebIdentification of offensive comments on the web info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001089534.pdf.txt001089534.pdf.txtExtracted Texttext/plain115248http://www.lume.ufrgs.br/bitstream/10183/193539/2/001089534.pdf.txt8bb21dcded5fdfe0ce232e8ab92b0b9dMD52ORIGINAL001089534.pdfTexto completoapplication/pdf877045http://www.lume.ufrgs.br/bitstream/10183/193539/1/001089534.pdf061eb2a380223f455fa6bb9e5f90d6ffMD5110183/1935392019-04-27 02:39:55.437752oai:www.lume.ufrgs.br:10183/193539Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532019-04-27T05:39:55Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Identificação de comentários ofensivos da Web |
dc.title.alternative.en.fl_str_mv |
Identification of offensive comments on the web |
title |
Identificação de comentários ofensivos da Web |
spellingShingle |
Identificação de comentários ofensivos da Web Pelle, Rogers Prates de Processamento : Linguagem natural Informatica : Linguistica Identification of offensive comments Text classification Natural language processing Word embeddings |
title_short |
Identificação de comentários ofensivos da Web |
title_full |
Identificação de comentários ofensivos da Web |
title_fullStr |
Identificação de comentários ofensivos da Web |
title_full_unstemmed |
Identificação de comentários ofensivos da Web |
title_sort |
Identificação de comentários ofensivos da Web |
author |
Pelle, Rogers Prates de |
author_facet |
Pelle, Rogers Prates de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pelle, Rogers Prates de |
dc.contributor.advisor1.fl_str_mv |
Moreira, Viviane Pereira |
contributor_str_mv |
Moreira, Viviane Pereira |
dc.subject.por.fl_str_mv |
Processamento : Linguagem natural Informatica : Linguistica |
topic |
Processamento : Linguagem natural Informatica : Linguistica Identification of offensive comments Text classification Natural language processing Word embeddings |
dc.subject.eng.fl_str_mv |
Identification of offensive comments Text classification Natural language processing Word embeddings |
description |
Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline. |
publishDate |
2019 |
dc.date.accessioned.fl_str_mv |
2019-04-26T02:38:23Z |
dc.date.issued.fl_str_mv |
2019 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/193539 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001089534 |
url |
http://hdl.handle.net/10183/193539 |
identifier_str_mv |
001089534 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/193539/2/001089534.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/193539/1/001089534.pdf |
bitstream.checksum.fl_str_mv |
8bb21dcded5fdfe0ce232e8ab92b0b9d 061eb2a380223f455fa6bb9e5f90d6ff |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085476706549760 |