Identificação de comentários ofensivos da Web

Pelle, Rogers Prates de

Identificação de comentários ofensivos da Web

Detalhes bibliográficos
Autor(a) principal:	Pelle, Rogers Prates de
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo:	http://hdl.handle.net/10183/193539
Resumo:	Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.

Metadados do item

id	URGS_784c3a232a5c13c42242aa338860a470
oai_identifier_str	oai:www.lume.ufrgs.br:10183/193539
network_acronym_str	URGS
network_name_str	Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str	1853
spelling	Pelle, Rogers Prates deMoreira, Viviane Pereira2019-04-26T02:38:23Z2019http://hdl.handle.net/10183/193539001089534Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.With Web 2.0, users went from being consumers of the available information to becoming the authors of most of the content produced. Users post their opinions in the form of blogs, tweets, posts on social networks, and comments on news portals. Offensive posts are a constant nuisance on many web platforms and have been causing embarrassment, arguments and litigation. As a consequence, there has been a growing interest in creating methods to automatically identify this type of content. Automatically identifying offensive content is a challenging task that needs to address a range of issues such as: the various ways that offenses can be written; the fact that the authors usually disguise profanity to try to circumvent the filters; the dynamism of the Internet vocabulary, among others. In this work, we propose Hate2Vec an approach to detect offensive comments on theWeb. Hate2Vec is composed of a classifier’s ensemble in which a meta-classifier decides whether or not a comment is offensive based on the output of three base classifiers: (i) a lexicon-based classifier which leverages the semantic relatedness of word embeddings; (ii) a logistic regression classifier based on comment embeddings; (iii) and a standard bag-of-words classifier based on unigram features. Our experiments with datasets in English and Portuguese have yielded high classification results (F-measure above 0.9) and significantly outperformed a traditional BOW classifier used as baseline.application/pdfporProcessamento : Linguagem naturalInformatica : LinguisticaIdentification of offensive commentsText classificationNatural language processingWord embeddingsIdentificação de comentários ofensivos da WebIdentification of offensive comments on the web info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2019mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001089534.pdf.txt001089534.pdf.txtExtracted Texttext/plain115248http://www.lume.ufrgs.br/bitstream/10183/193539/2/001089534.pdf.txt8bb21dcded5fdfe0ce232e8ab92b0b9dMD52ORIGINAL001089534.pdfTexto completoapplication/pdf877045http://www.lume.ufrgs.br/bitstream/10183/193539/1/001089534.pdf061eb2a380223f455fa6bb9e5f90d6ffMD5110183/1935392019-04-27 02:39:55.437752oai:www.lume.ufrgs.br:10183/193539Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br\|\|lume@ufrgs.bropendoar:18532019-04-27T05:39:55Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Identificação de comentários ofensivos da Web
dc.title.alternative.en.fl_str_mv	Identification of offensive comments on the web
title	Identificação de comentários ofensivos da Web
spellingShingle	Identificação de comentários ofensivos da Web Pelle, Rogers Prates de Processamento : Linguagem natural Informatica : Linguistica Identification of offensive comments Text classification Natural language processing Word embeddings
title_short	Identificação de comentários ofensivos da Web
title_full	Identificação de comentários ofensivos da Web
title_fullStr	Identificação de comentários ofensivos da Web
title_full_unstemmed	Identificação de comentários ofensivos da Web
title_sort	Identificação de comentários ofensivos da Web
author	Pelle, Rogers Prates de
author_facet	Pelle, Rogers Prates de
author_role	author
dc.contributor.author.fl_str_mv	Pelle, Rogers Prates de
dc.contributor.advisor1.fl_str_mv	Moreira, Viviane Pereira
contributor_str_mv	Moreira, Viviane Pereira
dc.subject.por.fl_str_mv	Processamento : Linguagem natural Informatica : Linguistica
topic	Processamento : Linguagem natural Informatica : Linguistica Identification of offensive comments Text classification Natural language processing Word embeddings
dc.subject.eng.fl_str_mv	Identification of offensive comments Text classification Natural language processing Word embeddings
description	Com aWeb 2.0, os usuários deixaram de ser apenas consumidores da informação disponível e passaram a ser autores da maior parte do conteúdo produzido. Usuários postam suas opiniões sob a forma de blogs, tweets, posts em redes sociais e comentários em portais de notícias. Postagens ofensivas são um incômodo constante em muitas plataformas da Web e vêm causando constrangimentos, brigas e processos judiciais. Como consequência, tem havido um crescente interesse em criar métodos para identificar automaticamente este tipo de conteúdo. A identificação automática de conteúdo ofensivo é uma tarefa desafiadora que precisa lidar com uma série de questões tais como: as diversas formas que as ofensas podem ser escritas; o fato de que os autores costumam disfarçar palavrões para tentar burlar os filtros; a dinamicidade do vocabulário da Internet, entre outas. Neste trabalho, é proposta uma abordagem para detectar comentários ofensivos na Web, denominada Hate2Vec, que é composta por um ensemble de classificadores no qual um meta-classificador decide se um comentário é ou não ofensivo com base na saída de três classificadores base: (i) um classificador baseado em léxico que utiliza a proximidade semântica das representações vetoriais de palavras; (ii) um classificador de regressão logística baseado em representações vetoriais de comentários; e (iii) um classificador bag-of-words baseado nos uni-gramas do texto. Nos experimentos realizados com conjuntos de dados em inglês e português, o Hate2Vec produziu bons resultados de classificação (medida F acima de 0,9) e superaram significativamente o baseline.
publishDate	2019
dc.date.accessioned.fl_str_mv	2019-04-26T02:38:23Z
dc.date.issued.fl_str_mv	2019
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/193539
dc.identifier.nrb.pt_BR.fl_str_mv	001089534
url	http://hdl.handle.net/10183/193539
identifier_str_mv	001089534
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Biblioteca Digital de Teses e Dissertações da UFRGS
collection	Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/193539/2/001089534.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/193539/1/001089534.pdf
bitstream.checksum.fl_str_mv	8bb21dcded5fdfe0ce232e8ab92b0b9d 061eb2a380223f455fa6bb9e5f90d6ff
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br\|\|lume@ufrgs.br
_version_	1810085476706549760

Identificação de comentários ofensivos da Web

Registros relacionados