Transferência de aprendizado na classificação de comentários tóxicos em português

Detalhes bibliográficos
Autor(a) principal: Nakao, Arthur de Lima
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/26659
Resumo: O avanço de comentários tóxicos nas redes sociais é um problema grave que pode causar diversos transtornos psicológicos nos alvos desses comentários. Para impedir esse tipo de comentário, as redes sociais poderiam utilizar algoritmos de aprendizado de máquina a fim de detectar essa toxicidade e não deixar que ela se espalhe. Grandes bases de dados anotadas para esse tipo de tarefa em inglês estão disponíveis, o que torna muito mais fácil o treinamento de modelos capazes de realizar a classificação de comentários ofensivos neste idioma. Por outro lado, torna-se mais desafiador realizar o treinamento de classificadores capazes de detectar comentários tóxicos em idiomas como o português, que possui poucas bases de dados previamente anotadas para esta tarefa em comparação com o inglês. Pensando nisso, o presente trabalho compara classificadores para detecção de comentário tóxico em Português que utilizam formas distintas de vetorização para representar textos: bag of words, embeddings estáticos e embeddings contextualizados. Também são realizadas comparações usando modelos pré-treinados em português, espanhol e um modelo multilíngue. A partir dessas comparações, foi possível constatar que a classificação de comentários em português como tóxico ou não tóxico utilizando modelos pré-treinados em línguas diferentes do português não é uma boa solução para resolver o problema. Foi possível perceber, também, que a utilização desses modelos sem um ajuste nos pesos da rede para a tarefa que estiver sendo classificada não retorna bons resultados. Além disso, foi possível verificar que a utilização de modelos pré-treinados sem qualquer tipo de ajuste específico para a tarefa em questão não traz bons resultados e que é preferível o uso de embeddings contextualizados em relação aos estáticos. Conclui-se que não foi possível chegar a resultados excelentes que resolvam o problema da falta de bases de dados anotadas para a classificação de comentários tóxicos em português, mas verificou-se que modelos pré-treinados retornam melhores resultados quando passam pelo processo de fine-tuning.
id UFF-2_f8aecdb2d2c7ab4726ab991e75687a1f
oai_identifier_str oai:app.uff.br:1/26659
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Transferência de aprendizado na classificação de comentários tóxicos em portuguêsInteligência ArtificialAprendizado de MáquinaRedes NeuraisZero-ShotFine-TuningComentário TóxicoInteligência ArtificialAprendizado de máquinaRede neuralZero-ShotFine-TuningComentário TóxicoArtificial IntelligenceMachine LearningNeural NetworkToxic CommentArtificial IntelligenceMachine LearningNeural NetworkToxic CommentO avanço de comentários tóxicos nas redes sociais é um problema grave que pode causar diversos transtornos psicológicos nos alvos desses comentários. Para impedir esse tipo de comentário, as redes sociais poderiam utilizar algoritmos de aprendizado de máquina a fim de detectar essa toxicidade e não deixar que ela se espalhe. Grandes bases de dados anotadas para esse tipo de tarefa em inglês estão disponíveis, o que torna muito mais fácil o treinamento de modelos capazes de realizar a classificação de comentários ofensivos neste idioma. Por outro lado, torna-se mais desafiador realizar o treinamento de classificadores capazes de detectar comentários tóxicos em idiomas como o português, que possui poucas bases de dados previamente anotadas para esta tarefa em comparação com o inglês. Pensando nisso, o presente trabalho compara classificadores para detecção de comentário tóxico em Português que utilizam formas distintas de vetorização para representar textos: bag of words, embeddings estáticos e embeddings contextualizados. Também são realizadas comparações usando modelos pré-treinados em português, espanhol e um modelo multilíngue. A partir dessas comparações, foi possível constatar que a classificação de comentários em português como tóxico ou não tóxico utilizando modelos pré-treinados em línguas diferentes do português não é uma boa solução para resolver o problema. Foi possível perceber, também, que a utilização desses modelos sem um ajuste nos pesos da rede para a tarefa que estiver sendo classificada não retorna bons resultados. Além disso, foi possível verificar que a utilização de modelos pré-treinados sem qualquer tipo de ajuste específico para a tarefa em questão não traz bons resultados e que é preferível o uso de embeddings contextualizados em relação aos estáticos. Conclui-se que não foi possível chegar a resultados excelentes que resolvam o problema da falta de bases de dados anotadas para a classificação de comentários tóxicos em português, mas verificou-se que modelos pré-treinados retornam melhores resultados quando passam pelo processo de fine-tuning.The advance of toxic comments on social networks is a serious problem that can cause several psychological disorders in their targets. To prevent this type of comment, social networks could use machine learning algorithms to detect this toxicity and not let it spread. Large databases annotated for this task in English are available, making it much easier to train models capable of classifying offensive comments in this language. On the other hand, it becomes more challenging to train classifiers capable of detecting toxic comments in languages such as Portuguese, which has few previously annotated databases for this task compared to English. With this in mind, the present work compares classifiers for detecting toxic commentary in Portuguese that use different forms of vectorization to represent texts: bag of words, static embeddings and contextualized embeddings. Comparisons are also performed using pre-trained models in Portuguese, Spanish and a multilingual model. From these comparisons, it was possible to verify that the classification of comments in Portuguese as toxic or non-toxic using pre-trained models in languages other than Portuguese is not a good solution to solve the problem. It was also possible to notice that using these models without adjusting the network weights for the classified task does not yield good results. mn addition, it was possible to verify that using pre-trained models without any specific adjustment for the task in question does not bring good results and that using contextualized embeddings is preferable to static ones. It is concluded that it challenging to reach excellent results that solve the problem of the lack of annotated databases for the classification of toxic comments in Portuguese, but pre-trained models return better results when they go through the fine-tuning process.45 f.Carvalho, Aline Marins Paeshttp://lattes.cnpq.br/0506389215528790Santos, Jéssica Soares doshttp://lattes.cnpq.br/5307627382761173Vieira, Bruno Lopeshttp://lattes.cnpq.br/7793315334001237Carvalho, Jonnathan dos Santoshttp://lattes.cnpq.br/5352295277350063http://lattes.cnpq.br/3131057038062913Nakao, Arthur de Lima2022-10-26T13:16:43Z2022-10-26T13:16:43Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfNAKAO, Arthur de Lima. Transferência de aprendizado na classificação de comentários tóxicos em português. 2022. 45 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/26659CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-10-26T13:16:47Zoai:app.uff.br:1/26659Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202022-10-26T13:16:47Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Transferência de aprendizado na classificação de comentários tóxicos em português
title Transferência de aprendizado na classificação de comentários tóxicos em português
spellingShingle Transferência de aprendizado na classificação de comentários tóxicos em português
Nakao, Arthur de Lima
Inteligência Artificial
Aprendizado de Máquina
Redes Neurais
Zero-Shot
Fine-Tuning
Comentário Tóxico
Inteligência Artificial
Aprendizado de máquina
Rede neural
Zero-Shot
Fine-Tuning
Comentário Tóxico
Artificial Intelligence
Machine Learning
Neural Network
Toxic Comment
Artificial Intelligence
Machine Learning
Neural Network
Toxic Comment
title_short Transferência de aprendizado na classificação de comentários tóxicos em português
title_full Transferência de aprendizado na classificação de comentários tóxicos em português
title_fullStr Transferência de aprendizado na classificação de comentários tóxicos em português
title_full_unstemmed Transferência de aprendizado na classificação de comentários tóxicos em português
title_sort Transferência de aprendizado na classificação de comentários tóxicos em português
author Nakao, Arthur de Lima
author_facet Nakao, Arthur de Lima
author_role author
dc.contributor.none.fl_str_mv Carvalho, Aline Marins Paes
http://lattes.cnpq.br/0506389215528790
Santos, Jéssica Soares dos
http://lattes.cnpq.br/5307627382761173
Vieira, Bruno Lopes
http://lattes.cnpq.br/7793315334001237
Carvalho, Jonnathan dos Santos
http://lattes.cnpq.br/5352295277350063
http://lattes.cnpq.br/3131057038062913
dc.contributor.author.fl_str_mv Nakao, Arthur de Lima
dc.subject.por.fl_str_mv Inteligência Artificial
Aprendizado de Máquina
Redes Neurais
Zero-Shot
Fine-Tuning
Comentário Tóxico
Inteligência Artificial
Aprendizado de máquina
Rede neural
Zero-Shot
Fine-Tuning
Comentário Tóxico
Artificial Intelligence
Machine Learning
Neural Network
Toxic Comment
Artificial Intelligence
Machine Learning
Neural Network
Toxic Comment
topic Inteligência Artificial
Aprendizado de Máquina
Redes Neurais
Zero-Shot
Fine-Tuning
Comentário Tóxico
Inteligência Artificial
Aprendizado de máquina
Rede neural
Zero-Shot
Fine-Tuning
Comentário Tóxico
Artificial Intelligence
Machine Learning
Neural Network
Toxic Comment
Artificial Intelligence
Machine Learning
Neural Network
Toxic Comment
description O avanço de comentários tóxicos nas redes sociais é um problema grave que pode causar diversos transtornos psicológicos nos alvos desses comentários. Para impedir esse tipo de comentário, as redes sociais poderiam utilizar algoritmos de aprendizado de máquina a fim de detectar essa toxicidade e não deixar que ela se espalhe. Grandes bases de dados anotadas para esse tipo de tarefa em inglês estão disponíveis, o que torna muito mais fácil o treinamento de modelos capazes de realizar a classificação de comentários ofensivos neste idioma. Por outro lado, torna-se mais desafiador realizar o treinamento de classificadores capazes de detectar comentários tóxicos em idiomas como o português, que possui poucas bases de dados previamente anotadas para esta tarefa em comparação com o inglês. Pensando nisso, o presente trabalho compara classificadores para detecção de comentário tóxico em Português que utilizam formas distintas de vetorização para representar textos: bag of words, embeddings estáticos e embeddings contextualizados. Também são realizadas comparações usando modelos pré-treinados em português, espanhol e um modelo multilíngue. A partir dessas comparações, foi possível constatar que a classificação de comentários em português como tóxico ou não tóxico utilizando modelos pré-treinados em línguas diferentes do português não é uma boa solução para resolver o problema. Foi possível perceber, também, que a utilização desses modelos sem um ajuste nos pesos da rede para a tarefa que estiver sendo classificada não retorna bons resultados. Além disso, foi possível verificar que a utilização de modelos pré-treinados sem qualquer tipo de ajuste específico para a tarefa em questão não traz bons resultados e que é preferível o uso de embeddings contextualizados em relação aos estáticos. Conclui-se que não foi possível chegar a resultados excelentes que resolvam o problema da falta de bases de dados anotadas para a classificação de comentários tóxicos em português, mas verificou-se que modelos pré-treinados retornam melhores resultados quando passam pelo processo de fine-tuning.
publishDate 2022
dc.date.none.fl_str_mv 2022-10-26T13:16:43Z
2022-10-26T13:16:43Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv NAKAO, Arthur de Lima. Transferência de aprendizado na classificação de comentários tóxicos em português. 2022. 45 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.
http://app.uff.br/riuff/handle/1/26659
identifier_str_mv NAKAO, Arthur de Lima. Transferência de aprendizado na classificação de comentários tóxicos em português. 2022. 45 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.
url http://app.uff.br/riuff/handle/1/26659
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1802135317806841856