Detecção de notícias falsas usando poucos dados positivos rotulados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-22122023-125502/ |
Resumo: | O avanço da tecnologia tem permitido a disseminação de notícias falsas em larga escala. Criadas para manipular a perspectiva de usuários, atrair sua postura ideológica e instigá-los a compartilhar a informação, notícias falsas vêm se tornando mais suscetíveis a enganar o público alvo. Métodos de Aprendizado de Máquina têm sido utilizados como estratégia promissora para auxiliar na detecção de conteúdo falso, cujo problema geralmente é modelado com algoritmos de aprendizado binário ou multiclasse. No entanto, um dos desafios é definir um conjunto de notícias representativo e conciso para treinar os algoritmos, devido (i) ao desbalanceamento naturalmente latente entre a quantidade de notícias verdadeiras e falsas disponíveis; (ii) a dinamicidade na qual notícias falsas evoluem, cada vez mais convincentes e semelhantes a notícias verídicas; (iii) além da dificuldade em se rotular uma grande quantidade de notícias, sendo necessário a checagem de cada fato relatado no conteúdo da publicação. Considerando a dificuldade na rotulação de notícias falsas (exemplos de interesse, ou positivos) enquanto a caracterização de notícias verdadeiras é ampla (exemplos não interessantes, ou negativos), neste projeto é proposta uma abordagem para detecção de notícias falsas que caracteriza o problema por meio de Aprendizado de Uma Única Classe (OCL). Algoritmos OCL aprendem modelos de classificação considerando apenas informações da classe de interesse. Além disso, métodos de Aprendizado Positivo e Não Rotulado (PUL) utilizam informações de dados não rotulados com o intuito de aumentar o desempenho de classificação. Neste trabalho são propostas abordagens baseadas no algoritmo Positive and Unlabeled Learning by Label Propagation (PU-LP), um algoritmo PUL baseado em redes de similaridade. PU-LP identifica potenciais exemplos da classe positiva e negativa, e posteriormente um algoritmo semissupervionado realiza a classificação dos demais nós não rotulados. São avaliadas diferentes configurações de rede e algoritmos de classificação semissupervisionados em seis bases de notícias que apresentam cenários distintos quanto a linguagem, tópicos, tipo de coleta e balanceamento entre as classes. Experimentos indicam que redes compostas por notícias e termos representativos podem beneficiar o desempenho da abordagem, que é capaz de indetificar notícias falsas com até 94% de F1 usando 10% de dados positivos rotulados. |
id |
USP_bf43f53d73a2d95317ecddce7723fd85 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-22122023-125502 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Detecção de notícias falsas usando poucos dados positivos rotuladosFake news detection using few positive labelsAprendizado de uma única classeAprendizado positivo e não rotuladoAprendizado semissupervisionadoDetecção de notícias falsasFake news detectionHeterogeneous networksOne class learningPositive and unlabeled learningRedes heterogêneasSemi-supervised learningO avanço da tecnologia tem permitido a disseminação de notícias falsas em larga escala. Criadas para manipular a perspectiva de usuários, atrair sua postura ideológica e instigá-los a compartilhar a informação, notícias falsas vêm se tornando mais suscetíveis a enganar o público alvo. Métodos de Aprendizado de Máquina têm sido utilizados como estratégia promissora para auxiliar na detecção de conteúdo falso, cujo problema geralmente é modelado com algoritmos de aprendizado binário ou multiclasse. No entanto, um dos desafios é definir um conjunto de notícias representativo e conciso para treinar os algoritmos, devido (i) ao desbalanceamento naturalmente latente entre a quantidade de notícias verdadeiras e falsas disponíveis; (ii) a dinamicidade na qual notícias falsas evoluem, cada vez mais convincentes e semelhantes a notícias verídicas; (iii) além da dificuldade em se rotular uma grande quantidade de notícias, sendo necessário a checagem de cada fato relatado no conteúdo da publicação. Considerando a dificuldade na rotulação de notícias falsas (exemplos de interesse, ou positivos) enquanto a caracterização de notícias verdadeiras é ampla (exemplos não interessantes, ou negativos), neste projeto é proposta uma abordagem para detecção de notícias falsas que caracteriza o problema por meio de Aprendizado de Uma Única Classe (OCL). Algoritmos OCL aprendem modelos de classificação considerando apenas informações da classe de interesse. Além disso, métodos de Aprendizado Positivo e Não Rotulado (PUL) utilizam informações de dados não rotulados com o intuito de aumentar o desempenho de classificação. Neste trabalho são propostas abordagens baseadas no algoritmo Positive and Unlabeled Learning by Label Propagation (PU-LP), um algoritmo PUL baseado em redes de similaridade. PU-LP identifica potenciais exemplos da classe positiva e negativa, e posteriormente um algoritmo semissupervionado realiza a classificação dos demais nós não rotulados. São avaliadas diferentes configurações de rede e algoritmos de classificação semissupervisionados em seis bases de notícias que apresentam cenários distintos quanto a linguagem, tópicos, tipo de coleta e balanceamento entre as classes. Experimentos indicam que redes compostas por notícias e termos representativos podem beneficiar o desempenho da abordagem, que é capaz de indetificar notícias falsas com até 94% de F1 usando 10% de dados positivos rotulados.The advancement of technology has allowed the spread of fake news on a large scale. Fake news is created to manipulate users perspectives, attract their ideological stance and instigate them to share information, and it is becoming more susceptible to misleading the target audience. Machine Learning methods have been used as a promising strategy to detect fake content, whose problem is usually modeled with binary or multiclass learning algorithms. However, one of the challenges is to define a representative and concise set of news to train the algorithms due to (i) the naturally latent imbalance between the amount of true and false news available; (ii) the dynamism in which fake news evolves, increasingly convincing and similar to accurate news; (iii) in addition to the difficulty in labeling a large amount of news, it is necessary to check each fact reported in the publications content. Considering the difficulty in labeling fake news (examples of interest or positive) while the characterization of true news is broad (not interesting or negative examples), this project proposes an approach for detecting fake news that characterizes the problem through One-Class Learning (OCL). OCL algorithms learn classification models considering only information from the class of interest. In addition, Positive Learning and Unlabeled (PUL) methods use information from unlabeled data to increase classification performance. This work proposes approaches based on the Positive and Unlabeled Learning by Label Propagation (PU-LP) algorithm, a PUL algorithm based on similarity networks. PU-LP identifies potential examples of the positive and negative class, and subsequently, a semi-supervised algorithm calculates the remaining unlabeled nodes. Different network configurations and semi-supervised classification algorithms are evaluated in six news bases that present different scenarios regarding language, topics, type of collection, and balance between classes. Experiments indicate that networks composed of news and representative terms can improve the performance of the approach, which is capable of identifying fake news with up to a 94% F1 score using 10% of labeled positive data.Biblioteca Digitais de Teses e Dissertações da USPJorge, Alípio Mário GuedesRezende, Solange OliveiraSouza, Mariana Caravanti de2023-09-05info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-22122023-125502/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-12-22T16:45:02Zoai:teses.usp.br:tde-22122023-125502Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-12-22T16:45:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Detecção de notícias falsas usando poucos dados positivos rotulados Fake news detection using few positive labels |
title |
Detecção de notícias falsas usando poucos dados positivos rotulados |
spellingShingle |
Detecção de notícias falsas usando poucos dados positivos rotulados Souza, Mariana Caravanti de Aprendizado de uma única classe Aprendizado positivo e não rotulado Aprendizado semissupervisionado Detecção de notícias falsas Fake news detection Heterogeneous networks One class learning Positive and unlabeled learning Redes heterogêneas Semi-supervised learning |
title_short |
Detecção de notícias falsas usando poucos dados positivos rotulados |
title_full |
Detecção de notícias falsas usando poucos dados positivos rotulados |
title_fullStr |
Detecção de notícias falsas usando poucos dados positivos rotulados |
title_full_unstemmed |
Detecção de notícias falsas usando poucos dados positivos rotulados |
title_sort |
Detecção de notícias falsas usando poucos dados positivos rotulados |
author |
Souza, Mariana Caravanti de |
author_facet |
Souza, Mariana Caravanti de |
author_role |
author |
dc.contributor.none.fl_str_mv |
Jorge, Alípio Mário Guedes Rezende, Solange Oliveira |
dc.contributor.author.fl_str_mv |
Souza, Mariana Caravanti de |
dc.subject.por.fl_str_mv |
Aprendizado de uma única classe Aprendizado positivo e não rotulado Aprendizado semissupervisionado Detecção de notícias falsas Fake news detection Heterogeneous networks One class learning Positive and unlabeled learning Redes heterogêneas Semi-supervised learning |
topic |
Aprendizado de uma única classe Aprendizado positivo e não rotulado Aprendizado semissupervisionado Detecção de notícias falsas Fake news detection Heterogeneous networks One class learning Positive and unlabeled learning Redes heterogêneas Semi-supervised learning |
description |
O avanço da tecnologia tem permitido a disseminação de notícias falsas em larga escala. Criadas para manipular a perspectiva de usuários, atrair sua postura ideológica e instigá-los a compartilhar a informação, notícias falsas vêm se tornando mais suscetíveis a enganar o público alvo. Métodos de Aprendizado de Máquina têm sido utilizados como estratégia promissora para auxiliar na detecção de conteúdo falso, cujo problema geralmente é modelado com algoritmos de aprendizado binário ou multiclasse. No entanto, um dos desafios é definir um conjunto de notícias representativo e conciso para treinar os algoritmos, devido (i) ao desbalanceamento naturalmente latente entre a quantidade de notícias verdadeiras e falsas disponíveis; (ii) a dinamicidade na qual notícias falsas evoluem, cada vez mais convincentes e semelhantes a notícias verídicas; (iii) além da dificuldade em se rotular uma grande quantidade de notícias, sendo necessário a checagem de cada fato relatado no conteúdo da publicação. Considerando a dificuldade na rotulação de notícias falsas (exemplos de interesse, ou positivos) enquanto a caracterização de notícias verdadeiras é ampla (exemplos não interessantes, ou negativos), neste projeto é proposta uma abordagem para detecção de notícias falsas que caracteriza o problema por meio de Aprendizado de Uma Única Classe (OCL). Algoritmos OCL aprendem modelos de classificação considerando apenas informações da classe de interesse. Além disso, métodos de Aprendizado Positivo e Não Rotulado (PUL) utilizam informações de dados não rotulados com o intuito de aumentar o desempenho de classificação. Neste trabalho são propostas abordagens baseadas no algoritmo Positive and Unlabeled Learning by Label Propagation (PU-LP), um algoritmo PUL baseado em redes de similaridade. PU-LP identifica potenciais exemplos da classe positiva e negativa, e posteriormente um algoritmo semissupervionado realiza a classificação dos demais nós não rotulados. São avaliadas diferentes configurações de rede e algoritmos de classificação semissupervisionados em seis bases de notícias que apresentam cenários distintos quanto a linguagem, tópicos, tipo de coleta e balanceamento entre as classes. Experimentos indicam que redes compostas por notícias e termos representativos podem beneficiar o desempenho da abordagem, que é capaz de indetificar notícias falsas com até 94% de F1 usando 10% de dados positivos rotulados. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-05 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-22122023-125502/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-22122023-125502/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257289657942016 |