FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação

Silva, Flávio Roberto Matias da

FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação

Detalhes bibliográficos
Autor(a) principal:	Silva, Flávio Roberto Matias da
Data de Publicação:	2020
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
Texto Completo:	https://www.repositorio.mar.mil.br/handle/ripcmb/845427
Resumo:	Devido ao fácil acesso e ao baixo custo, o consumo de notícias on-line em redes sociais aumentou significativamente na última década. Apesar de seus benefícios, algumas redes sociais permitem que qualquer pessoa divulgue notícias com intenso poder de difusão, o que amplia um problema antigo: a disseminação do fake news (i.e., notícias falsas veiculadas de forma intencional). A proliferação de fake news, geralmente, afeta não apenas a integridade jornalística, mas também perturba as áreas social, política, econômica, cultural, assim como da saúde e segurança. Diante desse cenário, foram propostos vários métodos baseados em aprendizado de máquina para detectar automaticamente fake news (machine learningbased methods to automatically detect fake news- MLFN). Esses métodos necessitam de datasets para treinar e avaliar seus modelos de detecção. Embora os MLFN recentes tenham sido projetados para considerar dados sobre a propagação de notícias em redes sociais, poucos dos datasets disponíveis contêm esses dados. Assim, a comparação de desempenho entre MLFN está restrita à utilização de um número limitado de datasets. Além disso, os datasets existentes com dados de propagação não contêm notícias em português, o que prejudica a avaliação do MLFN nesse idioma. Portanto, este trabalho propõe o FakeNewsSetGen, um processo de construção de datasets para o estudo de fake news que contenham dados de propagação de notícias e viabilizem a comparação entre MLFN. O processo de engenharia de software do FakeNewsSetGen foi orientado para incluir todos os tipos de dados exigidos pelos MLFN existentes. Para ilustrar a viabilidade e adequação do FakeNewsSetGen, foi realizado um estudo de caso que abrange a implementação de um protótipo do FakeNewsSetGen e a aplicação desse protótipo para criar uma instância de dataset denominada FakeNewsSet, composta de notícias em português. Dez MLFN com diferentes tipos de requisitos de dados (sete deles exigindo dados de propagação de notícias) foram aplicados ao FakeNewsSet e comparados, demonstrando o potencial de utilização do processo proposto e do dataset criado.

Metadados do item

id	MB_c324375c784fe47bb7c4df2a1fe2977d
oai_identifier_str	oai:www.repositorio.mar.mil.br:ripcmb/845427
network_acronym_str	MB
network_name_str	Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
repository_id_str
spelling	Silva, Flávio Roberto Matias daGoldschmidt, Ronaldo Ribeiro2022-08-26T19:18:39Z2022-08-26T19:18:39Z2020https://www.repositorio.mar.mil.br/handle/ripcmb/845427Devido ao fácil acesso e ao baixo custo, o consumo de notícias on-line em redes sociais aumentou significativamente na última década. Apesar de seus benefícios, algumas redes sociais permitem que qualquer pessoa divulgue notícias com intenso poder de difusão, o que amplia um problema antigo: a disseminação do fake news (i.e., notícias falsas veiculadas de forma intencional). A proliferação de fake news, geralmente, afeta não apenas a integridade jornalística, mas também perturba as áreas social, política, econômica, cultural, assim como da saúde e segurança. Diante desse cenário, foram propostos vários métodos baseados em aprendizado de máquina para detectar automaticamente fake news (machine learningbased methods to automatically detect fake news- MLFN). Esses métodos necessitam de datasets para treinar e avaliar seus modelos de detecção. Embora os MLFN recentes tenham sido projetados para considerar dados sobre a propagação de notícias em redes sociais, poucos dos datasets disponíveis contêm esses dados. Assim, a comparação de desempenho entre MLFN está restrita à utilização de um número limitado de datasets. Além disso, os datasets existentes com dados de propagação não contêm notícias em português, o que prejudica a avaliação do MLFN nesse idioma. Portanto, este trabalho propõe o FakeNewsSetGen, um processo de construção de datasets para o estudo de fake news que contenham dados de propagação de notícias e viabilizem a comparação entre MLFN. O processo de engenharia de software do FakeNewsSetGen foi orientado para incluir todos os tipos de dados exigidos pelos MLFN existentes. Para ilustrar a viabilidade e adequação do FakeNewsSetGen, foi realizado um estudo de caso que abrange a implementação de um protótipo do FakeNewsSetGen e a aplicação desse protótipo para criar uma instância de dataset denominada FakeNewsSet, composta de notícias em português. Dez MLFN com diferentes tipos de requisitos de dados (sete deles exigindo dados de propagação de notícias) foram aplicados ao FakeNewsSet e comparados, demonstrando o potencial de utilização do processo proposto e do dataset criado.Dissertação apresentada ao Programa de Pós-graduação em Sistemas e Computação do Instituto Militar de Engenharia, como requisito parcial para a obtenção do título de Mestre em Ciências em Sistemas e Computação.Due to easy access and low cost, social media online news consumption has increased significantly for the last decade. Despite their benefits, some social media allow anyone to post news with intense spreading power, which amplifies an old problem: the dissemination of fake news (ie., false information that is spread deliberately to deceive). The proliferation of fake news generally affects not only journalistic integrity, but also disrupts social, political, economic, cultural, as well as health and safety. In the face of this scenario, several machine learning-based methods to automatically detect fake news (MLFN) have been proposed. All of them require fake news datasets to train and evaluate their detection models. Although recent MLFN were designed to consider data regarding the news propagation on social media, most of the few available fake news datasets do not contain this kind of data. Hence, comparing the performances amid those recent MLFN and the others is restricted to a very limited number of datasets. Moreover, all existing datasets with propagation data do not contain news in Portuguese, which impairs the evaluation of the MLFN in this language. Thus, this work proposes FakeNewsSetGen, a process that builds fake news datasets that contain news propagation data and support comparison amid the state-of-the-art MLFN. FakeNewsSetGen’s software engineering process was guided to include all kind of data required by the existing MLFN. In order to illustrate FakeNewsSetGen’s viability and adequacy, a case study was carried out. It encompassed the implementation of a FakeNewsSetGen prototype and the application of this prototype to create a dataset called FakeNewsSet, with news in Portuguese. Ten MLFN with different kind of data requirements (seven of them demanding news propagation data) were applied to FakeNewsSet and compared, demonstrating the potential use of both the proposed process and the created dataset.porInstituto Militar de Engenharia (IME)Tecnologia da InformaçãoBanco de dadosFake newsAprendizado de máquinaDatasetFakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informaçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisBrasilinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)instname:Marinha do Brasil (MB)instacron:MBORIGINALDissertacao_Flavio Matias.pdfDissertacao_Flavio Matias.pdfapplication/pdf2060191https://www.repositorio.mar.mil.br/bitstream/ripcmb/845427/1/Dissertacao_Flavio%20Matias.pdffbbd5d1768fa3e6f3ad4ba5bcd8d4d27MD51TEXTDissertacao_Flavio Matias.pdf.txtDissertacao_Flavio Matias.pdf.txtExtracted texttext/plain157782https://www.repositorio.mar.mil.br/bitstream/ripcmb/845427/2/Dissertacao_Flavio%20Matias.pdf.txtaa4b486ee8cf69c9897a923b7b1c603dMD52THUMBNAILDissertacao_Flavio Matias.pdf.jpgDissertacao_Flavio Matias.pdf.jpgGenerated Thumbnailimage/jpeg1427https://www.repositorio.mar.mil.br/bitstream/ripcmb/845427/3/Dissertacao_Flavio%20Matias.pdf.jpgeaf74d5f88976969ee610f10ab7495b7MD53ripcmb/8454272022-09-23 10:26:07.66oai:www.repositorio.mar.mil.br:ripcmb/845427Repositório InstitucionalPUBhttps://www.repositorio.mar.mil.br/oai/requestdphdm.repositorio@marinha.mil.bropendoar:2022-09-23T13:26:07Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)false
dc.title.pt_BR.fl_str_mv	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
title	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
spellingShingle	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação Silva, Flávio Roberto Matias da Fake news Aprendizado de máquina Dataset Tecnologia da Informação Banco de dados
title_short	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
title_full	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
title_fullStr	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
title_full_unstemmed	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
title_sort	FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação
author	Silva, Flávio Roberto Matias da
author_facet	Silva, Flávio Roberto Matias da
author_role	author
dc.contributor.author.fl_str_mv	Silva, Flávio Roberto Matias da
dc.contributor.advisor2.fl_str_mv	Goldschmidt, Ronaldo Ribeiro
contributor_str_mv	Goldschmidt, Ronaldo Ribeiro
dc.subject.por.fl_str_mv	Fake news Aprendizado de máquina Dataset
topic	Fake news Aprendizado de máquina Dataset Tecnologia da Informação Banco de dados
dc.subject.dgpm.none.fl_str_mv	Tecnologia da Informação Banco de dados
description	Devido ao fácil acesso e ao baixo custo, o consumo de notícias on-line em redes sociais aumentou significativamente na última década. Apesar de seus benefícios, algumas redes sociais permitem que qualquer pessoa divulgue notícias com intenso poder de difusão, o que amplia um problema antigo: a disseminação do fake news (i.e., notícias falsas veiculadas de forma intencional). A proliferação de fake news, geralmente, afeta não apenas a integridade jornalística, mas também perturba as áreas social, política, econômica, cultural, assim como da saúde e segurança. Diante desse cenário, foram propostos vários métodos baseados em aprendizado de máquina para detectar automaticamente fake news (machine learningbased methods to automatically detect fake news- MLFN). Esses métodos necessitam de datasets para treinar e avaliar seus modelos de detecção. Embora os MLFN recentes tenham sido projetados para considerar dados sobre a propagação de notícias em redes sociais, poucos dos datasets disponíveis contêm esses dados. Assim, a comparação de desempenho entre MLFN está restrita à utilização de um número limitado de datasets. Além disso, os datasets existentes com dados de propagação não contêm notícias em português, o que prejudica a avaliação do MLFN nesse idioma. Portanto, este trabalho propõe o FakeNewsSetGen, um processo de construção de datasets para o estudo de fake news que contenham dados de propagação de notícias e viabilizem a comparação entre MLFN. O processo de engenharia de software do FakeNewsSetGen foi orientado para incluir todos os tipos de dados exigidos pelos MLFN existentes. Para ilustrar a viabilidade e adequação do FakeNewsSetGen, foi realizado um estudo de caso que abrange a implementação de um protótipo do FakeNewsSetGen e a aplicação desse protótipo para criar uma instância de dataset denominada FakeNewsSet, composta de notícias em português. Dez MLFN com diferentes tipos de requisitos de dados (sete deles exigindo dados de propagação de notícias) foram aplicados ao FakeNewsSet e comparados, demonstrando o potencial de utilização do processo proposto e do dataset criado.
publishDate	2020
dc.date.issued.fl_str_mv	2020
dc.date.accessioned.fl_str_mv	2022-08-26T19:18:39Z
dc.date.available.fl_str_mv	2022-08-26T19:18:39Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.repositorio.mar.mil.br/handle/ripcmb/845427
url	https://www.repositorio.mar.mil.br/handle/ripcmb/845427
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Instituto Militar de Engenharia (IME)
publisher.none.fl_str_mv	Instituto Militar de Engenharia (IME)
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) instname:Marinha do Brasil (MB) instacron:MB
instname_str	Marinha do Brasil (MB)
instacron_str	MB
institution	MB
reponame_str	Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
collection	Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB)
bitstream.url.fl_str_mv	https://www.repositorio.mar.mil.br/bitstream/ripcmb/845427/1/Dissertacao_Flavio%20Matias.pdf https://www.repositorio.mar.mil.br/bitstream/ripcmb/845427/2/Dissertacao_Flavio%20Matias.pdf.txt https://www.repositorio.mar.mil.br/bitstream/ripcmb/845427/3/Dissertacao_Flavio%20Matias.pdf.jpg
bitstream.checksum.fl_str_mv	fbbd5d1768fa3e6f3ad4ba5bcd8d4d27 aa4b486ee8cf69c9897a923b7b1c603d eaf74d5f88976969ee610f10ab7495b7
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da Produção Científica da Marinha do Brasil (RI-MB) - Marinha do Brasil (MB)
repository.mail.fl_str_mv	dphdm.repositorio@marinha.mil.br
_version_	1813189023686983680

FakeNewsSetGen: um processo para construção de datasets que viabilizem a comparação entre métodos de detecção de Fake News baseados em diferentes demandas de informação

Registros relacionados