Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa

Cordeiro, Paulo Roberto da Silva

Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa

Detalhes bibliográficos
Autor(a) principal:	Cordeiro, Paulo Roberto da Silva
Data de Publicação:	2019
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da UNIFOR
Texto Completo:	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
Resumo:	Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.

Metadados do item

id	UFOR_6e55fa3b3c0a9f08a270a274bf3e6a50
oai_identifier_str	oai::123322
network_acronym_str	UFOR
network_name_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesaAlgoritmosNotícias falsas (Jornalismo)Linguística computacionalUma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.A significant portion of the Brazilian population uses social media as a news source, and due to the increased speed and reach of sharing Fake News, automated approaches to classifying rumors as true or false become urgent, especially for short news broadcasted on social media like Twitter. For the scientific advance of the task of verifying rumors in Portuguese, it is necessary to have linguistic resources such as false and true news corpus, and that this set of texts can be systematically evolved and updated, thus capturing dynamism and creativity of the language used in social media. In this sense, the research question that guided the development of this work was: How to use the work of fact-checking agencies in the creation and evolution of tweets that spread false and true news? The literature review indicated the absence of Fake News corpus, published in Portuguese through micro-posts from the Twitter social network. The present work, therefore, proposes a process for the construction of Fake News reference bodies in Portuguese, with micro texts collected from Twitter. The process builds on the work of news check agencies and defines activities for retrieving original news as it is written and shared by users. Finally, this work generated the first Fake News corpus of Twitter, in Portuguese - FakeTweet.BR, which can be used for training automatic learning algorithms. Different algorithms for the rumors verification task were evaluated, obtaining results that superseded the related works for the English language. This work also performs an analysis of the impact of the stance classification subtask on the main task of verifying the accuracy of a rumor. Keywords: fake news, corpus linguistic, rumour verification, text classificationDissertação enviada com autorização e certificação via CI 20774/20Pinheiro, Vladia Celia MonteiroPinheiro, Vladia Celia MonteiroFurtado, João José Vasco PeixotoMacêdo, José Antônio Fernandes deUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCordeiro, Paulo Roberto da Silva2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322https://uol.unifor.br/auth-sophia/exibicao/23811porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::123322Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br\|\|bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
spellingShingle	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa Cordeiro, Paulo Roberto da Silva Algoritmos Notícias falsas (Jornalismo) Linguística computacional
title_short	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_full	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_fullStr	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_full_unstemmed	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_sort	Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
author	Cordeiro, Paulo Roberto da Silva
author_facet	Cordeiro, Paulo Roberto da Silva
author_role	author
dc.contributor.none.fl_str_mv	Pinheiro, Vladia Celia Monteiro Pinheiro, Vladia Celia Monteiro Furtado, João José Vasco Peixoto Macêdo, José Antônio Fernandes de Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv	Cordeiro, Paulo Roberto da Silva
dc.subject.por.fl_str_mv	Algoritmos Notícias falsas (Jornalismo) Linguística computacional
topic	Algoritmos Notícias falsas (Jornalismo) Linguística computacional
description	Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.
publishDate	2019
dc.date.none.fl_str_mv	2019
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
url	https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv	https://uol.unifor.br/auth-sophia/exibicao/23811
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR
instname_str	Universidade de Fortaleza (UNIFOR)
instacron_str	UNIFOR
institution	UNIFOR
reponame_str	Biblioteca Digital de Teses e Dissertações da UNIFOR
collection	Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv	bib@unifor.br\|\|bib@unifor.br
_version_	1800408706824798208

Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa

Registros relacionados