Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa

Detalhes bibliográficos
Autor(a) principal: Cordeiro, Paulo Roberto da Silva
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da UNIFOR
Texto Completo: https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
Resumo: Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.
id UFOR_6e55fa3b3c0a9f08a270a274bf3e6a50
oai_identifier_str oai::123322
network_acronym_str UFOR
network_name_str Biblioteca Digital de Teses e Dissertações da UNIFOR
repository_id_str
spelling Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesaAlgoritmosNotícias falsas (Jornalismo)Linguística computacionalUma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.A significant portion of the Brazilian population uses social media as a news source, and due to the increased speed and reach of sharing Fake News, automated approaches to classifying rumors as true or false become urgent, especially for short news broadcasted on social media like Twitter. For the scientific advance of the task of verifying rumors in Portuguese, it is necessary to have linguistic resources such as false and true news corpus, and that this set of texts can be systematically evolved and updated, thus capturing dynamism and creativity of the language used in social media. In this sense, the research question that guided the development of this work was: How to use the work of fact-checking agencies in the creation and evolution of tweets that spread false and true news? The literature review indicated the absence of Fake News corpus, published in Portuguese through micro-posts from the Twitter social network. The present work, therefore, proposes a process for the construction of Fake News reference bodies in Portuguese, with micro texts collected from Twitter. The process builds on the work of news check agencies and defines activities for retrieving original news as it is written and shared by users. Finally, this work generated the first Fake News corpus of Twitter, in Portuguese - FakeTweet.BR, which can be used for training automatic learning algorithms. Different algorithms for the rumors verification task were evaluated, obtaining results that superseded the related works for the English language. This work also performs an analysis of the impact of the stance classification subtask on the main task of verifying the accuracy of a rumor. Keywords: fake news, corpus linguistic, rumour verification, text classificationDissertação enviada com autorização e certificação via CI 20774/20Pinheiro, Vladia Celia MonteiroPinheiro, Vladia Celia MonteiroFurtado, João José Vasco PeixotoMacêdo, José Antônio Fernandes deUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCordeiro, Paulo Roberto da Silva2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322https://uol.unifor.br/auth-sophia/exibicao/23811porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::123322Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false
dc.title.none.fl_str_mv Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
spellingShingle Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
Cordeiro, Paulo Roberto da Silva
Algoritmos
Notícias falsas (Jornalismo)
Linguística computacional
title_short Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_full Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_fullStr Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_full_unstemmed Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
title_sort Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
author Cordeiro, Paulo Roberto da Silva
author_facet Cordeiro, Paulo Roberto da Silva
author_role author
dc.contributor.none.fl_str_mv Pinheiro, Vladia Celia Monteiro
Pinheiro, Vladia Celia Monteiro
Furtado, João José Vasco Peixoto
Macêdo, José Antônio Fernandes de
Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada
dc.contributor.author.fl_str_mv Cordeiro, Paulo Roberto da Silva
dc.subject.por.fl_str_mv Algoritmos
Notícias falsas (Jornalismo)
Linguística computacional
topic Algoritmos
Notícias falsas (Jornalismo)
Linguística computacional
description Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.
publishDate 2019
dc.date.none.fl_str_mv 2019
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
url https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://uol.unifor.br/auth-sophia/exibicao/23811
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR
instname:Universidade de Fortaleza (UNIFOR)
instacron:UNIFOR
instname_str Universidade de Fortaleza (UNIFOR)
instacron_str UNIFOR
institution UNIFOR
reponame_str Biblioteca Digital de Teses e Dissertações da UNIFOR
collection Biblioteca Digital de Teses e Dissertações da UNIFOR
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)
repository.mail.fl_str_mv bib@unifor.br||bib@unifor.br
_version_ 1800408706824798208