Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UNIFOR |
Texto Completo: | https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322 |
Resumo: | Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual. |
id |
UFOR_6e55fa3b3c0a9f08a270a274bf3e6a50 |
---|---|
oai_identifier_str |
oai::123322 |
network_acronym_str |
UFOR |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
repository_id_str |
|
spelling |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesaAlgoritmosNotícias falsas (Jornalismo)Linguística computacionalUma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual.A significant portion of the Brazilian population uses social media as a news source, and due to the increased speed and reach of sharing Fake News, automated approaches to classifying rumors as true or false become urgent, especially for short news broadcasted on social media like Twitter. For the scientific advance of the task of verifying rumors in Portuguese, it is necessary to have linguistic resources such as false and true news corpus, and that this set of texts can be systematically evolved and updated, thus capturing dynamism and creativity of the language used in social media. In this sense, the research question that guided the development of this work was: How to use the work of fact-checking agencies in the creation and evolution of tweets that spread false and true news? The literature review indicated the absence of Fake News corpus, published in Portuguese through micro-posts from the Twitter social network. The present work, therefore, proposes a process for the construction of Fake News reference bodies in Portuguese, with micro texts collected from Twitter. The process builds on the work of news check agencies and defines activities for retrieving original news as it is written and shared by users. Finally, this work generated the first Fake News corpus of Twitter, in Portuguese - FakeTweet.BR, which can be used for training automatic learning algorithms. Different algorithms for the rumors verification task were evaluated, obtaining results that superseded the related works for the English language. This work also performs an analysis of the impact of the stance classification subtask on the main task of verifying the accuracy of a rumor. Keywords: fake news, corpus linguistic, rumour verification, text classificationDissertação enviada com autorização e certificação via CI 20774/20Pinheiro, Vladia Celia MonteiroPinheiro, Vladia Celia MonteiroFurtado, João José Vasco PeixotoMacêdo, José Antônio Fernandes deUniversidade de Fortaleza. Programa de Pós-Graduação em Informática AplicadaCordeiro, Paulo Roberto da Silva2019info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322https://uol.unifor.br/auth-sophia/exibicao/23811porreponame:Biblioteca Digital de Teses e Dissertações da UNIFORinstname:Universidade de Fortaleza (UNIFOR)instacron:UNIFORinfo:eu-repo/semantics/openAccess1899-12-30T00:00:00Zoai::123322Biblioteca Digital de Teses e Dissertaçõeshttps://www.unifor.br/bdtdONGhttp://dspace.unifor.br/oai/requestbib@unifor.br||bib@unifor.bropendoar:1899-12-30T00:00Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR)false |
dc.title.none.fl_str_mv |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
title |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
spellingShingle |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa Cordeiro, Paulo Roberto da Silva Algoritmos Notícias falsas (Jornalismo) Linguística computacional |
title_short |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
title_full |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
title_fullStr |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
title_full_unstemmed |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
title_sort |
Processo de construção de corpus de tweets para verificação automática de rumores em língua portuguesa |
author |
Cordeiro, Paulo Roberto da Silva |
author_facet |
Cordeiro, Paulo Roberto da Silva |
author_role |
author |
dc.contributor.none.fl_str_mv |
Pinheiro, Vladia Celia Monteiro Pinheiro, Vladia Celia Monteiro Furtado, João José Vasco Peixoto Macêdo, José Antônio Fernandes de Universidade de Fortaleza. Programa de Pós-Graduação em Informática Aplicada |
dc.contributor.author.fl_str_mv |
Cordeiro, Paulo Roberto da Silva |
dc.subject.por.fl_str_mv |
Algoritmos Notícias falsas (Jornalismo) Linguística computacional |
topic |
Algoritmos Notícias falsas (Jornalismo) Linguística computacional |
description |
Uma parcela significativa da população brasileira usa as redes sociais como fonte de notícias e, devido ao aumento na velocidade e no alcance do compartilhamento de Fake News, abordagens automatizadas para classificar rumores como verdadeiros ou falsos se tornam urgentes, especialmente para notícias curtas veiculadas em redes sociais como o Twitter. Para o avanço científico da tarefa de verificação de rumores em língua portuguesa, é necessário que existam recursos linguísticos como córpus de notícias falsas e verdadeiras, e que este conjunto de textos possa ser sistematicamente evoluído e atualizado, capturando, assim, a dinamicidade e a criatividade da linguagem utilizada em redes sociais. Neste sentido, a questão de pesquisa que norteou o desenvolvimento deste trabalho foi: Como utilizar o trabalho de agências de checagem de notícias (fact-checking agencies) na criação e evolução de córpus de tweets que divulgam notícias falsas e verdadeiras? A revisão bibliográfica indicou a inexistência de córpus de Fake News, veiculadas em Língua Portuguesa através de micropostagens da rede social Twitter. O presente trabalho, portanto, propõe um processo para a construção de córpus de referência de Fake News em língua portuguesa, com microtextos coletados do Twitter. O processo se baseia no trabalho desenvolvido pelas agências de checagens de notícias e define atividades para recuperação das notícias originais, da forma como elas são escritas e compartilhadas pelos usuários. Por fim, este trabalho gerou o primeiro córpus de Fake News do Twitter, em português ¿ FakeTweet.BR, que pode ser utilizado para treinamento de algoritmos de aprendizagem automática. Foram avaliados diferentes algoritmos para a tarefa de verificação de rumores, obtendo-se resultados que suplantaram os trabalhos relacionados para a língua inglesa. Este trabalho também realiza uma análise no impacto da subtarefa de detecção de posicionamento (stance classification) na tarefa principal de verificação da veracidade de um rumor. Palavras-chave: fake news, linguística de córpus, verificação de rumor, classificação textual. |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322 |
url |
https://biblioteca.sophia.com.br/terminalri/9575/acervo/detalhe/123322 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
https://uol.unifor.br/auth-sophia/exibicao/23811 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UNIFOR instname:Universidade de Fortaleza (UNIFOR) instacron:UNIFOR |
instname_str |
Universidade de Fortaleza (UNIFOR) |
instacron_str |
UNIFOR |
institution |
UNIFOR |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
collection |
Biblioteca Digital de Teses e Dissertações da UNIFOR |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UNIFOR - Universidade de Fortaleza (UNIFOR) |
repository.mail.fl_str_mv |
bib@unifor.br||bib@unifor.br |
_version_ |
1800408706824798208 |