Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar

Detalhes bibliográficos
Autor(a) principal: Teixeira, Márcia Raquel Pinto
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/18330
Resumo: Nos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.
id RCAP_3d13d42038abeeba09ff410969284321
oai_identifier_str oai:recipp.ipp.pt:10400.22/18330
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente EscolarNotícias FalsasDatasetLíngua PortuguesaText MiningÍndice de CredibilidadeDetetor de Notícias FalsasWeb serviceFake NewsPortuguese LanguageCredibility IndexFake News DetectorNos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.Nowadays, disinformation and fake news are phenomenons that are more often than ever before. The big and fast technological growth enabled a huge increase in the number of this kind of events which, unfortunately, resulted in a society with alarming levels of disinformation. The consequences of this are especially serious on the younger and older generations, which are the groups more vulnerable since, on the one hand, they have a great exposure to several digital platforms and, on the other hand, they have a natural lack of critical thinking skills. In that way, the present dissertation, entitled “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, developed at the company MOG Technologies for the subject Thesis/Dissertation/Internship of the Master Degree in Informatic Engineering (TMDEI) for the Informatic Engineering Department (DEI) at Instituto Superior de Engenharia do Porto (ISEP). In relation to the study made over several existent works about this theme, it was verified the existence of a greater number of projects in the English language comparatively to only one project developed in the Portuguese language, which has a binary classification. During the realization of the present project, it was needed the development of a dataset from scratch and exclusively in the Portuguese Language based on news websites where the same was manually noted in a multiclass way. Then, an application of different Text Mining techniques into the present data took place and several experiments were realized in order to find the best news classifier algorithm. Two approaches took place with the first one being based on multiclass notes and the second in binary. Not only the whole different entry parameters were tested in all approaches but also several classification algorithms such as: Multinomial Naive Bayes, Support Vector Machine, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier and Long Short-Term Memory. With the binary approach, one of the experiments provided an innovative hierarchic structure composed by three models. The first model executes a text analysis of the news, while the second one analysis the metadata contained on the news and the third one focus on the ponderation between the two previous models in order to optimize the results. The current project presents two results for the credibility indexesto the content and metadata of a certain news as well as a fake news detector with a performance of 92% with the Support Vector Machine being the best algorithm. Lastly, it was proposed a creation of a web service where the reached model is evaluated so, in the future,there are hopes of it being inserted on a search engine.Marreiros, Maria Goreti CarvalhoRepositório Científico do Instituto Politécnico do PortoTeixeira, Márcia Raquel Pinto2021-09-08T10:56:47Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/18330TID:202812901porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:10:06Zoai:recipp.ipp.pt:10400.22/18330Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:38:00.024658Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
spellingShingle Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
Teixeira, Márcia Raquel Pinto
Notícias Falsas
Dataset
Língua Portuguesa
Text Mining
Índice de Credibilidade
Detetor de Notícias Falsas
Web service
Fake News
Portuguese Language
Credibility Index
Fake News Detector
title_short Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_full Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_fullStr Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_full_unstemmed Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_sort Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
author Teixeira, Márcia Raquel Pinto
author_facet Teixeira, Márcia Raquel Pinto
author_role author
dc.contributor.none.fl_str_mv Marreiros, Maria Goreti Carvalho
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Teixeira, Márcia Raquel Pinto
dc.subject.por.fl_str_mv Notícias Falsas
Dataset
Língua Portuguesa
Text Mining
Índice de Credibilidade
Detetor de Notícias Falsas
Web service
Fake News
Portuguese Language
Credibility Index
Fake News Detector
topic Notícias Falsas
Dataset
Língua Portuguesa
Text Mining
Índice de Credibilidade
Detetor de Notícias Falsas
Web service
Fake News
Portuguese Language
Credibility Index
Fake News Detector
description Nos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.
publishDate 2021
dc.date.none.fl_str_mv 2021-09-08T10:56:47Z
2021
2021-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/18330
TID:202812901
url http://hdl.handle.net/10400.22/18330
identifier_str_mv TID:202812901
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131469965164544