Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar

Teixeira, Márcia Raquel Pinto

Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar

Detalhes bibliográficos
Autor(a) principal:	Teixeira, Márcia Raquel Pinto
Data de Publicação:	2021
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/18330
Resumo:	Nos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.

Metadados do item

id	RCAP_3d13d42038abeeba09ff410969284321
oai_identifier_str	oai:recipp.ipp.pt:10400.22/18330
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente EscolarNotícias FalsasDatasetLíngua PortuguesaText MiningÍndice de CredibilidadeDetetor de Notícias FalsasWeb serviceFake NewsPortuguese LanguageCredibility IndexFake News DetectorNos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.Nowadays, disinformation and fake news are phenomenons that are more often than ever before. The big and fast technological growth enabled a huge increase in the number of this kind of events which, unfortunately, resulted in a society with alarming levels of disinformation. The consequences of this are especially serious on the younger and older generations, which are the groups more vulnerable since, on the one hand, they have a great exposure to several digital platforms and, on the other hand, they have a natural lack of critical thinking skills. In that way, the present dissertation, entitled “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, developed at the company MOG Technologies for the subject Thesis/Dissertation/Internship of the Master Degree in Informatic Engineering (TMDEI) for the Informatic Engineering Department (DEI) at Instituto Superior de Engenharia do Porto (ISEP). In relation to the study made over several existent works about this theme, it was verified the existence of a greater number of projects in the English language comparatively to only one project developed in the Portuguese language, which has a binary classification. During the realization of the present project, it was needed the development of a dataset from scratch and exclusively in the Portuguese Language based on news websites where the same was manually noted in a multiclass way. Then, an application of different Text Mining techniques into the present data took place and several experiments were realized in order to find the best news classifier algorithm. Two approaches took place with the first one being based on multiclass notes and the second in binary. Not only the whole different entry parameters were tested in all approaches but also several classification algorithms such as: Multinomial Naive Bayes, Support Vector Machine, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier and Long Short-Term Memory. With the binary approach, one of the experiments provided an innovative hierarchic structure composed by three models. The first model executes a text analysis of the news, while the second one analysis the metadata contained on the news and the third one focus on the ponderation between the two previous models in order to optimize the results. The current project presents two results for the credibility indexesto the content and metadata of a certain news as well as a fake news detector with a performance of 92% with the Support Vector Machine being the best algorithm. Lastly, it was proposed a creation of a web service where the reached model is evaluated so, in the future,there are hopes of it being inserted on a search engine.Marreiros, Maria Goreti CarvalhoRepositório Científico do Instituto Politécnico do PortoTeixeira, Márcia Raquel Pinto2021-09-08T10:56:47Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/18330TID:202812901porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:10:06Zoai:recipp.ipp.pt:10400.22/18330Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:38:00.024658Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
spellingShingle	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar Teixeira, Márcia Raquel Pinto Notícias Falsas Dataset Língua Portuguesa Text Mining Índice de Credibilidade Detetor de Notícias Falsas Web service Fake News Portuguese Language Credibility Index Fake News Detector
title_short	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_full	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_fullStr	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_full_unstemmed	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
title_sort	Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
author	Teixeira, Márcia Raquel Pinto
author_facet	Teixeira, Márcia Raquel Pinto
author_role	author
dc.contributor.none.fl_str_mv	Marreiros, Maria Goreti Carvalho Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Teixeira, Márcia Raquel Pinto
dc.subject.por.fl_str_mv	Notícias Falsas Dataset Língua Portuguesa Text Mining Índice de Credibilidade Detetor de Notícias Falsas Web service Fake News Portuguese Language Credibility Index Fake News Detector
topic	Notícias Falsas Dataset Língua Portuguesa Text Mining Índice de Credibilidade Detetor de Notícias Falsas Web service Fake News Portuguese Language Credibility Index Fake News Detector
description	Nos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.
publishDate	2021
dc.date.none.fl_str_mv	2021-09-08T10:56:47Z 2021 2021-01-01T00:00:00Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/18330 TID:202812901
url	http://hdl.handle.net/10400.22/18330
identifier_str_mv	TID:202812901
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799131469965164544

Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar

Registros relacionados