Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/18330 |
Resumo: | Nos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca. |
id |
RCAP_3d13d42038abeeba09ff410969284321 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/18330 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente EscolarNotícias FalsasDatasetLíngua PortuguesaText MiningÍndice de CredibilidadeDetetor de Notícias FalsasWeb serviceFake NewsPortuguese LanguageCredibility IndexFake News DetectorNos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca.Nowadays, disinformation and fake news are phenomenons that are more often than ever before. The big and fast technological growth enabled a huge increase in the number of this kind of events which, unfortunately, resulted in a society with alarming levels of disinformation. The consequences of this are especially serious on the younger and older generations, which are the groups more vulnerable since, on the one hand, they have a great exposure to several digital platforms and, on the other hand, they have a natural lack of critical thinking skills. In that way, the present dissertation, entitled “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, developed at the company MOG Technologies for the subject Thesis/Dissertation/Internship of the Master Degree in Informatic Engineering (TMDEI) for the Informatic Engineering Department (DEI) at Instituto Superior de Engenharia do Porto (ISEP). In relation to the study made over several existent works about this theme, it was verified the existence of a greater number of projects in the English language comparatively to only one project developed in the Portuguese language, which has a binary classification. During the realization of the present project, it was needed the development of a dataset from scratch and exclusively in the Portuguese Language based on news websites where the same was manually noted in a multiclass way. Then, an application of different Text Mining techniques into the present data took place and several experiments were realized in order to find the best news classifier algorithm. Two approaches took place with the first one being based on multiclass notes and the second in binary. Not only the whole different entry parameters were tested in all approaches but also several classification algorithms such as: Multinomial Naive Bayes, Support Vector Machine, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier and Long Short-Term Memory. With the binary approach, one of the experiments provided an innovative hierarchic structure composed by three models. The first model executes a text analysis of the news, while the second one analysis the metadata contained on the news and the third one focus on the ponderation between the two previous models in order to optimize the results. The current project presents two results for the credibility indexesto the content and metadata of a certain news as well as a fake news detector with a performance of 92% with the Support Vector Machine being the best algorithm. Lastly, it was proposed a creation of a web service where the reached model is evaluated so, in the future,there are hopes of it being inserted on a search engine.Marreiros, Maria Goreti CarvalhoRepositório Científico do Instituto Politécnico do PortoTeixeira, Márcia Raquel Pinto2021-09-08T10:56:47Z20212021-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/18330TID:202812901porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T13:10:06Zoai:recipp.ipp.pt:10400.22/18330Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:38:00.024658Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
title |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
spellingShingle |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar Teixeira, Márcia Raquel Pinto Notícias Falsas Dataset Língua Portuguesa Text Mining Índice de Credibilidade Detetor de Notícias Falsas Web service Fake News Portuguese Language Credibility Index Fake News Detector |
title_short |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
title_full |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
title_fullStr |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
title_full_unstemmed |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
title_sort |
Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar |
author |
Teixeira, Márcia Raquel Pinto |
author_facet |
Teixeira, Márcia Raquel Pinto |
author_role |
author |
dc.contributor.none.fl_str_mv |
Marreiros, Maria Goreti Carvalho Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Teixeira, Márcia Raquel Pinto |
dc.subject.por.fl_str_mv |
Notícias Falsas Dataset Língua Portuguesa Text Mining Índice de Credibilidade Detetor de Notícias Falsas Web service Fake News Portuguese Language Credibility Index Fake News Detector |
topic |
Notícias Falsas Dataset Língua Portuguesa Text Mining Índice de Credibilidade Detetor de Notícias Falsas Web service Fake News Portuguese Language Credibility Index Fake News Detector |
description |
Nos dias de hoje, a desinformação e as notícias falsas são fenómenos cada vez mais frequentes. O rápido crescimento tecnológico permitiu um aumento exponencial deste tipo de eventos que, infelizmente, resultaram numa sociedade com níveis de desinformação alarmantes. As consequências que daqui advêm são especialmente preocupantes nas crianças e jovens. Este grupo etário é particularmente vulnerável pois, por um lado, têm contacto diário com diferentes plataformas digitais, onde se apresenta uma maior divulgação de informação falsa, e, por outro lado, têm ainda o seu pensamento crítico em desenvolvimento, possuindo desta forma menos defesas perante o fenómeno de desinformação. Surge, neste contexto, o presente trabalho de dissertação intitulado “Índice de Credibilidade de Conteúdos Noticiosos em Língua Portuguesa para Uso em Ambiente Escolar”, desenvolvido na organização MOG Technologies, no âmbito da unidade curricular de Tese / Dissertação / Estágio, do Mestrado em Engenharia Informática (TMDEI), do Departamento de Engenharia Informática (DEI) do Instituto Superior de Engenharia do Porto (ISEP). Em relação ao estudo efetuado sobre os vários trabalhos existentes relativos a este tema, verificou-se a existência de um maior número de projetos em língua inglesa comparativamente a apenas um único projeto desenvolvido em língua portuguesa, este com uma classificação binária. Durante a realização deste projeto desenvolveu-se um dataset de raiz de forma semi-automática, exclusivamente em língua portuguesa, com base em sites de notícias. O mesmo foi anotado em multiclasses de forma manual. De seguida, aplicaram-se diferentes técnicas de Text Mining aos dados presentes no mesmo e foram realizadas diversas experiências com o objetivo de encontrar o melhor algoritmo para classificar notícias. Foram efetuadas duas abordagens, a primeira com uma anotação multiclasses e a segunda em binário. Em todas as abordagens foram testados diferentes parâmetros de entrada e também vários algoritmos de classificação, tais como: Multinomial Naive Bayes, Máquina de Vetores de Suporte, Gradient Boosting Classifier, XGBoosting Classifier, Logistic Regression, K-Nearest Neighbors Classifier, Decision Trees, Random Forest Classifier e Long Short-Term Memory. Na abordagem binária, uma das experiências baseou-se numa arquitetura hierárquica e inovadora composta por três modelos. O primeiro modelo efetua uma análise textual da notícia, o segundo analisa os metadados presentes na mesma e o terceiro destina-se a efetuar uma ponderação entre os dois modelos descritos anteriormente para otimizar os resultados. O presente projeto conta com a apresentação de dois índices de credibilidade referentes ao conteúdo e aos metadados de uma determinada notícia e ainda um detetor de notícias falsas com 92 % de performance, sendo que o melhor algoritmo foi o Máquina de Vetores de Suporte. Por fim, estes modelos foram integrados num web service com o objetivo de validar toda a arquitetura implementada e, no futuro, espera-se que o mesmo possa ser integrado num motor de busca. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-09-08T10:56:47Z 2021 2021-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/18330 TID:202812901 |
url |
http://hdl.handle.net/10400.22/18330 |
identifier_str_mv |
TID:202812901 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799131469965164544 |