Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas

Detalhes bibliográficos
Autor(a) principal: ALISON IURI OGHINO DE MOURA
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFMS
Texto Completo: https://repositorio.ufms.br/handle/123456789/7774
Resumo: The fake news classification introduces some challenges for Natural Language Processing (NLP). Other non-textual representations, such as text embedding, can influence the performance of those classifications. The goal of this work is to evaluate these performances on two corpus databases in the context of fake news classification. Five different word embedding algorithms were applied, and subsequently, the data were classified by four classification algorithms. Our study demonstrates satisfactory performance for the representations, with the Multilingual-E5-large algorithm standing out with superior performance compared to the other tested models. This work may contribute to understanding the influence of multilingual word embedding algorithms on the performance of text classification algorithms. The experimental results can serve as a performance reference to guide the use of these models for text classification in similar studies.
id UFMS_adad47e6b65a58fee88be212d6dc47cc
oai_identifier_str oai:repositorio.ufms.br:123456789/7774
network_acronym_str UFMS
network_name_str Repositório Institucional da UFMS
repository_id_str 2124
spelling 2023-12-04T18:19:40Z2023-12-04T18:19:40Z2023https://repositorio.ufms.br/handle/123456789/7774The fake news classification introduces some challenges for Natural Language Processing (NLP). Other non-textual representations, such as text embedding, can influence the performance of those classifications. The goal of this work is to evaluate these performances on two corpus databases in the context of fake news classification. Five different word embedding algorithms were applied, and subsequently, the data were classified by four classification algorithms. Our study demonstrates satisfactory performance for the representations, with the Multilingual-E5-large algorithm standing out with superior performance compared to the other tested models. This work may contribute to understanding the influence of multilingual word embedding algorithms on the performance of text classification algorithms. The experimental results can serve as a performance reference to guide the use of these models for text classification in similar studies.A classificação de notícias falsas introduzem alguns desafios para o Processamento de Linguagem Natural (PLN). Outras representações não-textuais, como text embedding podem influenciar o desempenho das classificações. O objetivo deste trabalho é avaliar esses desempenhos em duas bases de dados textuais, no contexto de classificação de notícias falsas, onde foram aplicados cinco algoritmos de word embedding diferentes e posteriormente classificados por quatro algoritmos de classificação. Nosso trabalho apresenta um desempenho satisfatório para as representações, com destaque do algoritmo Multilingual-E5-large com performance superior aos demais modelos testados. Este trabalho pode contribuir para o entendimento da influência dos algoritmos de word embedding multilíngue no desempenho dos algoritmos de classificação de textos. Os resultados experimentais podem servir como uma referência de desempenho para guiar a utilização desses modelos para classificação de textos em trabalhos similares.Fundação Universidade Federal de Mato Grosso do SulUFMSCiências Exatas e da Terraword embeddingmultilingual word embbedinganálise de desempenho de word embeddingsword embeddings para classificação de fake news brasileirasword embeddings para classificação de notícias falsas brasileirasfake news classificationclassificação de notícias falsasAnálise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisBRUNO MAGALHAES NOGUEIRAALISON IURI OGHINO DE MOURAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSORIGINAL5603.pdf5603.pdfapplication/pdf419987https://repositorio.ufms.br/bitstream/123456789/7774/-1/5603.pdf97cb5343296a29f9004d27cb0a0b1a40MD5-1123456789/77742023-12-04 14:19:40.971oai:repositorio.ufms.br:123456789/7774Repositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242023-12-04T18:19:40Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false
dc.title.pt_BR.fl_str_mv Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
title Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
spellingShingle Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
ALISON IURI OGHINO DE MOURA
word embedding
multilingual word embbeding
análise de desempenho de word embeddings
word embeddings para classificação de fake news brasileiras
word embeddings para classificação de notícias falsas brasileiras
fake news classification
classificação de notícias falsas
Ciências Exatas e da Terra
title_short Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
title_full Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
title_fullStr Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
title_full_unstemmed Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
title_sort Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
author ALISON IURI OGHINO DE MOURA
author_facet ALISON IURI OGHINO DE MOURA
author_role author
dc.contributor.advisor1.fl_str_mv BRUNO MAGALHAES NOGUEIRA
dc.contributor.author.fl_str_mv ALISON IURI OGHINO DE MOURA
contributor_str_mv BRUNO MAGALHAES NOGUEIRA
dc.subject.por.fl_str_mv word embedding
multilingual word embbeding
análise de desempenho de word embeddings
word embeddings para classificação de fake news brasileiras
word embeddings para classificação de notícias falsas brasileiras
fake news classification
classificação de notícias falsas
topic word embedding
multilingual word embbeding
análise de desempenho de word embeddings
word embeddings para classificação de fake news brasileiras
word embeddings para classificação de notícias falsas brasileiras
fake news classification
classificação de notícias falsas
Ciências Exatas e da Terra
dc.subject.classification.pt_BR.fl_str_mv Ciências Exatas e da Terra
description The fake news classification introduces some challenges for Natural Language Processing (NLP). Other non-textual representations, such as text embedding, can influence the performance of those classifications. The goal of this work is to evaluate these performances on two corpus databases in the context of fake news classification. Five different word embedding algorithms were applied, and subsequently, the data were classified by four classification algorithms. Our study demonstrates satisfactory performance for the representations, with the Multilingual-E5-large algorithm standing out with superior performance compared to the other tested models. This work may contribute to understanding the influence of multilingual word embedding algorithms on the performance of text classification algorithms. The experimental results can serve as a performance reference to guide the use of these models for text classification in similar studies.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-12-04T18:19:40Z
dc.date.available.fl_str_mv 2023-12-04T18:19:40Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufms.br/handle/123456789/7774
url https://repositorio.ufms.br/handle/123456789/7774
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.publisher.initials.fl_str_mv UFMS
dc.publisher.country.pt_BR.fl_str_mv
publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMS
instname:Universidade Federal de Mato Grosso do Sul (UFMS)
instacron:UFMS
instname_str Universidade Federal de Mato Grosso do Sul (UFMS)
instacron_str UFMS
institution UFMS
reponame_str Repositório Institucional da UFMS
collection Repositório Institucional da UFMS
bitstream.url.fl_str_mv https://repositorio.ufms.br/bitstream/123456789/7774/-1/5603.pdf
bitstream.checksum.fl_str_mv 97cb5343296a29f9004d27cb0a0b1a40
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)
repository.mail.fl_str_mv ri.prograd@ufms.br
_version_ 1807552807734083584