Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMS |
Texto Completo: | https://repositorio.ufms.br/handle/123456789/7774 |
Resumo: | The fake news classification introduces some challenges for Natural Language Processing (NLP). Other non-textual representations, such as text embedding, can influence the performance of those classifications. The goal of this work is to evaluate these performances on two corpus databases in the context of fake news classification. Five different word embedding algorithms were applied, and subsequently, the data were classified by four classification algorithms. Our study demonstrates satisfactory performance for the representations, with the Multilingual-E5-large algorithm standing out with superior performance compared to the other tested models. This work may contribute to understanding the influence of multilingual word embedding algorithms on the performance of text classification algorithms. The experimental results can serve as a performance reference to guide the use of these models for text classification in similar studies. |
id |
UFMS_adad47e6b65a58fee88be212d6dc47cc |
---|---|
oai_identifier_str |
oai:repositorio.ufms.br:123456789/7774 |
network_acronym_str |
UFMS |
network_name_str |
Repositório Institucional da UFMS |
repository_id_str |
2124 |
spelling |
2023-12-04T18:19:40Z2023-12-04T18:19:40Z2023https://repositorio.ufms.br/handle/123456789/7774The fake news classification introduces some challenges for Natural Language Processing (NLP). Other non-textual representations, such as text embedding, can influence the performance of those classifications. The goal of this work is to evaluate these performances on two corpus databases in the context of fake news classification. Five different word embedding algorithms were applied, and subsequently, the data were classified by four classification algorithms. Our study demonstrates satisfactory performance for the representations, with the Multilingual-E5-large algorithm standing out with superior performance compared to the other tested models. This work may contribute to understanding the influence of multilingual word embedding algorithms on the performance of text classification algorithms. The experimental results can serve as a performance reference to guide the use of these models for text classification in similar studies.A classificação de notícias falsas introduzem alguns desafios para o Processamento de Linguagem Natural (PLN). Outras representações não-textuais, como text embedding podem influenciar o desempenho das classificações. O objetivo deste trabalho é avaliar esses desempenhos em duas bases de dados textuais, no contexto de classificação de notícias falsas, onde foram aplicados cinco algoritmos de word embedding diferentes e posteriormente classificados por quatro algoritmos de classificação. Nosso trabalho apresenta um desempenho satisfatório para as representações, com destaque do algoritmo Multilingual-E5-large com performance superior aos demais modelos testados. Este trabalho pode contribuir para o entendimento da influência dos algoritmos de word embedding multilíngue no desempenho dos algoritmos de classificação de textos. Os resultados experimentais podem servir como uma referência de desempenho para guiar a utilização desses modelos para classificação de textos em trabalhos similares.Fundação Universidade Federal de Mato Grosso do SulUFMSCiências Exatas e da Terraword embeddingmultilingual word embbedinganálise de desempenho de word embeddingsword embeddings para classificação de fake news brasileirasword embeddings para classificação de notícias falsas brasileirasfake news classificationclassificação de notícias falsasAnálise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisBRUNO MAGALHAES NOGUEIRAALISON IURI OGHINO DE MOURAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSORIGINAL5603.pdf5603.pdfapplication/pdf419987https://repositorio.ufms.br/bitstream/123456789/7774/-1/5603.pdf97cb5343296a29f9004d27cb0a0b1a40MD5-1123456789/77742023-12-04 14:19:40.971oai:repositorio.ufms.br:123456789/7774Repositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242023-12-04T18:19:40Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false |
dc.title.pt_BR.fl_str_mv |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
title |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
spellingShingle |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas ALISON IURI OGHINO DE MOURA word embedding multilingual word embbeding análise de desempenho de word embeddings word embeddings para classificação de fake news brasileiras word embeddings para classificação de notícias falsas brasileiras fake news classification classificação de notícias falsas Ciências Exatas e da Terra |
title_short |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
title_full |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
title_fullStr |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
title_full_unstemmed |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
title_sort |
Análise de Desempenho de Modelos de Embeddings Multilínguas na Classificação de Notícias Falsas |
author |
ALISON IURI OGHINO DE MOURA |
author_facet |
ALISON IURI OGHINO DE MOURA |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
BRUNO MAGALHAES NOGUEIRA |
dc.contributor.author.fl_str_mv |
ALISON IURI OGHINO DE MOURA |
contributor_str_mv |
BRUNO MAGALHAES NOGUEIRA |
dc.subject.por.fl_str_mv |
word embedding multilingual word embbeding análise de desempenho de word embeddings word embeddings para classificação de fake news brasileiras word embeddings para classificação de notícias falsas brasileiras fake news classification classificação de notícias falsas |
topic |
word embedding multilingual word embbeding análise de desempenho de word embeddings word embeddings para classificação de fake news brasileiras word embeddings para classificação de notícias falsas brasileiras fake news classification classificação de notícias falsas Ciências Exatas e da Terra |
dc.subject.classification.pt_BR.fl_str_mv |
Ciências Exatas e da Terra |
description |
The fake news classification introduces some challenges for Natural Language Processing (NLP). Other non-textual representations, such as text embedding, can influence the performance of those classifications. The goal of this work is to evaluate these performances on two corpus databases in the context of fake news classification. Five different word embedding algorithms were applied, and subsequently, the data were classified by four classification algorithms. Our study demonstrates satisfactory performance for the representations, with the Multilingual-E5-large algorithm standing out with superior performance compared to the other tested models. This work may contribute to understanding the influence of multilingual word embedding algorithms on the performance of text classification algorithms. The experimental results can serve as a performance reference to guide the use of these models for text classification in similar studies. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-12-04T18:19:40Z |
dc.date.available.fl_str_mv |
2023-12-04T18:19:40Z |
dc.date.issued.fl_str_mv |
2023 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufms.br/handle/123456789/7774 |
url |
https://repositorio.ufms.br/handle/123456789/7774 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Fundação Universidade Federal de Mato Grosso do Sul |
dc.publisher.initials.fl_str_mv |
UFMS |
dc.publisher.country.pt_BR.fl_str_mv |
|
publisher.none.fl_str_mv |
Fundação Universidade Federal de Mato Grosso do Sul |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMS instname:Universidade Federal de Mato Grosso do Sul (UFMS) instacron:UFMS |
instname_str |
Universidade Federal de Mato Grosso do Sul (UFMS) |
instacron_str |
UFMS |
institution |
UFMS |
reponame_str |
Repositório Institucional da UFMS |
collection |
Repositório Institucional da UFMS |
bitstream.url.fl_str_mv |
https://repositorio.ufms.br/bitstream/123456789/7774/-1/5603.pdf |
bitstream.checksum.fl_str_mv |
97cb5343296a29f9004d27cb0a0b1a40 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS) |
repository.mail.fl_str_mv |
ri.prograd@ufms.br |
_version_ |
1815447978209443840 |