Modelos neurais artificiais de língua natural para análise de sentimentos em português

Detalhes bibliográficos
Autor(a) principal: Candido, Gabriel de Souza
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/30438
Resumo: Problemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.
id UFF-2_2495c93ea5a735f0d842b713ae9f1d49
oai_identifier_str oai:app.uff.br:1/30438
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Modelos neurais artificiais de língua natural para análise de sentimentos em portuguêsMáquinas de Vetores de SuporteRegressão LogísticaAnálise de SentimentosTweetsProcessamento de linguagem natural (Computação)Língua portuguesaMineração de opiniões (Computação)Twitter (Site de relacionamentos)EmbeddingsSupport Vector MachinesLogistic RegressionSentiment AnalysisProblemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.Text classification problems are widely studied in Machine Learning, one of the subfields of Artificial Intelligence. However, the lack of studies in the Portuguese language turns out to be an obstacle to expanding the area in soils where the Portuguese language is used. This monograph deals with a classification problem of sentiment polarity in tweets, focusing on natural language neural models and tweets datasets in Portuguese. Most datasets have themes that characterize them and different sizes and distributions for sentences with positive or negative polarity. The monograph has two main objectives. The first one involves the investigation of natural language models trained for the Portuguese language and their comparison with a model trained for tweets and another one trained with several languages. The second objective is to investigate how the models trained for the Portuguese language behave when adjusted to two sets of datasets, one containing nine bases and the other containing the same nine bases, but adding two other large ones. The results are obtained with different methodologies, namely, using the pre-trained models as they are available and performing a continuous training of the neural model in three ways. The predictive results are obtained with two classifiers, namely, logistic regression and support vector machines. Also, two evaluation measures are computed following a cross-validation procedure with ten folds, namely the accuracy and value of the F1 measure. The characteristics of the databases, models, and methodologies are considered for the comparisons and justifications raised in the research, seeking implications that they may have had on the results achieved. The results achieved allow us to conclude that BERTIMBAU is the model that presents the best results, while the methodology inData was the best perfoming technique for the tested models. We also conclude that the addition of new datasets only helps the ALBERTPT model, while BERTIMBAU has not seen substantial improvement. For the classification task, Logistic Regression was the classifier with the best results for almost all datasets.70 p.Carvalho, Aline Marins PaesVianna, Daniela Quitete de CamposBernardini, Flavia CristinaViterbo Filho, JoséCandido, Gabriel de Souza2023-09-19T14:53:55Z2023-09-19T14:53:55Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfCANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022http://app.uff.br/riuff/handle/1/30438CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-19T14:53:59Zoai:app.uff.br:1/30438Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:05:40.030156Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Modelos neurais artificiais de língua natural para análise de sentimentos em português
title Modelos neurais artificiais de língua natural para análise de sentimentos em português
spellingShingle Modelos neurais artificiais de língua natural para análise de sentimentos em português
Candido, Gabriel de Souza
Máquinas de Vetores de Suporte
Regressão Logística
Análise de Sentimentos
Tweets
Processamento de linguagem natural (Computação)
Língua portuguesa
Mineração de opiniões (Computação)
Twitter (Site de relacionamentos)
Embeddings
Support Vector Machines
Logistic Regression
Sentiment Analysis
title_short Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_full Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_fullStr Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_full_unstemmed Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_sort Modelos neurais artificiais de língua natural para análise de sentimentos em português
author Candido, Gabriel de Souza
author_facet Candido, Gabriel de Souza
author_role author
dc.contributor.none.fl_str_mv Carvalho, Aline Marins Paes
Vianna, Daniela Quitete de Campos
Bernardini, Flavia Cristina
Viterbo Filho, José
dc.contributor.author.fl_str_mv Candido, Gabriel de Souza
dc.subject.por.fl_str_mv Máquinas de Vetores de Suporte
Regressão Logística
Análise de Sentimentos
Tweets
Processamento de linguagem natural (Computação)
Língua portuguesa
Mineração de opiniões (Computação)
Twitter (Site de relacionamentos)
Embeddings
Support Vector Machines
Logistic Regression
Sentiment Analysis
topic Máquinas de Vetores de Suporte
Regressão Logística
Análise de Sentimentos
Tweets
Processamento de linguagem natural (Computação)
Língua portuguesa
Mineração de opiniões (Computação)
Twitter (Site de relacionamentos)
Embeddings
Support Vector Machines
Logistic Regression
Sentiment Analysis
description Problemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.
publishDate 2023
dc.date.none.fl_str_mv 2023-09-19T14:53:55Z
2023-09-19T14:53:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv CANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022
http://app.uff.br/riuff/handle/1/30438
identifier_str_mv CANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022
url http://app.uff.br/riuff/handle/1/30438
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823657768452096