Modelos neurais artificiais de língua natural para análise de sentimentos em português
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/30438 |
Resumo: | Problemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados. |
id |
UFF-2_2495c93ea5a735f0d842b713ae9f1d49 |
---|---|
oai_identifier_str |
oai:app.uff.br:1/30438 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Modelos neurais artificiais de língua natural para análise de sentimentos em portuguêsMáquinas de Vetores de SuporteRegressão LogísticaAnálise de SentimentosTweetsProcessamento de linguagem natural (Computação)Língua portuguesaMineração de opiniões (Computação)Twitter (Site de relacionamentos)EmbeddingsSupport Vector MachinesLogistic RegressionSentiment AnalysisProblemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.Text classification problems are widely studied in Machine Learning, one of the subfields of Artificial Intelligence. However, the lack of studies in the Portuguese language turns out to be an obstacle to expanding the area in soils where the Portuguese language is used. This monograph deals with a classification problem of sentiment polarity in tweets, focusing on natural language neural models and tweets datasets in Portuguese. Most datasets have themes that characterize them and different sizes and distributions for sentences with positive or negative polarity. The monograph has two main objectives. The first one involves the investigation of natural language models trained for the Portuguese language and their comparison with a model trained for tweets and another one trained with several languages. The second objective is to investigate how the models trained for the Portuguese language behave when adjusted to two sets of datasets, one containing nine bases and the other containing the same nine bases, but adding two other large ones. The results are obtained with different methodologies, namely, using the pre-trained models as they are available and performing a continuous training of the neural model in three ways. The predictive results are obtained with two classifiers, namely, logistic regression and support vector machines. Also, two evaluation measures are computed following a cross-validation procedure with ten folds, namely the accuracy and value of the F1 measure. The characteristics of the databases, models, and methodologies are considered for the comparisons and justifications raised in the research, seeking implications that they may have had on the results achieved. The results achieved allow us to conclude that BERTIMBAU is the model that presents the best results, while the methodology inData was the best perfoming technique for the tested models. We also conclude that the addition of new datasets only helps the ALBERTPT model, while BERTIMBAU has not seen substantial improvement. For the classification task, Logistic Regression was the classifier with the best results for almost all datasets.70 p.Carvalho, Aline Marins PaesVianna, Daniela Quitete de CamposBernardini, Flavia CristinaViterbo Filho, JoséCandido, Gabriel de Souza2023-09-19T14:53:55Z2023-09-19T14:53:55Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfCANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022http://app.uff.br/riuff/handle/1/30438CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-19T14:53:59Zoai:app.uff.br:1/30438Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T11:05:40.030156Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
title |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
spellingShingle |
Modelos neurais artificiais de língua natural para análise de sentimentos em português Candido, Gabriel de Souza Máquinas de Vetores de Suporte Regressão Logística Análise de Sentimentos Tweets Processamento de linguagem natural (Computação) Língua portuguesa Mineração de opiniões (Computação) Twitter (Site de relacionamentos) Embeddings Support Vector Machines Logistic Regression Sentiment Analysis |
title_short |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
title_full |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
title_fullStr |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
title_full_unstemmed |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
title_sort |
Modelos neurais artificiais de língua natural para análise de sentimentos em português |
author |
Candido, Gabriel de Souza |
author_facet |
Candido, Gabriel de Souza |
author_role |
author |
dc.contributor.none.fl_str_mv |
Carvalho, Aline Marins Paes Vianna, Daniela Quitete de Campos Bernardini, Flavia Cristina Viterbo Filho, José |
dc.contributor.author.fl_str_mv |
Candido, Gabriel de Souza |
dc.subject.por.fl_str_mv |
Máquinas de Vetores de Suporte Regressão Logística Análise de Sentimentos Tweets Processamento de linguagem natural (Computação) Língua portuguesa Mineração de opiniões (Computação) Twitter (Site de relacionamentos) Embeddings Support Vector Machines Logistic Regression Sentiment Analysis |
topic |
Máquinas de Vetores de Suporte Regressão Logística Análise de Sentimentos Tweets Processamento de linguagem natural (Computação) Língua portuguesa Mineração de opiniões (Computação) Twitter (Site de relacionamentos) Embeddings Support Vector Machines Logistic Regression Sentiment Analysis |
description |
Problemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-19T14:53:55Z 2023-09-19T14:53:55Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
CANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022 http://app.uff.br/riuff/handle/1/30438 |
identifier_str_mv |
CANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022 |
url |
http://app.uff.br/riuff/handle/1/30438 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823657768452096 |