Modelos neurais artificiais de língua natural para análise de sentimentos em português

Candido, Gabriel de Souza

Modelos neurais artificiais de língua natural para análise de sentimentos em português

Detalhes bibliográficos
Autor(a) principal:	Candido, Gabriel de Souza
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo:	http://app.uff.br/riuff/handle/1/30438
Resumo:	Problemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.

Metadados do item

id	UFF-2_2495c93ea5a735f0d842b713ae9f1d49
oai_identifier_str	oai:app.uff.br:1/30438
network_acronym_str	UFF-2
network_name_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str	2120
spelling	Modelos neurais artificiais de língua natural para análise de sentimentos em portuguêsMáquinas de Vetores de SuporteRegressão LogísticaAnálise de SentimentosTweetsProcessamento de linguagem natural (Computação)Língua portuguesaMineração de opiniões (Computação)Twitter (Site de relacionamentos)EmbeddingsSupport Vector MachinesLogistic RegressionSentiment AnalysisProblemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.Text classification problems are widely studied in Machine Learning, one of the subfields of Artificial Intelligence. However, the lack of studies in the Portuguese language turns out to be an obstacle to expanding the area in soils where the Portuguese language is used. This monograph deals with a classification problem of sentiment polarity in tweets, focusing on natural language neural models and tweets datasets in Portuguese. Most datasets have themes that characterize them and different sizes and distributions for sentences with positive or negative polarity. The monograph has two main objectives. The first one involves the investigation of natural language models trained for the Portuguese language and their comparison with a model trained for tweets and another one trained with several languages. The second objective is to investigate how the models trained for the Portuguese language behave when adjusted to two sets of datasets, one containing nine bases and the other containing the same nine bases, but adding two other large ones. The results are obtained with different methodologies, namely, using the pre-trained models as they are available and performing a continuous training of the neural model in three ways. The predictive results are obtained with two classifiers, namely, logistic regression and support vector machines. Also, two evaluation measures are computed following a cross-validation procedure with ten folds, namely the accuracy and value of the F1 measure. The characteristics of the databases, models, and methodologies are considered for the comparisons and justifications raised in the research, seeking implications that they may have had on the results achieved. The results achieved allow us to conclude that BERTIMBAU is the model that presents the best results, while the methodology inData was the best perfoming technique for the tested models. We also conclude that the addition of new datasets only helps the ALBERTPT model, while BERTIMBAU has not seen substantial improvement. For the classification task, Logistic Regression was the classifier with the best results for almost all datasets.70 p.Carvalho, Aline Marins PaesVianna, Daniela Quitete de CamposBernardini, Flavia CristinaViterbo Filho, JoséCandido, Gabriel de Souza2023-09-19T14:53:55Z2023-09-19T14:53:55Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfCANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022http://app.uff.br/riuff/handle/1/30438CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2023-09-19T14:53:59Zoai:app.uff.br:1/30438Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202023-09-19T14:53:59Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv	Modelos neurais artificiais de língua natural para análise de sentimentos em português
title	Modelos neurais artificiais de língua natural para análise de sentimentos em português
spellingShingle	Modelos neurais artificiais de língua natural para análise de sentimentos em português Candido, Gabriel de Souza Máquinas de Vetores de Suporte Regressão Logística Análise de Sentimentos Tweets Processamento de linguagem natural (Computação) Língua portuguesa Mineração de opiniões (Computação) Twitter (Site de relacionamentos) Embeddings Support Vector Machines Logistic Regression Sentiment Analysis
title_short	Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_full	Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_fullStr	Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_full_unstemmed	Modelos neurais artificiais de língua natural para análise de sentimentos em português
title_sort	Modelos neurais artificiais de língua natural para análise de sentimentos em português
author	Candido, Gabriel de Souza
author_facet	Candido, Gabriel de Souza
author_role	author
dc.contributor.none.fl_str_mv	Carvalho, Aline Marins Paes Vianna, Daniela Quitete de Campos Bernardini, Flavia Cristina Viterbo Filho, José
dc.contributor.author.fl_str_mv	Candido, Gabriel de Souza
dc.subject.por.fl_str_mv	Máquinas de Vetores de Suporte Regressão Logística Análise de Sentimentos Tweets Processamento de linguagem natural (Computação) Língua portuguesa Mineração de opiniões (Computação) Twitter (Site de relacionamentos) Embeddings Support Vector Machines Logistic Regression Sentiment Analysis
topic	Máquinas de Vetores de Suporte Regressão Logística Análise de Sentimentos Tweets Processamento de linguagem natural (Computação) Língua portuguesa Mineração de opiniões (Computação) Twitter (Site de relacionamentos) Embeddings Support Vector Machines Logistic Regression Sentiment Analysis
description	Problemas de classificação de texto são amplamente estudados em Aprendizado de Máquina, uma das subáreas da Inteligência Artificial. Porém, a carência de estudos na língua portuguesa acaba por ser um entrave para a expansão da área em solos onde a língua portuguesa é utilizada. Esta monografia trata de um problema de classificação na área de análise de sentimentos em tweets, utilizando como foco modelos neurais de língua natural e bases de dados de tweets em português. A maioria das bases de dados possuem temas que as caracterizam, além de tamanhos e distribuição distintas para sentenças com polaridade positiva ou negativa. A monografia tem dois objetivos principais. O primeiro, envolve a investigação de modelos de língua natural treinados para a língua portuguesa, e sua comparação com um modelo treinado para tweets e outro treinado com várias línguas. O segundo objetivo é investigar como os modelos treinados para a língua portuguesa se comportam quando ajustados para dois conjuntos de bases de dados, um contendo nove bases e outro contendo essas mesmas nove bases, mas acresentando outras duas grandes bases. Os resultados são obtidos com diferentes metodologias, a saber, usando os modelos pré-treinados da forma que são disponibilizados, bem como executando um treinamento continuado do modelo neural com três abordagens distintas. Para obter os resultados preditivos são considerados dois classificadores, a saber, regressão logística e máquinas de vetores de suporte. Para calcular os resultados preditivos, são utilizadas duas medidas e avaliação seguindo um procedimento de validação cruzada com dez folds, a saber, a acurácia e valor da medida F1. As características das bases de dados, dos modelos e metodologias são considerados para as comparações e justificativas levantadas na pesquisa, buscando implicações que as mesmas podem ter tido nos resultados alcançados. Os resultados alcançados permitem concluir que o modelo BERTIMBAU apresenta os melhores resultados, sendo a metodologia inData a técnica que apresenta os melhores resultados para os modelos testados. Concluímos ainda que a adição de novas bases só é benéfica para o modelo ALBERTPT, não apresentando melhoras para o modelo BERTIMBAU. Para os classificadores, a Regressão Logística foi o que apresentou os melhores resultados para quase todos os resultados.
publishDate	2023
dc.date.none.fl_str_mv	2023-09-19T14:53:55Z 2023-09-19T14:53:55Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	CANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022 http://app.uff.br/riuff/handle/1/30438
identifier_str_mv	CANDIDO, Gabriel de Souza. Modelos neurais artificiais de língua natural para análise de sentimentos em português. 2022. 70 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Universidade Federal Fluminense, Niterói, 2022
url	http://app.uff.br/riuff/handle/1/30438
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	CC-BY-SA info:eu-repo/semantics/openAccess
rights_invalid_str_mv	CC-BY-SA
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF
instname_str	Universidade Federal Fluminense (UFF)
instacron_str	UFF
institution	UFF
reponame_str	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection	Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv	Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv	riuff@id.uff.br
_version_	1825433174020194304

Modelos neurais artificiais de língua natural para análise de sentimentos em português

Registros relacionados