Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau

Silva, Raphael Ramos da

Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau

Detalhes bibliográficos
Autor(a) principal:	Silva, Raphael Ramos da
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFSC
Texto Completo:	https://repositorio.ufsc.br/handle/123456789/253391
Resumo:	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.

Metadados do item

id	UFSC_4cb24450b7453b8e8f174d29151f6a88
oai_identifier_str	oai:repositorio.ufsc.br:123456789/253391
network_acronym_str	UFSC
network_name_str	Repositório Institucional da UFSC
repository_id_str	2373
spelling	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbauAderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.Todos os anos, milhares de estudantes brasileiros se submetem à maior avaliação de ensino do país, o Exame Nacional do Ensino Médio (ENEM). O exame avalia não só a qualidade da educação básica nacional, mas também é utilizado para o ingresso em instituições de ensino superior. Além de questões de múltipla escolha abrangendo as grandes áreas do conhecimento, a prova também é composta por uma redação que deve ser redigida obedecendo o estilo dissertativo-argumentativo. A redação é avaliada em 5 competências, sendo a segunda competência a responsável por avaliar se o texto produzido se adequa ao tema proposto. O processo manual de avaliação das redações é dispendioso. O custo estimado em 2015 para cada correção de redação era de R$textit{15,88}. Nesse mesmo ano, 6,4 milhões de redações foram corrigidas. Levando isso em consideração, o presente trabalho propõe o uso de técnicas de Processamento de Linguagem Natural (PLN), incluindo modelos de linguagem baseados em aprendizado profundo, para predizer automaticamente a pontuação de cada redação na segunda competência avaliativa. Tal proposta não apenas se alinha ao que há de mais recente nas práticas de PLN voltadas ao âmbito educacional, como também busca preencher a lacuna de aplicações correlatas especificamente adaptadas para a língua portuguesa. O uso do modelo de linguagem BERT é central para nossa investigação, especificamente a variação BERTimbau, pré-treinada para a língua portuguesa do Brasil. Para atingir os objetivos, foi primeiramente feita uma análise exploratória dos dados. Posteriormente, experimentos utilizaram o BERTimbau para extrair embeddings contextualizados dos textos das redações e dos textos motivadores.A partir desses embeddings foram calculadas medidas de similaridade das redações com textos motivadores, para primeiro investigar possíveis correlações dessas medidas com as notas na competência 2. Como não foram observadas correlações significativas, posteriormente foram criados um modelo de regressão e outro de classificação, mediante fine-tuning do BERTimbau, para predizer as notas a partir dos textos das redações. Ambos os modelos foram treinados com três diferentes taxas de aprendizado e testados usando validação cruzada (k-fold cross validation). O modelo produzido para a tarefa de classificação apresenta boa capacidade de generalização a novos dados, atingindo a acurácia 81,73 e F1-score de 0,80, para a taxa de aprendizado 5e-5 com o dataset de validação. Já os resultados para o modelo de regressão sugerem baixa adaptabilidade para resolver o problema proposto tendo seu MAE superior a 120 para treinamento e validação.Every year, thousands of Brazilian students undergo the largest teaching assessment in the country, the Exame Nacional do Ensino Médio (ENEM), in a free translation, National Secondary Education Exam. The exam not only assesses the quality of national basic education but is also used for admission to higher education institutions. In addition to multiple-choice questions covering major areas of knowledge, the test also consists of an essay that must be written in accordance with the dissertation-argumentative style. The writing is analyzed according to 5 skills, the second skill being related to the semantic adherence of the text produced to the proposed theme. The manual process of evaluating essays is expensive. The estimated cost in 2015 for each writing correction was R$15.88. In that same year, 6.4 million of essays were corrected. Taking this into consideration, the present work proposes the use of NLP techniques, including deep learning-based language models, to automatically predict the score of each essay in the second assessment competency. This proposal not only aligns with the latest practices in NLP aimed at the educational sphere but also seeks to fill the gap in related applications specifically adapted for the Portuguese language. The use of the BERT language model is central to our investigation, specifically the BERTimbau variation, pre-trained for Brazilian Portuguese. To achieve the objectives, an exploratory data analysis was first carried out. Subsequently, experiments used BERTimbau to extract contextualized embeddings from the essay texts, themes, and texts motivating the themes. Using these embeddings, measures of similarity of essays with themes and motivating texts were calculated, to first investigate possible correlations of these measures with scores in competency 2. As no significant correlations were observed, a regression model and a classification model were subsequently created, using fine-tuning of BERTimbau, to predict grades based on the essay texts. Both models were trained with three different learning rates and tested using k-fold cross-validation. The model produced for the classification task presents good generalization capacity to new data, reaching an accuracy of 90.45 and an F1-score of 0.90, for one of the learning rates. The results of the regression model suggest low adaptability to solve the proposed problem, with its MAE greater than 120 for training and validation.Florianópolis, SC.Junior, Osmar de Oliveira BrazFileto, RenatoUniversidade Federal de Santa Catarina.Silva, Raphael Ramos da2023-12-17T19:53:03Z2023-12-17T19:53:03Z2023-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis111 fapplication/pdfhttps://repositorio.ufsc.br/handle/123456789/253391Open Access.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2023-12-17T19:53:03Zoai:repositorio.ufsc.br:123456789/253391Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732023-12-17T19:53:03Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
spellingShingle	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau Silva, Raphael Ramos da Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.
title_short	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_full	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_fullStr	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_full_unstemmed	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_sort	Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
author	Silva, Raphael Ramos da
author_facet	Silva, Raphael Ramos da
author_role	author
dc.contributor.none.fl_str_mv	Junior, Osmar de Oliveira Braz Fileto, Renato Universidade Federal de Santa Catarina.
dc.contributor.author.fl_str_mv	Silva, Raphael Ramos da
dc.subject.por.fl_str_mv	Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.
topic	Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.
description	TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
publishDate	2023
dc.date.none.fl_str_mv	2023-12-17T19:53:03Z 2023-12-17T19:53:03Z 2023-12-12
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://repositorio.ufsc.br/handle/123456789/253391
url	https://repositorio.ufsc.br/handle/123456789/253391
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	Open Access. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Open Access.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	111 f application/pdf
dc.publisher.none.fl_str_mv	Florianópolis, SC.
publisher.none.fl_str_mv	Florianópolis, SC.
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFSC instname:Universidade Federal de Santa Catarina (UFSC) instacron:UFSC
instname_str	Universidade Federal de Santa Catarina (UFSC)
instacron_str	UFSC
institution	UFSC
reponame_str	Repositório Institucional da UFSC
collection	Repositório Institucional da UFSC
repository.name.fl_str_mv	Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_	1808652396621987840

Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau

Registros relacionados