Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau

Detalhes bibliográficos
Autor(a) principal: Silva, Raphael Ramos da
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/253391
Resumo: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
id UFSC_4cb24450b7453b8e8f174d29151f6a88
oai_identifier_str oai:repositorio.ufsc.br:123456789/253391
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbauAderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.Todos os anos, milhares de estudantes brasileiros se submetem à maior avaliação de ensino do país, o Exame Nacional do Ensino Médio (ENEM). O exame avalia não só a qualidade da educação básica nacional, mas também é utilizado para o ingresso em instituições de ensino superior. Além de questões de múltipla escolha abrangendo as grandes áreas do conhecimento, a prova também é composta por uma redação que deve ser redigida obedecendo o estilo dissertativo-argumentativo. A redação é avaliada em 5 competências, sendo a segunda competência a responsável por avaliar se o texto produzido se adequa ao tema proposto. O processo manual de avaliação das redações é dispendioso. O custo estimado em 2015 para cada correção de redação era de R$textit{15,88}. Nesse mesmo ano, 6,4 milhões de redações foram corrigidas. Levando isso em consideração, o presente trabalho propõe o uso de técnicas de Processamento de Linguagem Natural (PLN), incluindo modelos de linguagem baseados em aprendizado profundo, para predizer automaticamente a pontuação de cada redação na segunda competência avaliativa. Tal proposta não apenas se alinha ao que há de mais recente nas práticas de PLN voltadas ao âmbito educacional, como também busca preencher a lacuna de aplicações correlatas especificamente adaptadas para a língua portuguesa. O uso do modelo de linguagem BERT é central para nossa investigação, especificamente a variação BERTimbau, pré-treinada para a língua portuguesa do Brasil. Para atingir os objetivos, foi primeiramente feita uma análise exploratória dos dados. Posteriormente, experimentos utilizaram o BERTimbau para extrair embeddings contextualizados dos textos das redações e dos textos motivadores.A partir desses embeddings foram calculadas medidas de similaridade das redações com textos motivadores, para primeiro investigar possíveis correlações dessas medidas com as notas na competência 2. Como não foram observadas correlações significativas, posteriormente foram criados um modelo de regressão e outro de classificação, mediante fine-tuning do BERTimbau, para predizer as notas a partir dos textos das redações. Ambos os modelos foram treinados com três diferentes taxas de aprendizado e testados usando validação cruzada (k-fold cross validation). O modelo produzido para a tarefa de classificação apresenta boa capacidade de generalização a novos dados, atingindo a acurácia 81,73 e F1-score de 0,80, para a taxa de aprendizado 5e-5 com o dataset de validação. Já os resultados para o modelo de regressão sugerem baixa adaptabilidade para resolver o problema proposto tendo seu MAE superior a 120 para treinamento e validação.Every year, thousands of Brazilian students undergo the largest teaching assessment in the country, the Exame Nacional do Ensino Médio (ENEM), in a free translation, National Secondary Education Exam. The exam not only assesses the quality of national basic education but is also used for admission to higher education institutions. In addition to multiple-choice questions covering major areas of knowledge, the test also consists of an essay that must be written in accordance with the dissertation-argumentative style. The writing is analyzed according to 5 skills, the second skill being related to the semantic adherence of the text produced to the proposed theme. The manual process of evaluating essays is expensive. The estimated cost in 2015 for each writing correction was R$15.88. In that same year, 6.4 million of essays were corrected. Taking this into consideration, the present work proposes the use of NLP techniques, including deep learning-based language models, to automatically predict the score of each essay in the second assessment competency. This proposal not only aligns with the latest practices in NLP aimed at the educational sphere but also seeks to fill the gap in related applications specifically adapted for the Portuguese language. The use of the BERT language model is central to our investigation, specifically the BERTimbau variation, pre-trained for Brazilian Portuguese. To achieve the objectives, an exploratory data analysis was first carried out. Subsequently, experiments used BERTimbau to extract contextualized embeddings from the essay texts, themes, and texts motivating the themes. Using these embeddings, measures of similarity of essays with themes and motivating texts were calculated, to first investigate possible correlations of these measures with scores in competency 2. As no significant correlations were observed, a regression model and a classification model were subsequently created, using fine-tuning of BERTimbau, to predict grades based on the essay texts. Both models were trained with three different learning rates and tested using k-fold cross-validation. The model produced for the classification task presents good generalization capacity to new data, reaching an accuracy of 90.45 and an F1-score of 0.90, for one of the learning rates. The results of the regression model suggest low adaptability to solve the proposed problem, with its MAE greater than 120 for training and validation.Florianópolis, SC.Junior, Osmar de Oliveira BrazFileto, RenatoUniversidade Federal de Santa Catarina.Silva, Raphael Ramos da2023-12-17T19:53:03Z2023-12-17T19:53:03Z2023-12-12info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis111 fapplication/pdfhttps://repositorio.ufsc.br/handle/123456789/253391Open Access.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSC2023-12-17T19:53:03Zoai:repositorio.ufsc.br:123456789/253391Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732023-12-17T19:53:03Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
spellingShingle Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
Silva, Raphael Ramos da
Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.
title_short Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_full Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_fullStr Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_full_unstemmed Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
title_sort Análise da aderência semântica de redações do ENEM ao tema: uma abordagem baseada no BERTimbau
author Silva, Raphael Ramos da
author_facet Silva, Raphael Ramos da
author_role author
dc.contributor.none.fl_str_mv Junior, Osmar de Oliveira Braz
Fileto, Renato
Universidade Federal de Santa Catarina.
dc.contributor.author.fl_str_mv Silva, Raphael Ramos da
dc.subject.por.fl_str_mv Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.
topic Aderência de ensaios/redações a temas, redações do \ENEM, similaridade semântica, modelos contextualizados de linguagem, BERT, regressão, classificação.
description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Sistemas de Informação.
publishDate 2023
dc.date.none.fl_str_mv 2023-12-17T19:53:03Z
2023-12-17T19:53:03Z
2023-12-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/253391
url https://repositorio.ufsc.br/handle/123456789/253391
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Open Access.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Open Access.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 111 f
application/pdf
dc.publisher.none.fl_str_mv Florianópolis, SC.
publisher.none.fl_str_mv Florianópolis, SC.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652396621987840