Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina

Detalhes bibliográficos
Autor(a) principal: Primão, Aline Pacheco
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/238320
Resumo: Dissertação (mestrado profissional) - Universidade Federal de Santa Catarina, Centro Sócio-Econômico, Programa de Pós-Graduação em Administração Universitária, Florianópolis, 2022.
id UFSC_9601b704b6703048d34a498e7c5e4b8d
oai_identifier_str oai:repositorio.ufsc.br:123456789/238320
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaPrimão, Aline PachecoFlach, Leonardo2022-08-18T23:20:28Z2022-08-18T23:20:28Z2022377979https://repositorio.ufsc.br/handle/123456789/238320Dissertação (mestrado profissional) - Universidade Federal de Santa Catarina, Centro Sócio-Econômico, Programa de Pós-Graduação em Administração Universitária, Florianópolis, 2022.Conseguir prever a evasão escolar em instituições públicas de ensino superior é importante para formular ações que ajudem o estudante em seu desenvolvimento educacional. Para isso, as técnicas de Machine Learning (ML) podem colaborar com as instituições a prever a evasão. Este trabalho tem como objetivo propor um modelo usando algoritmos de Machine Learning para prever a evasão escolar no Instituto Federal de Santa Catarina (IFSC). Para isso, foram analisados os fatores que impactam na evasão nas instituições de ensino superior por meio da literatura existente, gerada uma planilha com as características importantes, após isso, foram utilizados os algoritmos Decision Tree, usados como baseline, Artificial Neural Network e XGBoost para desenvolver um modelo de previsão da evasão escolar do IFSC e conseguir analisar os anos de 2017, 2018 e 2019 que representam os dados antes da pandemia da Covid-19 e os anos 2020 e 2021 com os dados durante a pandemia. Os dois modelos (XGBoost e MLP) se mostraram melhores que o baseline das duas bases analisadas, porém o modelo XGBoost se mostrou superior. No DataFrame antes da pandemia, o algoritmo XGBoost obteve o F1-Score de 97,53%, já no algoritmo MLP o F1-Score foi de 93,83%. No df_durante_pandemia, o algoritmo XGBoost apresentou F1_score igual a 90,32%. Já o algoritmo MLP obteve 80% de F1_Score. Outra análise importante foi em relação à importância das variáveis, já que, para o DataFrame com os dados de antes da pandemia, a variável que apresentou maior relevância foi a de número de disciplinas concluídas, seguida de forma de ingresso, média geral do discente, renda familiar per capita e campus. Outrossim, para o DataFrame com os dados durante pandemia, a variável mais importante foi a idade do discente, seguida de forma de ingresso, curso do discente, naturalidade do discente e média geral do discente. Sendo assim, é possível verificar que a forma de ingresso é a segunda variável mais importante, tanto antes da pandemia como durante a pandemia, e a média geral do discente encontra-se entre as cinco principais variáveis nos dois DataFrames. A partir da avaliação do modelo criado, por ter trazido os melhores resultados, o algoritmo XGBoost foi selecionado para criar um modelo ajustado. Dessa forma, foram testados novos hiperparâmetros e retiradas três variáveis que não apresentaram significância estatística. Foi mostrado que o modelo ajustado não alterou o resultado do Dataframe antes da pandemia, porém para o DataFrame durante a pandemia obteve melhores resultados.Abstract: Being able to predict school dropout in public higher education institutions is important to formulate actions that help students in their educational development. For this, Machine Learning (ML) techniques can collaborate with institutions to predict dropout. This work aims to propose a model using Machine Learning algorithms to predict school dropout at Instituto Federal de Santa Catarina (IFSC). For this, the factors that impact dropout in higher education institutions were analyzed through the existing literature, generated a spreadsheet with the important characteristics, after that, the Decision Tree algorithms were used, used as baseline, Artificial Neural Network and XGBoost to develop an IFSC dropout prediction model and be able to analyze the years 2017, 2018 and 2019 that represent data before the Covid-19 pandemic and the years 2020 and 2021 with data during the pandemic. The two models (XGBoost and MLP) were better than the baseline of the two analyzed bases, but the XGBoost model was superior. In the DataFrame before the pandemic, the XGBoost algorithm obtained an F1-Score of 97.53%, while in the MLP algorithm the F1-Score was 93.83%. In df_during_pandemia, the XGBoost algorithm presented F1_score equal to 90.32%. The MLP algorithm obtained 80% of F1_Score. Another important analysis was in relation to the importance of the variables, since, for the DataFrame with data from before the pandemic, the variable that showed the greatest relevance was the number of courses completed, followed by the form of admission, overall student average, per capita household income and campus. Furthermore, for the DataFrame with the data during the pandemic, the most important variable was the student's age, followed by the form of admission, the student's course, the student's place of birth and the student's general average. Therefore, it is possible to verify that the form of admission is the second most important variable, both before the pandemic and during the pandemic, and the general average of the student is among the five main variables in the two DataFrames. From the evaluation of the created model, for having brought the best results, the XGBoost algorithm was selected to create an adjusted model. Thus, new hyperparameters were tested and three variables that did not show statistical significance were removed. It was shown that the adjusted model did not change the result of the Dataframe before the pandemic, but for the DataFrame during the pandemic it obtained better results.131 p.| il., gráfs.porUniversidades e faculdadesEvasão universitáriaAprendizado do computadorUso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPPAU0264-D.pdfPPAU0264-D.pdfapplication/pdf2973137https://repositorio.ufsc.br/bitstream/123456789/238320/-1/PPAU0264-D.pdf03c98b68354590254ef15080a7085236MD5-1123456789/2383202022-08-18 20:20:28.42oai:repositorio.ufsc.br:123456789/238320Repositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732022-08-18T23:20:28Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
title Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
spellingShingle Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
Primão, Aline Pacheco
Universidades e faculdades
Evasão universitária
Aprendizado do computador
title_short Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
title_full Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
title_fullStr Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
title_full_unstemmed Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
title_sort Uso de algoritmos de machine learning para prever a evasão escolar no ensino superior: um estudo no Instituto Federal de Santa Catarina
author Primão, Aline Pacheco
author_facet Primão, Aline Pacheco
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Primão, Aline Pacheco
dc.contributor.advisor1.fl_str_mv Flach, Leonardo
contributor_str_mv Flach, Leonardo
dc.subject.classification.none.fl_str_mv Universidades e faculdades
Evasão universitária
Aprendizado do computador
topic Universidades e faculdades
Evasão universitária
Aprendizado do computador
description Dissertação (mestrado profissional) - Universidade Federal de Santa Catarina, Centro Sócio-Econômico, Programa de Pós-Graduação em Administração Universitária, Florianópolis, 2022.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-08-18T23:20:28Z
dc.date.available.fl_str_mv 2022-08-18T23:20:28Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/238320
dc.identifier.other.none.fl_str_mv 377979
identifier_str_mv 377979
url https://repositorio.ufsc.br/handle/123456789/238320
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 131 p.| il., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/238320/-1/PPAU0264-D.pdf
bitstream.checksum.fl_str_mv 03c98b68354590254ef15080a7085236
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766804922728185856