Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/3/3142/tde-28052024-082941/ |
Resumo: | O processo de análise preditiva consiste em realizar previsões tomando como base alguns algoritmos de aprendizado de máquina. Um tipo muito comum consiste em utilizar algoritmos de regressão linear aplicados em uma base de dados devidamente tratada. O tratamento dos dados consiste em realizar a análise exploratória dos dados através de análise estatística, com objetivo de reduzir a dimensionalidade dos dados, tratar a multicolinearidade e realizar a devida validação dos dados que serão utilizados para treino e teste dos algoritmos de regressão. A escolha da base de dados também é outro fator de extrema importância para obter resultados estatisticamente válidos. O trabalho utilizou a base de dados fornecida pelo governo federal contendo os dados dos estudantes dos cursos de engenharia que realizaram a prova do ENADE em 2019. Após o devido tratamento estatístico, foram escolhidos algoritmos de regressão linear para o processo de análise preditiva. Os algoritmos selecionados foram: LightGBM, XGBoost e o CatBoost. O critério de escolha foi o balanço entre replicabilidade dos resultados com menor erro e menor tempo de treinamento. Levou-se em conta fatores como R² (R-squared), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), Median Absolute Error. O treinamento dos algoritmos passou por ajustes dos hiperparâmetros que representam a melhor opção para a melhor resposta. Depois de realizados os ajustes foi possível realizar previsões e retirar insights da base. Do ponto de vista da engenharia, o modelo proposto permite analisar dados socioeconômicos e prever o desempenho do estudante no ENADE. Do ponto de vista social, o trabalho permite que uma instituição universitária consiga analisar e programar suas políticas sociais desde os anos iniciais, neste ponto, os algoritmos permitem predizer a nota esperada com base nas condições que a instituição oferece ao estudante, por exemplo, oferecimento de cotas, bolsas de estudos, bolsa de iniciação científica entre outros. |
id |
USP_65bc099ee2cdd0abe7bfbdf7ee9d85f6 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-28052024-082941 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos.Untitled in englishAlgoritmos para processamentoAprendizado computacionalCatBoostLightGBMLinear regressionMachine learningRegressão linearXGBoostO processo de análise preditiva consiste em realizar previsões tomando como base alguns algoritmos de aprendizado de máquina. Um tipo muito comum consiste em utilizar algoritmos de regressão linear aplicados em uma base de dados devidamente tratada. O tratamento dos dados consiste em realizar a análise exploratória dos dados através de análise estatística, com objetivo de reduzir a dimensionalidade dos dados, tratar a multicolinearidade e realizar a devida validação dos dados que serão utilizados para treino e teste dos algoritmos de regressão. A escolha da base de dados também é outro fator de extrema importância para obter resultados estatisticamente válidos. O trabalho utilizou a base de dados fornecida pelo governo federal contendo os dados dos estudantes dos cursos de engenharia que realizaram a prova do ENADE em 2019. Após o devido tratamento estatístico, foram escolhidos algoritmos de regressão linear para o processo de análise preditiva. Os algoritmos selecionados foram: LightGBM, XGBoost e o CatBoost. O critério de escolha foi o balanço entre replicabilidade dos resultados com menor erro e menor tempo de treinamento. Levou-se em conta fatores como R² (R-squared), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), Median Absolute Error. O treinamento dos algoritmos passou por ajustes dos hiperparâmetros que representam a melhor opção para a melhor resposta. Depois de realizados os ajustes foi possível realizar previsões e retirar insights da base. Do ponto de vista da engenharia, o modelo proposto permite analisar dados socioeconômicos e prever o desempenho do estudante no ENADE. Do ponto de vista social, o trabalho permite que uma instituição universitária consiga analisar e programar suas políticas sociais desde os anos iniciais, neste ponto, os algoritmos permitem predizer a nota esperada com base nas condições que a instituição oferece ao estudante, por exemplo, oferecimento de cotas, bolsas de estudos, bolsa de iniciação científica entre outros.The predictive analysis process consists of making predictions based on some machine learning algorithms. A very common type consists of using linear regression algorithms applied to a properly treated database. Data processing consists of carrying out exploratory data analysis through statistical analysis, with the aim of reducing the dimensionality of the data, treating multicollinearity, and carrying out due validation of the data that will be used for training and testing the regression algorithms. The choice of database is also another extremely important factor to obtain statistically valid results. The work used the database provided by the federal government containing data from engineering students who took the ENADE test in 2019. After due statistical treatment, linear regression algorithms were chosen for the predictive analysis process. The algorithms selected were: LightGBM, XGBoost and CatBoost. The choice criterion was the balance between replicability of results with lower error and shorter training time. Factors such as R² (R-squared), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), Median Absolute Error were taken into account. The training of the algorithms involved adjustments of the hyper parameters that represent the best option for the best response. After the adjustments were made, it was possible to make predictions and extract insights from the base. From an engineering point of view, the proposed model allows analyzing socioeconomic data and predicting student performance in ENADE. From a social point of view, the work allows a university institution to analyze and program its socials policies from the initial years, at this point, the algorithms allow predicting the expected grade based on the conditions that the institution offers to the student, for example, offering quotas, scholarships, scientific initiation scholarships, among others.Biblioteca Digitais de Teses e Dissertações da USPKofuji, Sergio TakeoGuilhen, Bruno Anselmo2024-04-17info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/3/3142/tde-28052024-082941/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-05-29T11:42:02Zoai:teses.usp.br:tde-28052024-082941Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-05-29T11:42:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. Untitled in english |
title |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. |
spellingShingle |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. Guilhen, Bruno Anselmo Algoritmos para processamento Aprendizado computacional CatBoost LightGBM Linear regression Machine learning Regressão linear XGBoost |
title_short |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. |
title_full |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. |
title_fullStr |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. |
title_full_unstemmed |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. |
title_sort |
Avaliação de algoritmos para a análise preditiva das notas de Engenharia no ENADE utilizando dados socioeconômicos. |
author |
Guilhen, Bruno Anselmo |
author_facet |
Guilhen, Bruno Anselmo |
author_role |
author |
dc.contributor.none.fl_str_mv |
Kofuji, Sergio Takeo |
dc.contributor.author.fl_str_mv |
Guilhen, Bruno Anselmo |
dc.subject.por.fl_str_mv |
Algoritmos para processamento Aprendizado computacional CatBoost LightGBM Linear regression Machine learning Regressão linear XGBoost |
topic |
Algoritmos para processamento Aprendizado computacional CatBoost LightGBM Linear regression Machine learning Regressão linear XGBoost |
description |
O processo de análise preditiva consiste em realizar previsões tomando como base alguns algoritmos de aprendizado de máquina. Um tipo muito comum consiste em utilizar algoritmos de regressão linear aplicados em uma base de dados devidamente tratada. O tratamento dos dados consiste em realizar a análise exploratória dos dados através de análise estatística, com objetivo de reduzir a dimensionalidade dos dados, tratar a multicolinearidade e realizar a devida validação dos dados que serão utilizados para treino e teste dos algoritmos de regressão. A escolha da base de dados também é outro fator de extrema importância para obter resultados estatisticamente válidos. O trabalho utilizou a base de dados fornecida pelo governo federal contendo os dados dos estudantes dos cursos de engenharia que realizaram a prova do ENADE em 2019. Após o devido tratamento estatístico, foram escolhidos algoritmos de regressão linear para o processo de análise preditiva. Os algoritmos selecionados foram: LightGBM, XGBoost e o CatBoost. O critério de escolha foi o balanço entre replicabilidade dos resultados com menor erro e menor tempo de treinamento. Levou-se em conta fatores como R² (R-squared), RMSE (Root Mean Squared Error), MAE (Mean Absolute Error), Median Absolute Error. O treinamento dos algoritmos passou por ajustes dos hiperparâmetros que representam a melhor opção para a melhor resposta. Depois de realizados os ajustes foi possível realizar previsões e retirar insights da base. Do ponto de vista da engenharia, o modelo proposto permite analisar dados socioeconômicos e prever o desempenho do estudante no ENADE. Do ponto de vista social, o trabalho permite que uma instituição universitária consiga analisar e programar suas políticas sociais desde os anos iniciais, neste ponto, os algoritmos permitem predizer a nota esperada com base nas condições que a instituição oferece ao estudante, por exemplo, oferecimento de cotas, bolsas de estudos, bolsa de iniciação científica entre outros. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-04-17 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-28052024-082941/ |
url |
https://www.teses.usp.br/teses/disponiveis/3/3142/tde-28052024-082941/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809091150366113792 |