Student dropout risk detection at University of Évora

Detalhes bibliográficos
Autor(a) principal: Prite, Sharmin Sultana
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10174/30358
Resumo: Currently, student dropout is a global problem in higher education affecting the results of education systems. In addition to providing state-of-the-art education, any institution needs to maintain its student flow rate, which means that predicting dropout is critical to measuring the success of an education system. This work focuses on identifying the risk of dropout at the University of Évora based on students’ academic performance. We propose a set of aca- demic information as predictive attributes and present machine learning models that have a precision of 96.8% and f1-measure of 94.8% as perfor- mance in identifying students at risk of dropping out. In this regard, 13 years of academic data were collected from four different academic programs (the academic years 2006/2007 to 2018/2019 and Man- agement, Biology, Informatics Engineering and Nursing programs). After collecting the students’ academic records, anonymizing the information and pre-processing the data, an engineering and attribute selection process was conducted, building the data sets. Various machine learning algorithms were applied and their performance was compared; models were built with Deci- sion Trees (DT), Naïve Bayes (NB), Support Vector Machines (SVM) and Random Forest (RF), with the latter algorithm having obtained the best performance in terms of recall; Sumário: Detecção de Risco de Abandono de Alunos na Universidade de Évora Atualmente, o abandono escolar é um problema global no ensino superior que afeta os resultados dos sistemas educativos. Além de fornecer educação de ponta, qualquer instituição precisa manter a taxa de fluxo de alunos, o que significa que a previsão do abandono escolar é essencial para medir o sucesso de um sistema de ensino. Este trabalho centra-se na identificação do risco de abandono escolar na Uni- versidade de Évora com base no desempenho escolar dos alunos. Propomos um conjunto de informação académica como atributos preditivos e apresen- tamos modelos de aprendizagem automática que apresentam uma precisão de 96.8% e f1-medir de 94.8% como desempenho na identificação de alunos em risco de desistência. Nesse sentido, foram recolhidos 13 anos de dados académicos de quatro cursos diferentes (anos letivos de 2006/2007 a 2018/2019 e cursos de Gestão, Bi- ologia, Engenharia Informática e Enfermagem). Após a recolha do percurso académico dos alunos, a anonimização da informação e o pré-processamento dos dados, foi conduzido um processo de engenharia e seleção de atributos, construindo assim os conjuntos de dados. Foram aplicados vários algoritmos de aprendizagem automática e o seu desempenho foi comparado; foram con struídos modelo com Árvores de Decisão (DT), Naïve Bayes (NB), Máquinas de Vetores de Suporte (SVM) e Random Forest (RF), tendo este último al- goritmo obtido o melhor desempenho no que respeita à cobertura.
id RCAP_385883e8f92c963445019357670fe7b7
oai_identifier_str oai:dspace.uevora.pt:10174/30358
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Student dropout risk detection at University of ÉvoraAcademic Data MiningMachine LearningClassifierDropoutRandom ForestMineração de Dados AcadémicosAprendizagem AutomáticaClassificaçãoAbandono EscolarFloresta AleatóriaCurrently, student dropout is a global problem in higher education affecting the results of education systems. In addition to providing state-of-the-art education, any institution needs to maintain its student flow rate, which means that predicting dropout is critical to measuring the success of an education system. This work focuses on identifying the risk of dropout at the University of Évora based on students’ academic performance. We propose a set of aca- demic information as predictive attributes and present machine learning models that have a precision of 96.8% and f1-measure of 94.8% as perfor- mance in identifying students at risk of dropping out. In this regard, 13 years of academic data were collected from four different academic programs (the academic years 2006/2007 to 2018/2019 and Man- agement, Biology, Informatics Engineering and Nursing programs). After collecting the students’ academic records, anonymizing the information and pre-processing the data, an engineering and attribute selection process was conducted, building the data sets. Various machine learning algorithms were applied and their performance was compared; models were built with Deci- sion Trees (DT), Naïve Bayes (NB), Support Vector Machines (SVM) and Random Forest (RF), with the latter algorithm having obtained the best performance in terms of recall; Sumário: Detecção de Risco de Abandono de Alunos na Universidade de Évora Atualmente, o abandono escolar é um problema global no ensino superior que afeta os resultados dos sistemas educativos. Além de fornecer educação de ponta, qualquer instituição precisa manter a taxa de fluxo de alunos, o que significa que a previsão do abandono escolar é essencial para medir o sucesso de um sistema de ensino. Este trabalho centra-se na identificação do risco de abandono escolar na Uni- versidade de Évora com base no desempenho escolar dos alunos. Propomos um conjunto de informação académica como atributos preditivos e apresen- tamos modelos de aprendizagem automática que apresentam uma precisão de 96.8% e f1-medir de 94.8% como desempenho na identificação de alunos em risco de desistência. Nesse sentido, foram recolhidos 13 anos de dados académicos de quatro cursos diferentes (anos letivos de 2006/2007 a 2018/2019 e cursos de Gestão, Bi- ologia, Engenharia Informática e Enfermagem). Após a recolha do percurso académico dos alunos, a anonimização da informação e o pré-processamento dos dados, foi conduzido um processo de engenharia e seleção de atributos, construindo assim os conjuntos de dados. Foram aplicados vários algoritmos de aprendizagem automática e o seu desempenho foi comparado; foram con struídos modelo com Árvores de Decisão (DT), Naïve Bayes (NB), Máquinas de Vetores de Suporte (SVM) e Random Forest (RF), tendo este último al- goritmo obtido o melhor desempenho no que respeita à cobertura.Universidade de Évora2021-11-16T18:18:56Z2021-11-162021-09-28T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10174/30358http://hdl.handle.net/10174/30358TID:202790053engDepartamento de Engenharia Informáticam39234@alunos.uevora.pt498Prite, Sharmin Sultanainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-01-03T19:28:27Zoai:dspace.uevora.pt:10174/30358Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T01:19:52.996466Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Student dropout risk detection at University of Évora
title Student dropout risk detection at University of Évora
spellingShingle Student dropout risk detection at University of Évora
Prite, Sharmin Sultana
Academic Data Mining
Machine Learning
Classifier
Dropout
Random Forest
Mineração de Dados Académicos
Aprendizagem Automática
Classificação
Abandono Escolar
Floresta Aleatória
title_short Student dropout risk detection at University of Évora
title_full Student dropout risk detection at University of Évora
title_fullStr Student dropout risk detection at University of Évora
title_full_unstemmed Student dropout risk detection at University of Évora
title_sort Student dropout risk detection at University of Évora
author Prite, Sharmin Sultana
author_facet Prite, Sharmin Sultana
author_role author
dc.contributor.author.fl_str_mv Prite, Sharmin Sultana
dc.subject.por.fl_str_mv Academic Data Mining
Machine Learning
Classifier
Dropout
Random Forest
Mineração de Dados Académicos
Aprendizagem Automática
Classificação
Abandono Escolar
Floresta Aleatória
topic Academic Data Mining
Machine Learning
Classifier
Dropout
Random Forest
Mineração de Dados Académicos
Aprendizagem Automática
Classificação
Abandono Escolar
Floresta Aleatória
description Currently, student dropout is a global problem in higher education affecting the results of education systems. In addition to providing state-of-the-art education, any institution needs to maintain its student flow rate, which means that predicting dropout is critical to measuring the success of an education system. This work focuses on identifying the risk of dropout at the University of Évora based on students’ academic performance. We propose a set of aca- demic information as predictive attributes and present machine learning models that have a precision of 96.8% and f1-measure of 94.8% as perfor- mance in identifying students at risk of dropping out. In this regard, 13 years of academic data were collected from four different academic programs (the academic years 2006/2007 to 2018/2019 and Man- agement, Biology, Informatics Engineering and Nursing programs). After collecting the students’ academic records, anonymizing the information and pre-processing the data, an engineering and attribute selection process was conducted, building the data sets. Various machine learning algorithms were applied and their performance was compared; models were built with Deci- sion Trees (DT), Naïve Bayes (NB), Support Vector Machines (SVM) and Random Forest (RF), with the latter algorithm having obtained the best performance in terms of recall; Sumário: Detecção de Risco de Abandono de Alunos na Universidade de Évora Atualmente, o abandono escolar é um problema global no ensino superior que afeta os resultados dos sistemas educativos. Além de fornecer educação de ponta, qualquer instituição precisa manter a taxa de fluxo de alunos, o que significa que a previsão do abandono escolar é essencial para medir o sucesso de um sistema de ensino. Este trabalho centra-se na identificação do risco de abandono escolar na Uni- versidade de Évora com base no desempenho escolar dos alunos. Propomos um conjunto de informação académica como atributos preditivos e apresen- tamos modelos de aprendizagem automática que apresentam uma precisão de 96.8% e f1-medir de 94.8% como desempenho na identificação de alunos em risco de desistência. Nesse sentido, foram recolhidos 13 anos de dados académicos de quatro cursos diferentes (anos letivos de 2006/2007 a 2018/2019 e cursos de Gestão, Bi- ologia, Engenharia Informática e Enfermagem). Após a recolha do percurso académico dos alunos, a anonimização da informação e o pré-processamento dos dados, foi conduzido um processo de engenharia e seleção de atributos, construindo assim os conjuntos de dados. Foram aplicados vários algoritmos de aprendizagem automática e o seu desempenho foi comparado; foram con struídos modelo com Árvores de Decisão (DT), Naïve Bayes (NB), Máquinas de Vetores de Suporte (SVM) e Random Forest (RF), tendo este último al- goritmo obtido o melhor desempenho no que respeita à cobertura.
publishDate 2021
dc.date.none.fl_str_mv 2021-11-16T18:18:56Z
2021-11-16
2021-09-28T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10174/30358
http://hdl.handle.net/10174/30358
TID:202790053
url http://hdl.handle.net/10174/30358
identifier_str_mv TID:202790053
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv Departamento de Engenharia Informática
m39234@alunos.uevora.pt
498
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade de Évora
publisher.none.fl_str_mv Universidade de Évora
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136680480866304