Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior

Detalhes bibliográficos
Autor(a) principal: Franco, Tiago
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10198/19381
Resumo: Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná
id RCAP_c7183513731f07975043775fe9eb2541
oai_identifier_str oai:bibliotecadigital.ipb.pt:10198/19381
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superiorBig data analyticsAbandono escolarEnsino superiorDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaMestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do ParanáO abandono escolar é uma constante preocupação das instituições de ensino superior, com divergentes e complexos fatores relatados por diversos autores. Conseguimos notar que este problema é bastante abrangente e explorado, já sendo possível encontrar nas instituições setores especializados ou programas de auxílio como psicólogos, auxílio moradia, programa de monitoria, entre outros, buscando minimizar a quantidade de alunos desistentes. Entretanto estas propostas dependem do próprio aluno a buscar ajuda necessária, abrindo uma lacuna para aqueles que não se sentem confortáveis a procurar ou não possuem total conhecimento do próprio caso. Este trabalho propõe um modelo para a identificação prévia dos alunos desistentes, com objetivo de tornar as instituições de ensino aptas a entender melhor os casos de abandono e se possível encaminhá-los a setores especializados. Para tal, utilizamos o Instituto Politécnico de Bragança como estudo de caso que nos forneceu mais 200 milhões de registros relacionados aos alunos matriculados entre 2008 a 2017. Analisamos e processamos a Big Data fornecida com a finalidade de moldá-la como parâmetros de entrada de algoritmos de machine learning. Inicialmente testamos três algoritmos e descobrimos que o random forest demonstra ser o mais eficiente neste contexto. A partir disso, aproveitamos do volume de dados para identificar qual seria melhor ciclo de treino e obtemos que o período de 4 anos consegue atingir melhores resultados. No aprimoramento do modelo adicionamos mais 2 atributos buscando realçar a trajetória escolar do aluno. Para implementação e visualização do modelo, desenvolvemos uma ferramenta de extração de dados e uma aplicação Web, que através de diferentes níveis de acesso, além de conseguir identificar os alunos em risco de abandono, também possibilita aos usuários efetuar análises comparativas entre escolas e cursos por meio de uma página personalizada com estatísticas transformadas em gráficos e tabelas. O estudo se apresenta como uma boa solução para identificação prévia dos alunos em risco de abandono, possibilitando análises e encaminhamentos. O modelo ainda pode ser ampliado a mais parâmetros e tende a obter melhores resultados ao longo dos anos aperfeiçoando através do reforço os atributos criados.School dropout is a constant concern of higher education institutions, with divergent and complex factors reported by various authors. We can note that this problem is quite broad and exploited, since it is possible to find specialized sectors or assistance programs such as psychologists, housing assistance, monitoring programs, among others, in order to minimize the number of students dropping out. However, these proposals depend on the student himself to seek necessary help, opening a gap for those who do not feel comfortable to seek or do not have full knowledge of the case itself. This work proposes a model for the prior identification of dropouts, with the aim of making higher education institutions able to understand cases of dropout and, if possible, refer them to specialized sectors. For that, we use as a case study the Instituto Politécnico de Bragança, which provided 200 million records related to students enrolled between 2008 and 2017. We analyze and process the Big Data provided for molding it as input parameters of machine learning algorithms. We first tested three algorithms and found that random forest proves to be the most efficient in this context. From this, we take advantage of the data volume to identify which would be the best training cycle and obtain that the period of 4 years can achieve better results. In the improvement of the model we added two more attributes to highlight the trajectory of the student. For the implementation and visualization of the model, we developed a data extraction tool and a Web application, which through different levels of access, besides being able to identify students at risk of abandonment, also allows users to make comparative analysis between schools and courses by of a custom page with statistics transformed into graphs and tables. The study presents as a good solution for the prior identification of students at risk of dropout, enabling analysis and referrals. The model can still be extended to more parameters and tends to obtain better results over the years by improving by enhancing the attributes created.Alves, PauloKoscianski, AndréBiblioteca Digital do IPBFranco, Tiago2019-06-27T16:31:59Z201920172019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/19381TID:202258033porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T10:44:11Zoai:bibliotecadigital.ipb.pt:10198/19381Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T23:09:53.298241Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
title Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
spellingShingle Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
Franco, Tiago
Big data analytics
Abandono escolar
Ensino superior
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
title_full Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
title_fullStr Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
title_full_unstemmed Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
title_sort Big data analytics para a classificação do risco de abandono escolar em cursos do ensino superior
author Franco, Tiago
author_facet Franco, Tiago
author_role author
dc.contributor.none.fl_str_mv Alves, Paulo
Koscianski, André
Biblioteca Digital do IPB
dc.contributor.author.fl_str_mv Franco, Tiago
dc.subject.por.fl_str_mv Big data analytics
Abandono escolar
Ensino superior
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Big data analytics
Abandono escolar
Ensino superior
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Mestrado de dupla diplomação com a UTFPR - Universidade Tecnológica Federal do Paraná
publishDate 2017
dc.date.none.fl_str_mv 2017
2019-06-27T16:31:59Z
2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10198/19381
TID:202258033
url http://hdl.handle.net/10198/19381
identifier_str_mv TID:202258033
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135363114991616