Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade

Detalhes bibliográficos
Autor(a) principal: Motta, Porthos Ribeiro de Albuquerque
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFG
dARK ID: ark:/38995/0013000001qgk
Texto Completo: http://repositorio.bc.ufg.br/tede/handle/tede/6563
Resumo: Educational Data Mining, by the triad of quality improvement, cost reduction and educational effectiveness, acts and seeks to better understand the teaching and learning process. In this context, the aim of this work is an exploratory study of classification methods to predict student performance and dropout from data in university academic databases. In this study we used demographic, socio-economic and academic results, obtained from the Vestibular and the university database to analyze several classification techniques, as well as balancing and attribute selection techniques, identified through a systematic review of the literature. Following a trend found in the selected articles, we chose to use decision trees as the primary classification algorithm, although comparative studies showed better results with logistic regression techniques and Bayesian networks. This is because decision trees allow an analysis of the attributes used in the generated models while maintaining acceptable levels of accuracy, while other techniques work as a black box. Through the tests we found that you get better results using balanced sets. In this sense, the Resample technique that selects a balanced subset of the data showed better results than SMOTE technique that generates synthetic data for balancing the dataset. Regarding the use of attribute selection techniques, these did not bring significant advantages. Among the attributes used, grades and economic factors often appear as nodes in the generated models. An attempt to predict performance for each subject based on data from previous courses was less successful, maybe because of the use of ternary predictive classes. Nevertheless, the analysis carried out showed that the use of classifiers is a promising way to predict performance and dropout, but further studies are still needed.
id UFG-2_1fd95ce1828ea3b4e296c1e8347842cd
oai_identifier_str oai:repositorio.bc.ufg.br:tede/6563
network_acronym_str UFG-2
network_name_str Repositório Institucional da UFG
repository_id_str
spelling Ambrósio, Ana Paula Laboissièrehttp://lattes.cnpq.br/0900834483461062Albuquerque, Eduardo Simões dehttp://lattes.cnpq.br/8181318469884254Ambrósio, Ana Paula Laboissièrehttp://lattes.cnpq.br/0900834483461062Soares, Anderson da SilvaAlmeida, Leandro da Silvahttp://lattes.cnpq.br/3554344463051115Motta, Porthos Ribeiro de Albuquerque2016-12-13T15:28:18Z2016-10-20MOTTA, P. R. A. Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade. 2016. 156 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2016.http://repositorio.bc.ufg.br/tede/handle/tede/6563ark:/38995/0013000001qgkEducational Data Mining, by the triad of quality improvement, cost reduction and educational effectiveness, acts and seeks to better understand the teaching and learning process. In this context, the aim of this work is an exploratory study of classification methods to predict student performance and dropout from data in university academic databases. In this study we used demographic, socio-economic and academic results, obtained from the Vestibular and the university database to analyze several classification techniques, as well as balancing and attribute selection techniques, identified through a systematic review of the literature. Following a trend found in the selected articles, we chose to use decision trees as the primary classification algorithm, although comparative studies showed better results with logistic regression techniques and Bayesian networks. This is because decision trees allow an analysis of the attributes used in the generated models while maintaining acceptable levels of accuracy, while other techniques work as a black box. Through the tests we found that you get better results using balanced sets. In this sense, the Resample technique that selects a balanced subset of the data showed better results than SMOTE technique that generates synthetic data for balancing the dataset. Regarding the use of attribute selection techniques, these did not bring significant advantages. Among the attributes used, grades and economic factors often appear as nodes in the generated models. An attempt to predict performance for each subject based on data from previous courses was less successful, maybe because of the use of ternary predictive classes. Nevertheless, the analysis carried out showed that the use of classifiers is a promising way to predict performance and dropout, but further studies are still needed.A Mineração de Dados Educacionais, por meio da tríade melhoria da qualidade, redução do custo e eficácia do ensino, age e procura compreender melhor o processo de ensinoaprendizagem dos alunos. Neste contexto, o objetivo desta dissertação é o estudo exploratório de métodos de classificação para predizer o desempenho e o abandono de alunos a partir de dados existentes nas bases de dados acadêmicas das universidades. Neste trabalho foram usados dados demográficos, sócio-econômicos e resultados acadêmicos, oriundos do Vestibular e do banco de dados acadêmico da universidade para analisar diversas técnicas de classificação, assim como técnicas de balanceamento e seleção de atributos identificadas através de uma revisão sistemática da literatura. Seguindo uma tendência verificada nos artigos levantados, optou-se por utilizar como principal algoritmo de classificação o J48, apesar de estudos comparativos terem mostrado melhores resultados com técnicas de regressão logística e redes Bayesianas. Isto se deve ao fato das árvores de decisão permitirem uma análise dos atributos usados nos modelos gerados, mantendo ní- veis de acurácia aceitáveis, enquanto as outras técnicas funcionam como uma caixa preta. Neste sentido, a técnica de Resample, que escolhe um subconjunto balanceado dos dados, apresentou melhores resultados que a técnica de SMOTE, que gera dados sintéticos para balancear os dados. Quanto ao uso de técnicas de seleção de atributos, estas não trouxeram vantagens significativas. Dentre os atributos usados, notas e aspectos econômicos aparecem com frequência nos modelos gerados. Uma tentativa de prever desempenho por disciplina, com base em dados de disciplinas já cursadas em semestres anteriores foi menos bem sucedida, talvez pelo fato de usar classes preditoras ternárias. Apesar disto, as análises realizadas mostraram que o uso de classificadores é um caminho promissor para a predição de desempenho e abandono, mas estudos mais aprofundados ainda são necessáriosSubmitted by JÚLIO HEBER SILVA (julioheber@yahoo.com.br) on 2016-12-02T15:54:04Z No. of bitstreams: 2 Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)Approved for entry into archive by Jaqueline Silva (jtas29@gmail.com) on 2016-12-13T15:28:18Z (GMT) No. of bitstreams: 2 Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5)Made available in DSpace on 2016-12-13T15:28:18Z (GMT). No. of bitstreams: 2 Dissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdf: 10397634 bytes, checksum: 0610600c9a91143c40d1c6d22a401524 (MD5) license_rdf: 0 bytes, checksum: d41d8cd98f00b204e9800998ecf8427e (MD5) Previous issue date: 2016-10-20application/pdfporUniversidade Federal de GoiásPrograma de Pós-graduação em Ciência da Computação (INF)UFGBrasilInstituto de Informática - INF (RG)http://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessMineração de dados educacionaisClassificaçãoPredição de desempenho e abandonoEducational data mininigClassificationOutcome predictionCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOEstudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidadeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis-3303550325223384799600600600-7712266734633644768-862078257083325301reponame:Repositório Institucional da UFGinstname:Universidade Federal de Goiás (UFG)instacron:UFGLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://repositorio.bc.ufg.br/tede/bitstreams/1141ff17-08cb-468a-b13c-cf64a42d6a08/downloadbd3efa91386c1718a7f26a329fdcb468MD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-849http://repositorio.bc.ufg.br/tede/bitstreams/45366153-fa98-4c1b-ad20-191a7192fbaa/download4afdbb8c545fd630ea7db775da747b2fMD52license_textlicense_texttext/html; charset=utf-80http://repositorio.bc.ufg.br/tede/bitstreams/6abf5bfc-3b99-4416-a176-99eccd5bd192/downloadd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-80http://repositorio.bc.ufg.br/tede/bitstreams/d26f11da-181d-41ad-97b1-58f4e734872c/downloadd41d8cd98f00b204e9800998ecf8427eMD54ORIGINALDissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdfDissertação - Porthos Ribeiro de Albuquerque Motta - 2016.pdfapplication/pdf10397634http://repositorio.bc.ufg.br/tede/bitstreams/e5251c55-08c0-4ca3-8018-921dacb65732/download0610600c9a91143c40d1c6d22a401524MD55tede/65632016-12-13 13:28:18.061http://creativecommons.org/licenses/by-nc-nd/4.0/Acesso Abertoopen.accessoai:repositorio.bc.ufg.br:tede/6563http://repositorio.bc.ufg.br/tedeRepositório InstitucionalPUBhttp://repositorio.bc.ufg.br/oai/requesttasesdissertacoes.bc@ufg.bropendoar:2016-12-13T15:28:18Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)falseTk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=
dc.title.por.fl_str_mv Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
title Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
spellingShingle Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
Motta, Porthos Ribeiro de Albuquerque
Mineração de dados educacionais
Classificação
Predição de desempenho e abandono
Educational data mininig
Classification
Outcome prediction
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
title_full Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
title_fullStr Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
title_full_unstemmed Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
title_sort Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade
author Motta, Porthos Ribeiro de Albuquerque
author_facet Motta, Porthos Ribeiro de Albuquerque
author_role author
dc.contributor.advisor1.fl_str_mv Ambrósio, Ana Paula Laboissière
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0900834483461062
dc.contributor.advisor-co1.fl_str_mv Albuquerque, Eduardo Simões de
dc.contributor.advisor-co1Lattes.fl_str_mv http://lattes.cnpq.br/8181318469884254
dc.contributor.referee1.fl_str_mv Ambrósio, Ana Paula Laboissière
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/0900834483461062
dc.contributor.referee2.fl_str_mv Soares, Anderson da Silva
dc.contributor.referee3.fl_str_mv Almeida, Leandro da Silva
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3554344463051115
dc.contributor.author.fl_str_mv Motta, Porthos Ribeiro de Albuquerque
contributor_str_mv Ambrósio, Ana Paula Laboissière
Albuquerque, Eduardo Simões de
Ambrósio, Ana Paula Laboissière
Soares, Anderson da Silva
Almeida, Leandro da Silva
dc.subject.por.fl_str_mv Mineração de dados educacionais
Classificação
Predição de desempenho e abandono
topic Mineração de dados educacionais
Classificação
Predição de desempenho e abandono
Educational data mininig
Classification
Outcome prediction
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.eng.fl_str_mv Educational data mininig
Classification
Outcome prediction
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Educational Data Mining, by the triad of quality improvement, cost reduction and educational effectiveness, acts and seeks to better understand the teaching and learning process. In this context, the aim of this work is an exploratory study of classification methods to predict student performance and dropout from data in university academic databases. In this study we used demographic, socio-economic and academic results, obtained from the Vestibular and the university database to analyze several classification techniques, as well as balancing and attribute selection techniques, identified through a systematic review of the literature. Following a trend found in the selected articles, we chose to use decision trees as the primary classification algorithm, although comparative studies showed better results with logistic regression techniques and Bayesian networks. This is because decision trees allow an analysis of the attributes used in the generated models while maintaining acceptable levels of accuracy, while other techniques work as a black box. Through the tests we found that you get better results using balanced sets. In this sense, the Resample technique that selects a balanced subset of the data showed better results than SMOTE technique that generates synthetic data for balancing the dataset. Regarding the use of attribute selection techniques, these did not bring significant advantages. Among the attributes used, grades and economic factors often appear as nodes in the generated models. An attempt to predict performance for each subject based on data from previous courses was less successful, maybe because of the use of ternary predictive classes. Nevertheless, the analysis carried out showed that the use of classifiers is a promising way to predict performance and dropout, but further studies are still needed.
publishDate 2016
dc.date.accessioned.fl_str_mv 2016-12-13T15:28:18Z
dc.date.issued.fl_str_mv 2016-10-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MOTTA, P. R. A. Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade. 2016. 156 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2016.
dc.identifier.uri.fl_str_mv http://repositorio.bc.ufg.br/tede/handle/tede/6563
dc.identifier.dark.fl_str_mv ark:/38995/0013000001qgk
identifier_str_mv MOTTA, P. R. A. Estudo exploratório do uso de classificadores para a predição de desempenho e abandono em universidade. 2016. 156 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Goiás, Goiânia, 2016.
ark:/38995/0013000001qgk
url http://repositorio.bc.ufg.br/tede/handle/tede/6563
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv -3303550325223384799
dc.relation.confidence.fl_str_mv 600
600
600
dc.relation.department.fl_str_mv -7712266734633644768
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Goiás
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação (INF)
dc.publisher.initials.fl_str_mv UFG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Informática - INF (RG)
publisher.none.fl_str_mv Universidade Federal de Goiás
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFG
instname:Universidade Federal de Goiás (UFG)
instacron:UFG
instname_str Universidade Federal de Goiás (UFG)
instacron_str UFG
institution UFG
reponame_str Repositório Institucional da UFG
collection Repositório Institucional da UFG
bitstream.url.fl_str_mv http://repositorio.bc.ufg.br/tede/bitstreams/1141ff17-08cb-468a-b13c-cf64a42d6a08/download
http://repositorio.bc.ufg.br/tede/bitstreams/45366153-fa98-4c1b-ad20-191a7192fbaa/download
http://repositorio.bc.ufg.br/tede/bitstreams/6abf5bfc-3b99-4416-a176-99eccd5bd192/download
http://repositorio.bc.ufg.br/tede/bitstreams/d26f11da-181d-41ad-97b1-58f4e734872c/download
http://repositorio.bc.ufg.br/tede/bitstreams/e5251c55-08c0-4ca3-8018-921dacb65732/download
bitstream.checksum.fl_str_mv bd3efa91386c1718a7f26a329fdcb468
4afdbb8c545fd630ea7db775da747b2f
d41d8cd98f00b204e9800998ecf8427e
d41d8cd98f00b204e9800998ecf8427e
0610600c9a91143c40d1c6d22a401524
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFG - Universidade Federal de Goiás (UFG)
repository.mail.fl_str_mv tasesdissertacoes.bc@ufg.br
_version_ 1815172526852014080