Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído

Detalhes bibliográficos
Autor(a) principal: Noguera, Viviana Elizabeth Romero
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/
Resumo: Em 1998, o Ministério da Educação criou o ENEM, um exame nacional brasileiro padronizado que visa avaliar as competências e habilidades básicas dos alunos. O ENEM é uma avaliação que tem forte influência nas políticas educacionais, nos currículos dos diferentes níveis de ensino e também no futuro dos avaliados. Considerando o escopo da educação, setor fundamental para o crescimento e desenvolvimento de um país, a análise dos dados do ENEM pode revelar informações relevantes para subsidiar a tomada de decisão das instituições de ensino, a definição de investimentos governamentais e planos estratégicos e a formulação de políticas públicas de educação com base no desempenho cognitivo dos alunos. A análise dos dados do ENEM é uma questão desafiadora devido ao grande número de variáveis coletadas e ao grande volume de dados disponibilizados. Essas variáveis referem-se aos dados pessoais e às notas obtidas por cada participante, às respostas das questões de múltipla escolha e às respostas dos questionários. Com o objetivo de auxiliar os gestores educacionais no processo de tomada de decisão educacional, nesta tese é proposta uma arquitetura baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído voltada à análise de dados do ENEM. A arquitetura é composta por cinco camadas: (i) conexão de dados, relacionada com a extração e tratamento dos dados do ENEM; (ii) gerenciamento de dados, voltada ao armazenamento dos dados e metadados relacionados em repositórios especializados, de acordo com as necessidades das análises educacionais; (iii) análise de dados, que tem como objetivo extrair informações úteis e auxiliar na tomada de decisão estratégica; (iv) apresentação de dados, composta por ferramentas de visualização que permitem que cientistas de dados e gestores educacionais visualizem graficamente os resultados de suas análises; e (v) gerenciador de fluxo de trabalho, voltada à automação das tarefas complexas que são executadas na manipulação do grande volume de dados do ENEM. Adicionalmente, são apresentados dois pipelines, os quais exemplificam a instanciação da arquitetura proposta com tecnologias e ferramentas de código aberto relacionadas. A arquitetura foi validada por meio de quatro cenários de uso, cada qual com um objetivo de análise específico. Para cada cenário de uso, foi feita uma discussão relacionada aos impactos das análises dentro do contexto educacional. Os resultados demonstraram a aplicabilidade da arquitetura no suporte ao processo da tomada de decisão educacional.
id USP_f4e317fb566604e1758e7dfebe21c0ad
oai_identifier_str oai:teses.usp.br:tde-10042023-104306
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuídoR. ENEM data analysis based on data warehousing, data mining, inferential statistics and parallel and distributed processing.: ENEManálise de dadosdata analysisdata miningdata warehousingdata warehousingENEMmineração de dadosparallel and distributed processing.processamento paralelo e distribuído.Em 1998, o Ministério da Educação criou o ENEM, um exame nacional brasileiro padronizado que visa avaliar as competências e habilidades básicas dos alunos. O ENEM é uma avaliação que tem forte influência nas políticas educacionais, nos currículos dos diferentes níveis de ensino e também no futuro dos avaliados. Considerando o escopo da educação, setor fundamental para o crescimento e desenvolvimento de um país, a análise dos dados do ENEM pode revelar informações relevantes para subsidiar a tomada de decisão das instituições de ensino, a definição de investimentos governamentais e planos estratégicos e a formulação de políticas públicas de educação com base no desempenho cognitivo dos alunos. A análise dos dados do ENEM é uma questão desafiadora devido ao grande número de variáveis coletadas e ao grande volume de dados disponibilizados. Essas variáveis referem-se aos dados pessoais e às notas obtidas por cada participante, às respostas das questões de múltipla escolha e às respostas dos questionários. Com o objetivo de auxiliar os gestores educacionais no processo de tomada de decisão educacional, nesta tese é proposta uma arquitetura baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído voltada à análise de dados do ENEM. A arquitetura é composta por cinco camadas: (i) conexão de dados, relacionada com a extração e tratamento dos dados do ENEM; (ii) gerenciamento de dados, voltada ao armazenamento dos dados e metadados relacionados em repositórios especializados, de acordo com as necessidades das análises educacionais; (iii) análise de dados, que tem como objetivo extrair informações úteis e auxiliar na tomada de decisão estratégica; (iv) apresentação de dados, composta por ferramentas de visualização que permitem que cientistas de dados e gestores educacionais visualizem graficamente os resultados de suas análises; e (v) gerenciador de fluxo de trabalho, voltada à automação das tarefas complexas que são executadas na manipulação do grande volume de dados do ENEM. Adicionalmente, são apresentados dois pipelines, os quais exemplificam a instanciação da arquitetura proposta com tecnologias e ferramentas de código aberto relacionadas. A arquitetura foi validada por meio de quatro cenários de uso, cada qual com um objetivo de análise específico. Para cada cenário de uso, foi feita uma discussão relacionada aos impactos das análises dentro do contexto educacional. Os resultados demonstraram a aplicabilidade da arquitetura no suporte ao processo da tomada de decisão educacional.In 1998, the Ministry of Education created the Brazilian High School National Exam or ENEM, a standardized Brazilian national exam to assess students essential competencies and skills. The ENEM is an assessment that strongly influences educational policies, the curricula of different levels of education, and the future of the students assessed. Considering the scope of education, an important issue related to the countrys growth and development, analyzing the ENEM data can reveal relevant information. For instance, the analyses can support educational decisionmaking, the definition of government investments and strategic plans, and the formulation of public education policies based on the students cognitive performance. The analysis of ENEM data is challenging due to the large number of variables collected and the large volume of data available. These variables refer to personal data and the scores obtained by each participant, the answers to the multiple-choice questions, and the answers to the questionnaires. To help educational managers in the educational decision-making process, in this thesis, we propose an architecture based on data warehousing, data mining, inferential statistics, and parallel and distributed processing aimed at analyzing ENEM data. The architecture is composed of five layers: (i) Data connection, related to the extraction and processing of ENEM data; (ii) Data management, aimed at storing data and related metadata in specialized repositories according to the needs of educational analyzes; (iii) Data analysis, which aims to extract useful information and assist in strategic decision-making; (iv) Data presentation, consisting of data visualization tools that allow data scientists and educational managers to graphically visualize the results of their analyses; and (v) Workflow manager, aimed at automating the complex tasks that are performed in the manipulation of the large volume of ENEM data. Additionally, we present two pipelines that exemplify the proposed architectures instantiation with related open-source technologies and tools. We validated the architecture through four different scenarios, each with a specific analysis objective. For each scenario, we discuss the impact of the analysis on the educational sector. The results demonstrated the architectures applicability in supporting the educational decision-making process.Biblioteca Digitais de Teses e Dissertações da USPAguiar, Cristina Dutra deNoguera, Viviana Elizabeth Romero2023-02-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-05-11T13:22:57Zoai:teses.usp.br:tde-10042023-104306Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-05-11T13:22:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
R. ENEM data analysis based on data warehousing, data mining, inferential statistics and parallel and distributed processing.
title Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
spellingShingle Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
Noguera, Viviana Elizabeth Romero
: ENEM
análise de dados
data analysis
data mining
data warehousing
data warehousing
ENEM
mineração de dados
parallel and distributed processing.
processamento paralelo e distribuído.
title_short Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
title_full Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
title_fullStr Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
title_full_unstemmed Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
title_sort Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
author Noguera, Viviana Elizabeth Romero
author_facet Noguera, Viviana Elizabeth Romero
author_role author
dc.contributor.none.fl_str_mv Aguiar, Cristina Dutra de
dc.contributor.author.fl_str_mv Noguera, Viviana Elizabeth Romero
dc.subject.por.fl_str_mv : ENEM
análise de dados
data analysis
data mining
data warehousing
data warehousing
ENEM
mineração de dados
parallel and distributed processing.
processamento paralelo e distribuído.
topic : ENEM
análise de dados
data analysis
data mining
data warehousing
data warehousing
ENEM
mineração de dados
parallel and distributed processing.
processamento paralelo e distribuído.
description Em 1998, o Ministério da Educação criou o ENEM, um exame nacional brasileiro padronizado que visa avaliar as competências e habilidades básicas dos alunos. O ENEM é uma avaliação que tem forte influência nas políticas educacionais, nos currículos dos diferentes níveis de ensino e também no futuro dos avaliados. Considerando o escopo da educação, setor fundamental para o crescimento e desenvolvimento de um país, a análise dos dados do ENEM pode revelar informações relevantes para subsidiar a tomada de decisão das instituições de ensino, a definição de investimentos governamentais e planos estratégicos e a formulação de políticas públicas de educação com base no desempenho cognitivo dos alunos. A análise dos dados do ENEM é uma questão desafiadora devido ao grande número de variáveis coletadas e ao grande volume de dados disponibilizados. Essas variáveis referem-se aos dados pessoais e às notas obtidas por cada participante, às respostas das questões de múltipla escolha e às respostas dos questionários. Com o objetivo de auxiliar os gestores educacionais no processo de tomada de decisão educacional, nesta tese é proposta uma arquitetura baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído voltada à análise de dados do ENEM. A arquitetura é composta por cinco camadas: (i) conexão de dados, relacionada com a extração e tratamento dos dados do ENEM; (ii) gerenciamento de dados, voltada ao armazenamento dos dados e metadados relacionados em repositórios especializados, de acordo com as necessidades das análises educacionais; (iii) análise de dados, que tem como objetivo extrair informações úteis e auxiliar na tomada de decisão estratégica; (iv) apresentação de dados, composta por ferramentas de visualização que permitem que cientistas de dados e gestores educacionais visualizem graficamente os resultados de suas análises; e (v) gerenciador de fluxo de trabalho, voltada à automação das tarefas complexas que são executadas na manipulação do grande volume de dados do ENEM. Adicionalmente, são apresentados dois pipelines, os quais exemplificam a instanciação da arquitetura proposta com tecnologias e ferramentas de código aberto relacionadas. A arquitetura foi validada por meio de quatro cenários de uso, cada qual com um objetivo de análise específico. Para cada cenário de uso, foi feita uma discussão relacionada aos impactos das análises dentro do contexto educacional. Os resultados demonstraram a aplicabilidade da arquitetura no suporte ao processo da tomada de decisão educacional.
publishDate 2023
dc.date.none.fl_str_mv 2023-02-09
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/
url https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256908449185792