Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/ |
Resumo: | Em 1998, o Ministério da Educação criou o ENEM, um exame nacional brasileiro padronizado que visa avaliar as competências e habilidades básicas dos alunos. O ENEM é uma avaliação que tem forte influência nas políticas educacionais, nos currículos dos diferentes níveis de ensino e também no futuro dos avaliados. Considerando o escopo da educação, setor fundamental para o crescimento e desenvolvimento de um país, a análise dos dados do ENEM pode revelar informações relevantes para subsidiar a tomada de decisão das instituições de ensino, a definição de investimentos governamentais e planos estratégicos e a formulação de políticas públicas de educação com base no desempenho cognitivo dos alunos. A análise dos dados do ENEM é uma questão desafiadora devido ao grande número de variáveis coletadas e ao grande volume de dados disponibilizados. Essas variáveis referem-se aos dados pessoais e às notas obtidas por cada participante, às respostas das questões de múltipla escolha e às respostas dos questionários. Com o objetivo de auxiliar os gestores educacionais no processo de tomada de decisão educacional, nesta tese é proposta uma arquitetura baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído voltada à análise de dados do ENEM. A arquitetura é composta por cinco camadas: (i) conexão de dados, relacionada com a extração e tratamento dos dados do ENEM; (ii) gerenciamento de dados, voltada ao armazenamento dos dados e metadados relacionados em repositórios especializados, de acordo com as necessidades das análises educacionais; (iii) análise de dados, que tem como objetivo extrair informações úteis e auxiliar na tomada de decisão estratégica; (iv) apresentação de dados, composta por ferramentas de visualização que permitem que cientistas de dados e gestores educacionais visualizem graficamente os resultados de suas análises; e (v) gerenciador de fluxo de trabalho, voltada à automação das tarefas complexas que são executadas na manipulação do grande volume de dados do ENEM. Adicionalmente, são apresentados dois pipelines, os quais exemplificam a instanciação da arquitetura proposta com tecnologias e ferramentas de código aberto relacionadas. A arquitetura foi validada por meio de quatro cenários de uso, cada qual com um objetivo de análise específico. Para cada cenário de uso, foi feita uma discussão relacionada aos impactos das análises dentro do contexto educacional. Os resultados demonstraram a aplicabilidade da arquitetura no suporte ao processo da tomada de decisão educacional. |
id |
USP_f4e317fb566604e1758e7dfebe21c0ad |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-10042023-104306 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuídoR. ENEM data analysis based on data warehousing, data mining, inferential statistics and parallel and distributed processing.: ENEManálise de dadosdata analysisdata miningdata warehousingdata warehousingENEMmineração de dadosparallel and distributed processing.processamento paralelo e distribuído.Em 1998, o Ministério da Educação criou o ENEM, um exame nacional brasileiro padronizado que visa avaliar as competências e habilidades básicas dos alunos. O ENEM é uma avaliação que tem forte influência nas políticas educacionais, nos currículos dos diferentes níveis de ensino e também no futuro dos avaliados. Considerando o escopo da educação, setor fundamental para o crescimento e desenvolvimento de um país, a análise dos dados do ENEM pode revelar informações relevantes para subsidiar a tomada de decisão das instituições de ensino, a definição de investimentos governamentais e planos estratégicos e a formulação de políticas públicas de educação com base no desempenho cognitivo dos alunos. A análise dos dados do ENEM é uma questão desafiadora devido ao grande número de variáveis coletadas e ao grande volume de dados disponibilizados. Essas variáveis referem-se aos dados pessoais e às notas obtidas por cada participante, às respostas das questões de múltipla escolha e às respostas dos questionários. Com o objetivo de auxiliar os gestores educacionais no processo de tomada de decisão educacional, nesta tese é proposta uma arquitetura baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído voltada à análise de dados do ENEM. A arquitetura é composta por cinco camadas: (i) conexão de dados, relacionada com a extração e tratamento dos dados do ENEM; (ii) gerenciamento de dados, voltada ao armazenamento dos dados e metadados relacionados em repositórios especializados, de acordo com as necessidades das análises educacionais; (iii) análise de dados, que tem como objetivo extrair informações úteis e auxiliar na tomada de decisão estratégica; (iv) apresentação de dados, composta por ferramentas de visualização que permitem que cientistas de dados e gestores educacionais visualizem graficamente os resultados de suas análises; e (v) gerenciador de fluxo de trabalho, voltada à automação das tarefas complexas que são executadas na manipulação do grande volume de dados do ENEM. Adicionalmente, são apresentados dois pipelines, os quais exemplificam a instanciação da arquitetura proposta com tecnologias e ferramentas de código aberto relacionadas. A arquitetura foi validada por meio de quatro cenários de uso, cada qual com um objetivo de análise específico. Para cada cenário de uso, foi feita uma discussão relacionada aos impactos das análises dentro do contexto educacional. Os resultados demonstraram a aplicabilidade da arquitetura no suporte ao processo da tomada de decisão educacional.In 1998, the Ministry of Education created the Brazilian High School National Exam or ENEM, a standardized Brazilian national exam to assess students essential competencies and skills. The ENEM is an assessment that strongly influences educational policies, the curricula of different levels of education, and the future of the students assessed. Considering the scope of education, an important issue related to the countrys growth and development, analyzing the ENEM data can reveal relevant information. For instance, the analyses can support educational decisionmaking, the definition of government investments and strategic plans, and the formulation of public education policies based on the students cognitive performance. The analysis of ENEM data is challenging due to the large number of variables collected and the large volume of data available. These variables refer to personal data and the scores obtained by each participant, the answers to the multiple-choice questions, and the answers to the questionnaires. To help educational managers in the educational decision-making process, in this thesis, we propose an architecture based on data warehousing, data mining, inferential statistics, and parallel and distributed processing aimed at analyzing ENEM data. The architecture is composed of five layers: (i) Data connection, related to the extraction and processing of ENEM data; (ii) Data management, aimed at storing data and related metadata in specialized repositories according to the needs of educational analyzes; (iii) Data analysis, which aims to extract useful information and assist in strategic decision-making; (iv) Data presentation, consisting of data visualization tools that allow data scientists and educational managers to graphically visualize the results of their analyses; and (v) Workflow manager, aimed at automating the complex tasks that are performed in the manipulation of the large volume of ENEM data. Additionally, we present two pipelines that exemplify the proposed architectures instantiation with related open-source technologies and tools. We validated the architecture through four different scenarios, each with a specific analysis objective. For each scenario, we discuss the impact of the analysis on the educational sector. The results demonstrated the architectures applicability in supporting the educational decision-making process.Biblioteca Digitais de Teses e Dissertações da USPAguiar, Cristina Dutra deNoguera, Viviana Elizabeth Romero2023-02-09info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-05-11T13:22:57Zoai:teses.usp.br:tde-10042023-104306Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-05-11T13:22:57Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído R. ENEM data analysis based on data warehousing, data mining, inferential statistics and parallel and distributed processing. |
title |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído |
spellingShingle |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído Noguera, Viviana Elizabeth Romero : ENEM análise de dados data analysis data mining data warehousing data warehousing ENEM mineração de dados parallel and distributed processing. processamento paralelo e distribuído. |
title_short |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído |
title_full |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído |
title_fullStr |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído |
title_full_unstemmed |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído |
title_sort |
Análise de dados do ENEM baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído |
author |
Noguera, Viviana Elizabeth Romero |
author_facet |
Noguera, Viviana Elizabeth Romero |
author_role |
author |
dc.contributor.none.fl_str_mv |
Aguiar, Cristina Dutra de |
dc.contributor.author.fl_str_mv |
Noguera, Viviana Elizabeth Romero |
dc.subject.por.fl_str_mv |
: ENEM análise de dados data analysis data mining data warehousing data warehousing ENEM mineração de dados parallel and distributed processing. processamento paralelo e distribuído. |
topic |
: ENEM análise de dados data analysis data mining data warehousing data warehousing ENEM mineração de dados parallel and distributed processing. processamento paralelo e distribuído. |
description |
Em 1998, o Ministério da Educação criou o ENEM, um exame nacional brasileiro padronizado que visa avaliar as competências e habilidades básicas dos alunos. O ENEM é uma avaliação que tem forte influência nas políticas educacionais, nos currículos dos diferentes níveis de ensino e também no futuro dos avaliados. Considerando o escopo da educação, setor fundamental para o crescimento e desenvolvimento de um país, a análise dos dados do ENEM pode revelar informações relevantes para subsidiar a tomada de decisão das instituições de ensino, a definição de investimentos governamentais e planos estratégicos e a formulação de políticas públicas de educação com base no desempenho cognitivo dos alunos. A análise dos dados do ENEM é uma questão desafiadora devido ao grande número de variáveis coletadas e ao grande volume de dados disponibilizados. Essas variáveis referem-se aos dados pessoais e às notas obtidas por cada participante, às respostas das questões de múltipla escolha e às respostas dos questionários. Com o objetivo de auxiliar os gestores educacionais no processo de tomada de decisão educacional, nesta tese é proposta uma arquitetura baseada em data warehousing, mineração de dados, estatística inferencial e processamento paralelo e distribuído voltada à análise de dados do ENEM. A arquitetura é composta por cinco camadas: (i) conexão de dados, relacionada com a extração e tratamento dos dados do ENEM; (ii) gerenciamento de dados, voltada ao armazenamento dos dados e metadados relacionados em repositórios especializados, de acordo com as necessidades das análises educacionais; (iii) análise de dados, que tem como objetivo extrair informações úteis e auxiliar na tomada de decisão estratégica; (iv) apresentação de dados, composta por ferramentas de visualização que permitem que cientistas de dados e gestores educacionais visualizem graficamente os resultados de suas análises; e (v) gerenciador de fluxo de trabalho, voltada à automação das tarefas complexas que são executadas na manipulação do grande volume de dados do ENEM. Adicionalmente, são apresentados dois pipelines, os quais exemplificam a instanciação da arquitetura proposta com tecnologias e ferramentas de código aberto relacionadas. A arquitetura foi validada por meio de quatro cenários de uso, cada qual com um objetivo de análise específico. Para cada cenário de uso, foi feita uma discussão relacionada aos impactos das análises dentro do contexto educacional. Os resultados demonstraram a aplicabilidade da arquitetura no suporte ao processo da tomada de decisão educacional. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-02-09 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-10042023-104306/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256908449185792 |