Imputação de Valores Omissos em Análise Descritiva de Dados, em R

Detalhes bibliográficos
Autor(a) principal: Salambiaku, Luzizila
Data de Publicação: 2023
Outros Autores: Prata, Paula, Ferrão, Maria Eugénia
Tipo de documento: Artigo
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.6/13418
Resumo: Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.
id RCAP_354ad07ca01d9a3ca7904131b69429de
oai_identifier_str oai:ubibliorum.ubi.pt:10400.6/13418
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Imputação de Valores Omissos em Análise Descritiva de Dados, em RValores omissosAnálise de dadosOs valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.Missing values represent a frequent problem in the data analysis process. In this paper, six different imputation methods, available in software R, were used and compared. Their performance was evaluated in datasets related to the education area, namely data from the national evaluation of school performance (Prova Brasil). A sample of 20408 students was studied to test the six algorithms in four subsets of data with different percentages of missing values, considering 5%, 10%, 15% and 20% in the variables of interest. Single imputation methods (Mean, Median and Mode), methods based on machine learning (kNN and bPCA) and a multiple imputation method (MICE) were explored. The performance of each method adopted in this work was evaluated by calculating the respective imputation errors using the metrics RMSE and MAE. The results obtained show that the method of imputation by Mode provided almost constantly lower values of error.Centro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR)uBibliorumSalambiaku, LuzizilaPrata, PaulaFerrão, Maria Eugénia2023-09-06T09:11:16Z2023-03-032023-03-03T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttp://hdl.handle.net/10400.6/13418por2447-702810.18227/2447-7028rct.v96974info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:57:00Zoai:ubibliorum.ubi.pt:10400.6/13418Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:52:51.809101Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Imputação de Valores Omissos em Análise Descritiva de Dados, em R
title Imputação de Valores Omissos em Análise Descritiva de Dados, em R
spellingShingle Imputação de Valores Omissos em Análise Descritiva de Dados, em R
Salambiaku, Luzizila
Valores omissos
Análise de dados
title_short Imputação de Valores Omissos em Análise Descritiva de Dados, em R
title_full Imputação de Valores Omissos em Análise Descritiva de Dados, em R
title_fullStr Imputação de Valores Omissos em Análise Descritiva de Dados, em R
title_full_unstemmed Imputação de Valores Omissos em Análise Descritiva de Dados, em R
title_sort Imputação de Valores Omissos em Análise Descritiva de Dados, em R
author Salambiaku, Luzizila
author_facet Salambiaku, Luzizila
Prata, Paula
Ferrão, Maria Eugénia
author_role author
author2 Prata, Paula
Ferrão, Maria Eugénia
author2_role author
author
dc.contributor.none.fl_str_mv uBibliorum
dc.contributor.author.fl_str_mv Salambiaku, Luzizila
Prata, Paula
Ferrão, Maria Eugénia
dc.subject.por.fl_str_mv Valores omissos
Análise de dados
topic Valores omissos
Análise de dados
description Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.
publishDate 2023
dc.date.none.fl_str_mv 2023-09-06T09:11:16Z
2023-03-03
2023-03-03T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.6/13418
url http://hdl.handle.net/10400.6/13418
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 2447-7028
10.18227/2447-7028rct.v96974
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Centro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR)
publisher.none.fl_str_mv Centro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR)
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799136416998883328