Imputação de Valores Omissos em Análise Descritiva de Dados, em R
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Outros Autores: | , |
Tipo de documento: | Artigo |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.6/13418 |
Resumo: | Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro. |
id |
RCAP_354ad07ca01d9a3ca7904131b69429de |
---|---|
oai_identifier_str |
oai:ubibliorum.ubi.pt:10400.6/13418 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Imputação de Valores Omissos em Análise Descritiva de Dados, em RValores omissosAnálise de dadosOs valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro.Missing values represent a frequent problem in the data analysis process. In this paper, six different imputation methods, available in software R, were used and compared. Their performance was evaluated in datasets related to the education area, namely data from the national evaluation of school performance (Prova Brasil). A sample of 20408 students was studied to test the six algorithms in four subsets of data with different percentages of missing values, considering 5%, 10%, 15% and 20% in the variables of interest. Single imputation methods (Mean, Median and Mode), methods based on machine learning (kNN and bPCA) and a multiple imputation method (MICE) were explored. The performance of each method adopted in this work was evaluated by calculating the respective imputation errors using the metrics RMSE and MAE. The results obtained show that the method of imputation by Mode provided almost constantly lower values of error.Centro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR)uBibliorumSalambiaku, LuzizilaPrata, PaulaFerrão, Maria Eugénia2023-09-06T09:11:16Z2023-03-032023-03-03T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleapplication/pdfhttp://hdl.handle.net/10400.6/13418por2447-702810.18227/2447-7028rct.v96974info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:57:00Zoai:ubibliorum.ubi.pt:10400.6/13418Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:52:51.809101Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
title |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
spellingShingle |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R Salambiaku, Luzizila Valores omissos Análise de dados |
title_short |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
title_full |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
title_fullStr |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
title_full_unstemmed |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
title_sort |
Imputação de Valores Omissos em Análise Descritiva de Dados, em R |
author |
Salambiaku, Luzizila |
author_facet |
Salambiaku, Luzizila Prata, Paula Ferrão, Maria Eugénia |
author_role |
author |
author2 |
Prata, Paula Ferrão, Maria Eugénia |
author2_role |
author author |
dc.contributor.none.fl_str_mv |
uBibliorum |
dc.contributor.author.fl_str_mv |
Salambiaku, Luzizila Prata, Paula Ferrão, Maria Eugénia |
dc.subject.por.fl_str_mv |
Valores omissos Análise de dados |
topic |
Valores omissos Análise de dados |
description |
Os valores omissos representam um problema frequente no processo de análise de dados. Neste artigo foram comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação. Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro conjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que a imputação pela Moda forneceu quase de forma constante menores valores de erro. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-09-06T09:11:16Z 2023-03-03 2023-03-03T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/article |
format |
article |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.6/13418 |
url |
http://hdl.handle.net/10400.6/13418 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
2447-7028 10.18227/2447-7028rct.v96974 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Centro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR) |
publisher.none.fl_str_mv |
Centro de Ciência e Tecnologia (CCT) da Universidade Federal de Roraima (UFRR) |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136416998883328 |