Imputação de Valores Omissos em Análise Descritiva de Dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.6/12683 |
Resumo: | Atualmente lidamos com um grande volume de dados e vários programas que permitem fazer análise destes dados. No entanto, os valores omissos representam um problema frequente no processo de análise destes conjuntos de dados que podem surgir por vários motivos. Por exemplo, podem ser resultados perdidos das análises duma amostra, ou alguns indivíduos não responderem a um determinado questionário. Visto que a maior parte dos programas e algoritmos utilizados para o tratamento de dados requere conjuntos de dados sem valores omissos, isto é, dados completos, a sua existência pode limitar a análise dos dados. Daí, surge a necessidade de recorrer a métodos de imputação de valores omissos. Nesta dissertação foram utilizados e comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação, nomeadamente dados da avaliação nacional do rendimento escolar (Prova Brasil). Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro subconjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método adotado neste trabalho calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que o método de imputação pela Moda forneceu quase de forma constante menores valores de erro. |
id |
RCAP_6a9115bb6b1858092fd0f4862851b326 |
---|---|
oai_identifier_str |
oai:ubibliorum.ubi.pt:10400.6/12683 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Imputação de Valores Omissos em Análise Descritiva de DadosAnálise Descritiva de DadosBpcaImputaçãoKnnMédiaMédianaMiceModaValores OmissosDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaAtualmente lidamos com um grande volume de dados e vários programas que permitem fazer análise destes dados. No entanto, os valores omissos representam um problema frequente no processo de análise destes conjuntos de dados que podem surgir por vários motivos. Por exemplo, podem ser resultados perdidos das análises duma amostra, ou alguns indivíduos não responderem a um determinado questionário. Visto que a maior parte dos programas e algoritmos utilizados para o tratamento de dados requere conjuntos de dados sem valores omissos, isto é, dados completos, a sua existência pode limitar a análise dos dados. Daí, surge a necessidade de recorrer a métodos de imputação de valores omissos. Nesta dissertação foram utilizados e comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação, nomeadamente dados da avaliação nacional do rendimento escolar (Prova Brasil). Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro subconjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método adotado neste trabalho calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que o método de imputação pela Moda forneceu quase de forma constante menores valores de erro.We currently deal with a large volume of data and several programs that allow analysis of this data. However, missing values represent a frequent problem in the process of analyzing these data sets, which can arise for several reasons. For example, they may be missing results from a sample analysis, or some individuals may not answer a questionnaire. Since most programs and algorithms used for data processing require data sets without missing values, that is, complete data, their existence can limit data analysis. Hence, the need arises to use methods for imputing missing values. In this dissertation, six different imputation methods, available in software R, were used compared. Their performance was evaluated in datasets related to the education area, namely data from the national evaluation of school performance (Prova Brasil). A sample of 20408 students was studied to test the six algorithms in four subsets of data with different percentages of missing values, considering 5%, 10%, 15% and 20% in the variables of interest. Single imputation methods (Mean, Median and Mode), methods based on machine learning (kNN and bPCA) and a multiple imputation method (MICE) were explored. The performance of each method adopted in this work was evaluated by calculating the respective imputation errors using the metrics RMSE and MAE. The results obtained show that the method of imputation by Mode provided almost constantly lower values of error.Sousa, Maria Paula Prata deSilva, Maria Eugénia Neto Ferrão dauBibliorumSalambiaku, Luzizila2023-01-18T15:18:43Z2021-04-062021-02-012021-04-06T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.6/12683TID:203175220porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-15T09:55:57Zoai:ubibliorum.ubi.pt:10400.6/12683Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T00:52:14.035994Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Imputação de Valores Omissos em Análise Descritiva de Dados |
title |
Imputação de Valores Omissos em Análise Descritiva de Dados |
spellingShingle |
Imputação de Valores Omissos em Análise Descritiva de Dados Salambiaku, Luzizila Análise Descritiva de Dados Bpca Imputação Knn Média Médiana Mice Moda Valores Omissos Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Imputação de Valores Omissos em Análise Descritiva de Dados |
title_full |
Imputação de Valores Omissos em Análise Descritiva de Dados |
title_fullStr |
Imputação de Valores Omissos em Análise Descritiva de Dados |
title_full_unstemmed |
Imputação de Valores Omissos em Análise Descritiva de Dados |
title_sort |
Imputação de Valores Omissos em Análise Descritiva de Dados |
author |
Salambiaku, Luzizila |
author_facet |
Salambiaku, Luzizila |
author_role |
author |
dc.contributor.none.fl_str_mv |
Sousa, Maria Paula Prata de Silva, Maria Eugénia Neto Ferrão da uBibliorum |
dc.contributor.author.fl_str_mv |
Salambiaku, Luzizila |
dc.subject.por.fl_str_mv |
Análise Descritiva de Dados Bpca Imputação Knn Média Médiana Mice Moda Valores Omissos Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Análise Descritiva de Dados Bpca Imputação Knn Média Médiana Mice Moda Valores Omissos Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Atualmente lidamos com um grande volume de dados e vários programas que permitem fazer análise destes dados. No entanto, os valores omissos representam um problema frequente no processo de análise destes conjuntos de dados que podem surgir por vários motivos. Por exemplo, podem ser resultados perdidos das análises duma amostra, ou alguns indivíduos não responderem a um determinado questionário. Visto que a maior parte dos programas e algoritmos utilizados para o tratamento de dados requere conjuntos de dados sem valores omissos, isto é, dados completos, a sua existência pode limitar a análise dos dados. Daí, surge a necessidade de recorrer a métodos de imputação de valores omissos. Nesta dissertação foram utilizados e comparados seis métodos distintos de imputação, disponíveis no software R e avaliado o seu desempenho em conjuntos de dados relacionados com a área da educação, nomeadamente dados da avaliação nacional do rendimento escolar (Prova Brasil). Foi estudada uma amostra de 20408 estudantes para testar os seis algoritmos em quatro subconjuntos de dados gerados por simulação com diferentes percentagens de valores omissos, considerando 5%, 10%, 15% e 20% nas variáveis de interesse. Foram explorados métodos de imputação simples (Média, Mediana e Moda), métodos baseados em aprendizagem automática (kNN e bPCA) e um método de imputação múltipla (MICE). Foi avaliado o desempenho de cada método adotado neste trabalho calculando os respetivos erros de imputação através as métricas RMSE e MAE. Os resultados obtidos mostram que o método de imputação pela Moda forneceu quase de forma constante menores valores de erro. |
publishDate |
2021 |
dc.date.none.fl_str_mv |
2021-04-06 2021-02-01 2021-04-06T00:00:00Z 2023-01-18T15:18:43Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.6/12683 TID:203175220 |
url |
http://hdl.handle.net/10400.6/12683 |
identifier_str_mv |
TID:203175220 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799136411169849344 |