Imputação em datasets médicos: uma comparação entre três métodos

Oliveira, João Carlos Fidalgo Pinho

Imputação em datasets médicos: uma comparação entre três métodos

Detalhes bibliográficos
Autor(a) principal:	Oliveira, João Carlos Fidalgo Pinho
Data de Publicação:	2018
Tipo de documento:	Dissertação
Idioma:	por
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10773/26428
Resumo:	Nos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputar

Metadados do item

id	RCAP_504ed431a6f1022e986b3282fd6d2f87
oai_identifier_str	oai:ria.ua.pt:10773/26428
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Imputação em datasets médicos: uma comparação entre três métodosValores omissosAnálise de dadosImputaçãoMICEkNNMissForestRegressãoClassificaçãoNos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputarNowadays there is a great volume of available data and countless algorithms that allows us to analyse it. However, most algorithms only work with complete datasets, with no missing values. To solve this problem there are imputation methods that treat the missing data. In this study three methods available in R were used, comparing their performance in imputing medical datasets available at the UCI Machine Learning Repository, with mixed type variables (numeric and categorical). Missing values were generated for each dataset, creating new datasets with 10%, 20%, 30%, 40% and 50% of missing values, and single and multiple imputation methods were applied. The imputation erros were analysed for each type of variable, numeric and categorical, also comparing the imputation time, as well as the impact that each imputation has on classifying each dataset. The results show that the missForest method is the most consistent for clinical datasets, usually presenting the smaller imputation error, but because of its complexity it’s also the method that takes longer to impute the missing values2019-08-26T08:29:36Z2018-12-21T00:00:00Z2018-12-21info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10773/26428porOliveira, João Carlos Fidalgo Pinhoinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-02-22T11:51:12Zoai:ria.ua.pt:10773/26428Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T02:59:25.802325Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Imputação em datasets médicos: uma comparação entre três métodos
title	Imputação em datasets médicos: uma comparação entre três métodos
spellingShingle	Imputação em datasets médicos: uma comparação entre três métodos Oliveira, João Carlos Fidalgo Pinho Valores omissos Análise de dados Imputação MICE kNN MissForest Regressão Classificação
title_short	Imputação em datasets médicos: uma comparação entre três métodos
title_full	Imputação em datasets médicos: uma comparação entre três métodos
title_fullStr	Imputação em datasets médicos: uma comparação entre três métodos
title_full_unstemmed	Imputação em datasets médicos: uma comparação entre três métodos
title_sort	Imputação em datasets médicos: uma comparação entre três métodos
author	Oliveira, João Carlos Fidalgo Pinho
author_facet	Oliveira, João Carlos Fidalgo Pinho
author_role	author
dc.contributor.author.fl_str_mv	Oliveira, João Carlos Fidalgo Pinho
dc.subject.por.fl_str_mv	Valores omissos Análise de dados Imputação MICE kNN MissForest Regressão Classificação
topic	Valores omissos Análise de dados Imputação MICE kNN MissForest Regressão Classificação
description	Nos dias de hoje existe um grande volume de dados disponíveis e inúmeros algoritmos que permitem analisar estes conjuntos. No entanto, a maioria dos algoritmos necessita que o conjunto de dados seja completo, isto é, não pode possuir valores omissos. Existem então métodos de imputação que permitem fazer o tratamento dos valores omissos. Neste estudo foram comparados três métodos disponíveis no software R, comparando a sua performance em conjuntos de dados na área da saúde disponíveis no UCI Machine Learning Repository, com tipos de variáveis mistas (numéricas e categóricas). Foram gerados valores omissos para cada conjunto, nas percentagens de 10%, 20%, 30%, 40% e 50%, posteriormente sujeitos a métodos de imputação simples e múltipla. Foram analisados depois os erros de imputação para as variáveis numéricas e categóricas, comparando também o tempo que cada método demorou a imputar cada conjunto de dados, e o seu impacto na classificação. Os resultados mostraram que o método mais consistente a imputar conjuntos de dados clínicos é o missForest, apresentando de forma quase constante o menor erro de imputação, mas devido à sua maior complexidade também é o método que leva mais tempo a imputar
publishDate	2018
dc.date.none.fl_str_mv	2018-12-21T00:00:00Z 2018-12-21 2019-08-26T08:29:36Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10773/26428
url	http://hdl.handle.net/10773/26428
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799137649256038400

Imputação em datasets médicos: uma comparação entre três métodos

Registros relacionados