A study on missing data: handing missingness using Denoising Autoencoders

Detalhes bibliográficos
Autor(a) principal: Costa, Adriana Isabel Fonseca
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/86262
Resumo: Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
id RCAP_a8d64ab0ae4c8ecc887f62ee8f830143
oai_identifier_str oai:estudogeral.uc.pt:10316/86262
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling A study on missing data: handing missingness using Denoising AutoencodersUm estudo sobre dados em falta: preenchimento de dados em falta utilizando Denoising Autoencodersmecanismos de dados em faltapreenchimento de dados em faltadenoising autoencodersmissing data mechanismsmissing data imputationdenoising autoencodersTrabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e TecnologiaCom a evolução tecnológica, verificou-se um aumento exponencial da quantidade de dados recolhidos e armazenados. Assim, surgiu a necessidade de criar mecanismos automáticos para extrair conhecimento dos referidos dados. Estes mecanismos automáticos, conhecidos por modelos de aprendizagem automática, foram, na sua maioria, desenvolvidos para dados completos, requisito que nem sempre é possível cumprir. Neste contexto, a imputação dos dados (substituição dos valores em falta por estimativas plausíveis) surge como uma possível solução, garantindo a qualidade dos dados para posterior análise.Nos últimos anos, vários estudos têm proposto novas técnicas de imputação, de entre as quais se destaca a utilização de Stacked Denoising Autoencoders. Dada a sua extraordinária capacidade de recuperar dados corrompidos, os Denoising Autoencoders mostram-se promissores na área da imputação de dados, tendo despertado um interesse crescente por parte da comunidade científica.No entanto, sendo um tópico recente, a sua aplicação ainda não se encontra suficientemente bem estudada, apresentando diversos aspetos por explorar; em particular, a sua adequação a diferentes mecanismos de dados em falta (Missing Completely At Random, Missing At Random e Missing Not At Random). Esta tese apresenta um estudo aprofundado da imputação de dados via Stacked Denoising Autoencoders, considerando diferentes mecanismos e percentagens de dados em falta. Em comparação com métodos de imputação do estado da arte, os Stacked Denoising Autoencoders mostraram ser abordagens robustas para a imputação de elevadas percentagens de dados em falta, especialmente quando o mecanismo subjacente à sua geração é Missing Not At Random.The evolution of technology led to an exponential increase in the amount of data being collected and stored, thus creating the need to develop automatic mechanisms to extract knowledge from data. These automatic mechanisms, known as Machine Learning techniques, were mostly designed for complete data, a requirement that is not always fulfilled. In this context, data imputation (replacement of missing values by plausible estimates) arises as a possible solution, ensuring the quality of data for later analysis. Over the years, several studies presented alternative imputation strategies, among which Stacked Denoising Autoencoders stand out. Given their ability to recover corrupted data, Stacked Denoising Autoencoders are promising in the area of data imputation, generating great interest in the scientific community. However, their application is an understudied topic, still presenting challenging aspects for research; namely, their suitability for different missing data mechanisms (Missing Completely At Random, Missing At Random and Missing Not At Random). This thesis presents a thorough study of data imputation via Stacked Denoising Autoencoders, considering different missing data mechanisms and missing rates. In comparison to state-of-the-art imputation methods, Stacked Denoising Autoencoders proved to be robust for imputing high missing rates, especially, when the mechanism underlying their generation is Missing Not At Random.2018-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/86262http://hdl.handle.net/10316/86262TID:202206157engCosta, Adriana Isabel Fonsecainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2019-06-02T13:44:26Zoai:estudogeral.uc.pt:10316/86262Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:07:27.481600Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv A study on missing data: handing missingness using Denoising Autoencoders
Um estudo sobre dados em falta: preenchimento de dados em falta utilizando Denoising Autoencoders
title A study on missing data: handing missingness using Denoising Autoencoders
spellingShingle A study on missing data: handing missingness using Denoising Autoencoders
Costa, Adriana Isabel Fonseca
mecanismos de dados em falta
preenchimento de dados em falta
denoising autoencoders
missing data mechanisms
missing data imputation
denoising autoencoders
title_short A study on missing data: handing missingness using Denoising Autoencoders
title_full A study on missing data: handing missingness using Denoising Autoencoders
title_fullStr A study on missing data: handing missingness using Denoising Autoencoders
title_full_unstemmed A study on missing data: handing missingness using Denoising Autoencoders
title_sort A study on missing data: handing missingness using Denoising Autoencoders
author Costa, Adriana Isabel Fonseca
author_facet Costa, Adriana Isabel Fonseca
author_role author
dc.contributor.author.fl_str_mv Costa, Adriana Isabel Fonseca
dc.subject.por.fl_str_mv mecanismos de dados em falta
preenchimento de dados em falta
denoising autoencoders
missing data mechanisms
missing data imputation
denoising autoencoders
topic mecanismos de dados em falta
preenchimento de dados em falta
denoising autoencoders
missing data mechanisms
missing data imputation
denoising autoencoders
description Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
publishDate 2018
dc.date.none.fl_str_mv 2018-07-20
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/86262
http://hdl.handle.net/10316/86262
TID:202206157
url http://hdl.handle.net/10316/86262
identifier_str_mv TID:202206157
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133965619036160