A study on missing data: handing missingness using Denoising Autoencoders
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10316/86262 |
Resumo: | Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia |
id |
RCAP_a8d64ab0ae4c8ecc887f62ee8f830143 |
---|---|
oai_identifier_str |
oai:estudogeral.uc.pt:10316/86262 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
A study on missing data: handing missingness using Denoising AutoencodersUm estudo sobre dados em falta: preenchimento de dados em falta utilizando Denoising Autoencodersmecanismos de dados em faltapreenchimento de dados em faltadenoising autoencodersmissing data mechanismsmissing data imputationdenoising autoencodersTrabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e TecnologiaCom a evolução tecnológica, verificou-se um aumento exponencial da quantidade de dados recolhidos e armazenados. Assim, surgiu a necessidade de criar mecanismos automáticos para extrair conhecimento dos referidos dados. Estes mecanismos automáticos, conhecidos por modelos de aprendizagem automática, foram, na sua maioria, desenvolvidos para dados completos, requisito que nem sempre é possível cumprir. Neste contexto, a imputação dos dados (substituição dos valores em falta por estimativas plausíveis) surge como uma possível solução, garantindo a qualidade dos dados para posterior análise.Nos últimos anos, vários estudos têm proposto novas técnicas de imputação, de entre as quais se destaca a utilização de Stacked Denoising Autoencoders. Dada a sua extraordinária capacidade de recuperar dados corrompidos, os Denoising Autoencoders mostram-se promissores na área da imputação de dados, tendo despertado um interesse crescente por parte da comunidade científica.No entanto, sendo um tópico recente, a sua aplicação ainda não se encontra suficientemente bem estudada, apresentando diversos aspetos por explorar; em particular, a sua adequação a diferentes mecanismos de dados em falta (Missing Completely At Random, Missing At Random e Missing Not At Random). Esta tese apresenta um estudo aprofundado da imputação de dados via Stacked Denoising Autoencoders, considerando diferentes mecanismos e percentagens de dados em falta. Em comparação com métodos de imputação do estado da arte, os Stacked Denoising Autoencoders mostraram ser abordagens robustas para a imputação de elevadas percentagens de dados em falta, especialmente quando o mecanismo subjacente à sua geração é Missing Not At Random.The evolution of technology led to an exponential increase in the amount of data being collected and stored, thus creating the need to develop automatic mechanisms to extract knowledge from data. These automatic mechanisms, known as Machine Learning techniques, were mostly designed for complete data, a requirement that is not always fulfilled. In this context, data imputation (replacement of missing values by plausible estimates) arises as a possible solution, ensuring the quality of data for later analysis. Over the years, several studies presented alternative imputation strategies, among which Stacked Denoising Autoencoders stand out. Given their ability to recover corrupted data, Stacked Denoising Autoencoders are promising in the area of data imputation, generating great interest in the scientific community. However, their application is an understudied topic, still presenting challenging aspects for research; namely, their suitability for different missing data mechanisms (Missing Completely At Random, Missing At Random and Missing Not At Random). This thesis presents a thorough study of data imputation via Stacked Denoising Autoencoders, considering different missing data mechanisms and missing rates. In comparison to state-of-the-art imputation methods, Stacked Denoising Autoencoders proved to be robust for imputing high missing rates, especially, when the mechanism underlying their generation is Missing Not At Random.2018-07-20info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/86262http://hdl.handle.net/10316/86262TID:202206157engCosta, Adriana Isabel Fonsecainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2019-06-02T13:44:26Zoai:estudogeral.uc.pt:10316/86262Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:07:27.481600Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
A study on missing data: handing missingness using Denoising Autoencoders Um estudo sobre dados em falta: preenchimento de dados em falta utilizando Denoising Autoencoders |
title |
A study on missing data: handing missingness using Denoising Autoencoders |
spellingShingle |
A study on missing data: handing missingness using Denoising Autoencoders Costa, Adriana Isabel Fonseca mecanismos de dados em falta preenchimento de dados em falta denoising autoencoders missing data mechanisms missing data imputation denoising autoencoders |
title_short |
A study on missing data: handing missingness using Denoising Autoencoders |
title_full |
A study on missing data: handing missingness using Denoising Autoencoders |
title_fullStr |
A study on missing data: handing missingness using Denoising Autoencoders |
title_full_unstemmed |
A study on missing data: handing missingness using Denoising Autoencoders |
title_sort |
A study on missing data: handing missingness using Denoising Autoencoders |
author |
Costa, Adriana Isabel Fonseca |
author_facet |
Costa, Adriana Isabel Fonseca |
author_role |
author |
dc.contributor.author.fl_str_mv |
Costa, Adriana Isabel Fonseca |
dc.subject.por.fl_str_mv |
mecanismos de dados em falta preenchimento de dados em falta denoising autoencoders missing data mechanisms missing data imputation denoising autoencoders |
topic |
mecanismos de dados em falta preenchimento de dados em falta denoising autoencoders missing data mechanisms missing data imputation denoising autoencoders |
description |
Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-07-20 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10316/86262 http://hdl.handle.net/10316/86262 TID:202206157 |
url |
http://hdl.handle.net/10316/86262 |
identifier_str_mv |
TID:202206157 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133965619036160 |