Neural networks for 2D representations of cell expression

Detalhes bibliográficos
Autor(a) principal: Cunha, Adriana Monteiro e
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10316/93918
Resumo: Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
id RCAP_905a259f5bc1221700b64a106b557838
oai_identifier_str oai:estudogeral.uc.pt:10316/93918
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Neural networks for 2D representations of cell expressionRedes neuronais para representações 2D de expressão genéticaRedução De FeaturesExpressão GenéticaAutoencoderAprendizagem SupervisionadaVisualização De DadosFeature ReductionGene Expression ProfilingAutoencoderSupervised LearningData VisualisationTrabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e TecnologiaThe recent advances in transcriptome sequencing technologies lead to the increase of gene expression studies, with significant impact in the fields of cellular biology and medicine. Typically, the work developed based on this type of data resorts to feature reduction techniques to combat the problems risen by the curse of dimensionality and from data extraction (such as dropout events, noise, etc.), especially in projects involving classification tasks. This dissertation presents a novel dimensionality reduction model inspired by deep neural networks, the Supervised Autoencoder, which combines the architecture of traditional autoencoders with a SoftMax classification layer, so the latent space maximizes different classes’ separability. To account for the recurring dropout events in this type of datasets, a Dropout layer was implemented during training, improving the model’s robustness. The present study focuses particularly on two-dimensional reductions to ease the information’s visualisation. In addition to an analysis of the effect of label usage in the feature reduction process (prior to potential classification tasks), the possibility of inferring new similarity patterns between samples through the latent space was explored.The model was validated with three datasets, comparing its results with those of Principal Component Analysis and the equivalent simple autoencoder, as well as by analysing the heatmap of the complete gene expression clustered based on the engineered features. The results show the model is capable of meaningful representations of the original data that ease the classification task compared to the ones resultant of state-of-the-art techniques. However, it is not possible to draw new parallels between samples based on those features.Os recentes avanços nas tecnologias de sequenciação do transcriptoma humano levaram ao aumento de estudos baseados em dados de expressão genética, com notável impacto nas áreas da biologia e medicina. Tipicamente, o trabalho desenvolvido com base neste tipo de informação recorre a técnicas de redução de features para combater os problemas que advêm da curse of dimensionality e associados à extração de dados de expressão (como eventos de dropout, ruído, etc.), sobretudo em projetos com tarefas de classificação.Nesta dissertação apresenta-se um modelo de redução de dimensionalidade inspirado em redes neuronais, o Autoencoder Supervisionado, que acopla a arquitetura tradicional de autoencoders com uma camada de classificação SoftMax, para que as representações no espaço latente maximizem a separabilidade entre diferentes classes. De forma a considerar os recorrentes eventos dropout neste tipo de dados, foi usada uma camada Dropout na fase de treino, conferindo maior robustez ao modelo. O estudo em causa foca-se em particular em reduções para duas dimensões, de forma a facilitar a visualização gráfica de informação. Além da análise do efeito da contabilização de classes no processo de redução de features (a priori de potenciais tarefas de classificação), explorou-se a possibilidade de o espaço latente obtido permitir aferir novos padrões de semelhança entre amostras.O modelo foi validado usando três conjuntos de dados, comparando os seus resultados com os obtidos através de Principal Component Analysis e do autoencoder simples equivalente, bem como através da análise do mapa de calor dos dados completos de expressão genética agrupados através do clustering hierárquico das features reduzidas.Os resultados mostram que o modelo é capaz de gerar representações adequadas dos dados originais, que permitem facilitar a tarefa de classificação quando comparadas com as resultantes das técnicas estado-da-arte. No entanto, não foi possível utilizá-las para estabelecer novos paralelos entre amostras.Outro - Projeto financiado pela Fundação para a Ciência e Tecnologia: D4 - Deep Drug Discovery and Deployment (CENTRO-01-0145-FEDER-029266)2020-11-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesishttp://hdl.handle.net/10316/93918http://hdl.handle.net/10316/93918TID:202687520engCunha, Adriana Monteiro einfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2022-05-25T10:22:19Zoai:estudogeral.uc.pt:10316/93918Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:12:46.589625Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Neural networks for 2D representations of cell expression
Redes neuronais para representações 2D de expressão genética
title Neural networks for 2D representations of cell expression
spellingShingle Neural networks for 2D representations of cell expression
Cunha, Adriana Monteiro e
Redução De Features
Expressão Genética
Autoencoder
Aprendizagem Supervisionada
Visualização De Dados
Feature Reduction
Gene Expression Profiling
Autoencoder
Supervised Learning
Data Visualisation
title_short Neural networks for 2D representations of cell expression
title_full Neural networks for 2D representations of cell expression
title_fullStr Neural networks for 2D representations of cell expression
title_full_unstemmed Neural networks for 2D representations of cell expression
title_sort Neural networks for 2D representations of cell expression
author Cunha, Adriana Monteiro e
author_facet Cunha, Adriana Monteiro e
author_role author
dc.contributor.author.fl_str_mv Cunha, Adriana Monteiro e
dc.subject.por.fl_str_mv Redução De Features
Expressão Genética
Autoencoder
Aprendizagem Supervisionada
Visualização De Dados
Feature Reduction
Gene Expression Profiling
Autoencoder
Supervised Learning
Data Visualisation
topic Redução De Features
Expressão Genética
Autoencoder
Aprendizagem Supervisionada
Visualização De Dados
Feature Reduction
Gene Expression Profiling
Autoencoder
Supervised Learning
Data Visualisation
description Trabalho de Projeto do Mestrado Integrado em Engenharia Biomédica apresentado à Faculdade de Ciências e Tecnologia
publishDate 2020
dc.date.none.fl_str_mv 2020-11-23
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10316/93918
http://hdl.handle.net/10316/93918
TID:202687520
url http://hdl.handle.net/10316/93918
identifier_str_mv TID:202687520
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134023115603968