Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data

Detalhes bibliográficos
Autor(a) principal: Vieira, Maria Fernanda Silva
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/86731
Resumo: Dissertação de mestrado em Bioinformatics
id RCAP_1ec684ff36b585f86c8f06cab0044ff2
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/86731
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics dataDeep learningMachine learningPersonalized medicineTranscriptomicsAprendizagem máquinaAprendizagem profundaMedicina personalizadaTranscriptómicaEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformaticsPersonalized medicine is a constantly growing area. Important goals of this field are early diagnosis and the discovery of new personalized treatments. Gene expression data play a key role at this level, as variations in these data can often offer explanations for some phenotypes. To this end, Machine Learning (ML) models capable of predicting biologically relevant information, have been widely used. Deep Learning (DL) is a branch of ML that has become popular over the past few years. The increasing amounts of data that have been generated, and the growing use of this type of models in biomedical areas, have been accelerating the analysis of biological processes associated with cancer and other complex diseases. In this work, we focused on developing a framework that allows to create and evaluate distinct work-flows for the application of a variety of machine and deep learning models, working over gene expression data, including different options regarding data preprocessing pipelines, distinct ML and DL models, including traditional ML models, Dense Neural Networks, Convolutional Neural Networks and Variational Autoencoders. The framework has been validated using different case studies, where the data sources were two of the main repositories of gene expression data (TCGA and GTEx). The goal of each case study was to predict important variables for clinical application. A variety of models were developed and evaluated for each case study, generally with competitive performance. For the first case study, the task was to predict the type of cancer from TCGA data, and the best performing DL model was a dense neural network, being outperformed by a logistic regression model. In the second case, where the task was to predict the hypoxia score, the best DL model was a two dimensional convolutional neural network (2D CNN), being outperformed by the LightGBM model. As for the third case study, where the objective was to predict the aneuploidy score, the best model was an one dimensional convolutional neural network (1D CNN). For the fourth case, where the task was to predict body mass index, the best model was again a 1D CNN. Finally, in the fifth case study, where the main goal was to predict gene expression for a set of genes based on landmark genes, the best DL model was found by an 1D CNN, still slightly outperformed by linear regression. Some of the DL models developed in this work show promising results. However, these need to be improved in the future as they are not clinically applicable at this time. This framework can be reused for new problems and can be easily expanded.A medicina personalizada é uma área em constante crescimento. Um dos objectivos importantes deste campo são o diagnóstico precoce e a descoberta de novos tratamentos personalizados. Os dados de expressão genética desempenham um papel fundamental a este nível, pois variações nestes dados podem muitas vezes oferecer explicações para alguns fenótipos. Para este fim, modelos Machine Learning (ML) capazes de prever informação biologicamente relevante, tem sido amplamente utilizados. O Deep Learning (DL) é um ramo do ML que se tornou popular ao longo dos últimos anos. A quantidade crescente de dados que tem sido gerada, e a crescente utilização deste tipo de modelos em áreas biomédicas, têm vindo a acelerar a análise dos processos biológicos associados ao cancro e a outras doenças complexas. Neste trabalho, concentrámo-nos em desenvolver uma framework que permita criar e avaliar workflows distintos para a aplicação de uma variedade de modelos de machine e deep learning, trabalhando sobre dados de expressão genética, incluindo diferentes opções relativas a pipelines de pré-processamento de dados, modelos distintos ML e DL, incluindo modelos tradicionais ML, Dense Neural Networks, Convolutional Neural Networks e Variational Autoencoders. A framework foi validada utilizando diferentes casos de estudo, em que as fontes de dados foram dois dos principais repositórios de dados de expressão genética (TCGA e GTEx). O objectivo de cada caso de estudo foi a previsão de variáveis relevantes para aplicação clínica. Foi desenvolvida e avaliada uma variedade de modelos para cada caso de estudo, geralmente com desempenho competitivo. Para o primeiro caso de estudo, a tarefa era prever o tipo de cancro a partir dos dados TCGA, e o modelo com melhor desempenho DL foi uma dense neural network, sendo superado por um modelo de regressão logística. No segundo case, onde a tarefa era prever a pontuação de hipoxia, o melhor modelo DL era uma convolutional neural network bidimensional (2D CNN), sendo superado pelo modelo LightGBM. Quanto ao terceiro caso de estudo, em que o objectivo era prever a pontuação de aneuploidia, o melhor modelo era uma convolutional neural network unidimensional (10 CNN). No quarto caso, onde a tarefa era prever o índice de massa corporal, o melhor modelo foi novamente uma 1D CNN. Finalmente, no quinto caso de estudo, onde o objectivo principal era prever a expressão genética para um conjunto de genes baseados em genes de referência, o melhor modelo DL foi encontrado por uma 1D CNN, ainda que ligeiramente ultrapassado por um modelo de regressão linear. Alguns dos modelos DL desenvolvidos neste trabalho mostram resultados promissores. No entanto, estes precisam de ser melhorados no futuro, uma vez que não são clinicamente aplicáveis neste momento. Esta framework pode ser reutilizado para novos problemas e pode facilmente ser expandida.Rocha, MiguelFerreira, Pedro G.Universidade do MinhoVieira, Maria Fernanda Silva2022-03-242022-03-24T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/86731eng203361458info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-10-14T01:21:33Zoai:repositorium.sdum.uminho.pt:1822/86731Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:35:28.763612Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
title Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
spellingShingle Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
Vieira, Maria Fernanda Silva
Deep learning
Machine learning
Personalized medicine
Transcriptomics
Aprendizagem máquina
Aprendizagem profunda
Medicina personalizada
Transcriptómica
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
title_full Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
title_fullStr Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
title_full_unstemmed Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
title_sort Developing deep learnig methods to predict phenotypes and clinical outcomes from transcriptomics data
author Vieira, Maria Fernanda Silva
author_facet Vieira, Maria Fernanda Silva
author_role author
dc.contributor.none.fl_str_mv Rocha, Miguel
Ferreira, Pedro G.
Universidade do Minho
dc.contributor.author.fl_str_mv Vieira, Maria Fernanda Silva
dc.subject.por.fl_str_mv Deep learning
Machine learning
Personalized medicine
Transcriptomics
Aprendizagem máquina
Aprendizagem profunda
Medicina personalizada
Transcriptómica
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Deep learning
Machine learning
Personalized medicine
Transcriptomics
Aprendizagem máquina
Aprendizagem profunda
Medicina personalizada
Transcriptómica
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformatics
publishDate 2022
dc.date.none.fl_str_mv 2022-03-24
2022-03-24T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/86731
url https://hdl.handle.net/1822/86731
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203361458
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133618230001664