Development of deep learning models for scRNA data analysis

Detalhes bibliográficos
Autor(a) principal: Macedo, Diogo Duarte Pinto
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/86515
Resumo: Dissertação de mestrado em Bioinformatics
id RCAP_e4bf00e6024c0fcfe15c489d1b054413
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/86515
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development of deep learning models for scRNA data analysisDesenvolvimento de métodos de aprendizagem profunda para a análise de dados de scRNAAprendizagem máquinaAprendizagem profundaSequenciação RNA Single CellCOVID-19Machine learningDeep learningSingle Cell RNA SequencingEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformaticsNa última década, o desenvolvimento tecnologias de sequenciamento de RNA Single Cell permitiu estudar a nível celular o papel das diferentes células na história natural de várias doenças. Durante a pandemia do COVID-19, existiu um esforço para recolher dados de RNA Single Cell, resultando em datasets com milhões de células e centenas de participantes, incluindo controlos saudáveis e outras doenças. A geração massiva de dados de sequenciamente cria novas oportunidades para a utilização de tecnologias de aprendizagem máquina. Esta tese explora a aplicação de aprendizagem máquina e de aprendizagem profunda às várias dimensões deste tipo de dados de sequenciamento, incluindo a previsão de tipo celular, previsão ao nível binário e multiclasse do estado do paciente e também a integração online de novos dados. O trabalho desenvolvido inclui a junção de diferentes dados de estudos sobre a COVID-19 de forma a criar um dataset de larga escala com cerca de 2.9 milhões de células e 436 indivíduos. Uma série de datasets artificiais foi também gerado para fins de validação das abordagens desenvolvidas. No decorrer da tese, um pacote de transformadores e métodos de manipulação de dados de sequenciamento de RNA Single Cell foi também produzido e integrado no protótipo da plataforma de AutoML da OmniumAI, designada de OmniA. Este foi validado em diferentes tipos de tarefas mostrando bons resultados, apesar das limitações em aplicar modelos de aprendizagem profunda correntemente com a versão utilizada da OmniA. Dentro dos modelos utilizados, tanto aqueles baseados em Gradient Boosting como a técnica de ensemble destacaram-se pela consistência dos resultados. O marco final da tese foi o desenvolvimento do pacote scBL dedicado à previsão ao nível da amostra. Este, aplica alguns métodos de aprendizagem máquina e aprendizagem profunda comuns e inclui dois modelos novos que utilizam mecanismos de atenção de forma a criar uma representação da amostra mais informativa do resultado do modelo. Estas abordagens são suplementadas pela utilização do Single Cell Variational Inference, um Variational Auto Encoder capaz de aprendizagem online de forma a corrigir efeitos técnicos entre amostras e permitir a integração de novos dados. Estas abordagens quando aplicadas aos dados da COVID-19 não resultaram em métricas de aprendizagem tão boas como as produzidas pela OmniA, mas mostraram indícios de ter melhor capacidade de generalizar para novos dados.In the last decade, the development of Single Cell RNA sequencing technologies have allowed the study of the role that different cell types have on the natural history of diseases. During the COVID-19 pandemic, a great effort was placed into collecting Single Cell RNA sequencing data, resulting in the creation of many datasets with millions of cells from hundreds of donors, including healthy and other disease controls. The generation of massive amounts of sequencing data opens many opportunities for the employment of Machine Learning technologies. This thesis explores the employment of Machine Learning and Deep Learning in the various dimensions present within Single Cell RNA sequencing data, including cell type prediction, binary and multi-class patient label prediction and online integration of new data. The work presented includes the integration of different large-scale COVID-19 datasets, resulting in an atlas of around 2.9 million cells from 436 donors. A collection of datasets was also artificially generated with the goal of validating the developed strategies. During the thesis, a package containing transformers and manipulation methods for Single Cell RNA sequencing data was developed and integrated into OmniA, OmniumAI’s AutoML framework. This pack age was validated in many different tasks and displayed good prediction results, although there were limitations to the employment of Deep Learning models with the available OmniA version. Among the models tested, those based on Gradient Boosting as well as the ensemble technique have produced consistently good results. The last output of this thesis is the development of a sample-level prediction package named single cell Bag learning. It includes common machine learning and deep learning approaches as well as two novel models which employ attention layers to create sample representation that aims to provide better explainability into the final prediction results. This approach has been complemented with Single Cell Variational Inference, a Variational Auto Encoder capable of online learning, which both corrects for batch effects and integrates whole new data. These approaches have been applied to COVID-19 data and, while not improving the prediction metrics when compared to models trained with OmniA, scBL’s approaches displayed the potential to generalize with new data.Dias, OscarRocha, MiguelUniversidade do MinhoMacedo, Diogo Duarte Pinto2023-04-272023-04-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/86515eng203356004info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-09-23T01:18:14Zoai:repositorium.sdum.uminho.pt:1822/86515Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:30:38.318234Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development of deep learning models for scRNA data analysis
Desenvolvimento de métodos de aprendizagem profunda para a análise de dados de scRNA
title Development of deep learning models for scRNA data analysis
spellingShingle Development of deep learning models for scRNA data analysis
Macedo, Diogo Duarte Pinto
Aprendizagem máquina
Aprendizagem profunda
Sequenciação RNA Single Cell
COVID-19
Machine learning
Deep learning
Single Cell RNA Sequencing
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Development of deep learning models for scRNA data analysis
title_full Development of deep learning models for scRNA data analysis
title_fullStr Development of deep learning models for scRNA data analysis
title_full_unstemmed Development of deep learning models for scRNA data analysis
title_sort Development of deep learning models for scRNA data analysis
author Macedo, Diogo Duarte Pinto
author_facet Macedo, Diogo Duarte Pinto
author_role author
dc.contributor.none.fl_str_mv Dias, Oscar
Rocha, Miguel
Universidade do Minho
dc.contributor.author.fl_str_mv Macedo, Diogo Duarte Pinto
dc.subject.por.fl_str_mv Aprendizagem máquina
Aprendizagem profunda
Sequenciação RNA Single Cell
COVID-19
Machine learning
Deep learning
Single Cell RNA Sequencing
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Aprendizagem máquina
Aprendizagem profunda
Sequenciação RNA Single Cell
COVID-19
Machine learning
Deep learning
Single Cell RNA Sequencing
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformatics
publishDate 2023
dc.date.none.fl_str_mv 2023-04-27
2023-04-27T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/86515
url https://hdl.handle.net/1822/86515
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203356004
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133575236288512