Development of deep learning models for scRNA data analysis
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | https://hdl.handle.net/1822/86515 |
Resumo: | Dissertação de mestrado em Bioinformatics |
id |
RCAP_e4bf00e6024c0fcfe15c489d1b054413 |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/86515 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Development of deep learning models for scRNA data analysisDesenvolvimento de métodos de aprendizagem profunda para a análise de dados de scRNAAprendizagem máquinaAprendizagem profundaSequenciação RNA Single CellCOVID-19Machine learningDeep learningSingle Cell RNA SequencingEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformaticsNa última década, o desenvolvimento tecnologias de sequenciamento de RNA Single Cell permitiu estudar a nível celular o papel das diferentes células na história natural de várias doenças. Durante a pandemia do COVID-19, existiu um esforço para recolher dados de RNA Single Cell, resultando em datasets com milhões de células e centenas de participantes, incluindo controlos saudáveis e outras doenças. A geração massiva de dados de sequenciamente cria novas oportunidades para a utilização de tecnologias de aprendizagem máquina. Esta tese explora a aplicação de aprendizagem máquina e de aprendizagem profunda às várias dimensões deste tipo de dados de sequenciamento, incluindo a previsão de tipo celular, previsão ao nível binário e multiclasse do estado do paciente e também a integração online de novos dados. O trabalho desenvolvido inclui a junção de diferentes dados de estudos sobre a COVID-19 de forma a criar um dataset de larga escala com cerca de 2.9 milhões de células e 436 indivíduos. Uma série de datasets artificiais foi também gerado para fins de validação das abordagens desenvolvidas. No decorrer da tese, um pacote de transformadores e métodos de manipulação de dados de sequenciamento de RNA Single Cell foi também produzido e integrado no protótipo da plataforma de AutoML da OmniumAI, designada de OmniA. Este foi validado em diferentes tipos de tarefas mostrando bons resultados, apesar das limitações em aplicar modelos de aprendizagem profunda correntemente com a versão utilizada da OmniA. Dentro dos modelos utilizados, tanto aqueles baseados em Gradient Boosting como a técnica de ensemble destacaram-se pela consistência dos resultados. O marco final da tese foi o desenvolvimento do pacote scBL dedicado à previsão ao nível da amostra. Este, aplica alguns métodos de aprendizagem máquina e aprendizagem profunda comuns e inclui dois modelos novos que utilizam mecanismos de atenção de forma a criar uma representação da amostra mais informativa do resultado do modelo. Estas abordagens são suplementadas pela utilização do Single Cell Variational Inference, um Variational Auto Encoder capaz de aprendizagem online de forma a corrigir efeitos técnicos entre amostras e permitir a integração de novos dados. Estas abordagens quando aplicadas aos dados da COVID-19 não resultaram em métricas de aprendizagem tão boas como as produzidas pela OmniA, mas mostraram indícios de ter melhor capacidade de generalizar para novos dados.In the last decade, the development of Single Cell RNA sequencing technologies have allowed the study of the role that different cell types have on the natural history of diseases. During the COVID-19 pandemic, a great effort was placed into collecting Single Cell RNA sequencing data, resulting in the creation of many datasets with millions of cells from hundreds of donors, including healthy and other disease controls. The generation of massive amounts of sequencing data opens many opportunities for the employment of Machine Learning technologies. This thesis explores the employment of Machine Learning and Deep Learning in the various dimensions present within Single Cell RNA sequencing data, including cell type prediction, binary and multi-class patient label prediction and online integration of new data. The work presented includes the integration of different large-scale COVID-19 datasets, resulting in an atlas of around 2.9 million cells from 436 donors. A collection of datasets was also artificially generated with the goal of validating the developed strategies. During the thesis, a package containing transformers and manipulation methods for Single Cell RNA sequencing data was developed and integrated into OmniA, OmniumAI’s AutoML framework. This pack age was validated in many different tasks and displayed good prediction results, although there were limitations to the employment of Deep Learning models with the available OmniA version. Among the models tested, those based on Gradient Boosting as well as the ensemble technique have produced consistently good results. The last output of this thesis is the development of a sample-level prediction package named single cell Bag learning. It includes common machine learning and deep learning approaches as well as two novel models which employ attention layers to create sample representation that aims to provide better explainability into the final prediction results. This approach has been complemented with Single Cell Variational Inference, a Variational Auto Encoder capable of online learning, which both corrects for batch effects and integrates whole new data. These approaches have been applied to COVID-19 data and, while not improving the prediction metrics when compared to models trained with OmniA, scBL’s approaches displayed the potential to generalize with new data.Dias, OscarRocha, MiguelUniversidade do MinhoMacedo, Diogo Duarte Pinto2023-04-272023-04-27T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/86515eng203356004info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-09-23T01:18:14Zoai:repositorium.sdum.uminho.pt:1822/86515Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:30:38.318234Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Development of deep learning models for scRNA data analysis Desenvolvimento de métodos de aprendizagem profunda para a análise de dados de scRNA |
title |
Development of deep learning models for scRNA data analysis |
spellingShingle |
Development of deep learning models for scRNA data analysis Macedo, Diogo Duarte Pinto Aprendizagem máquina Aprendizagem profunda Sequenciação RNA Single Cell COVID-19 Machine learning Deep learning Single Cell RNA Sequencing Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
title_short |
Development of deep learning models for scRNA data analysis |
title_full |
Development of deep learning models for scRNA data analysis |
title_fullStr |
Development of deep learning models for scRNA data analysis |
title_full_unstemmed |
Development of deep learning models for scRNA data analysis |
title_sort |
Development of deep learning models for scRNA data analysis |
author |
Macedo, Diogo Duarte Pinto |
author_facet |
Macedo, Diogo Duarte Pinto |
author_role |
author |
dc.contributor.none.fl_str_mv |
Dias, Oscar Rocha, Miguel Universidade do Minho |
dc.contributor.author.fl_str_mv |
Macedo, Diogo Duarte Pinto |
dc.subject.por.fl_str_mv |
Aprendizagem máquina Aprendizagem profunda Sequenciação RNA Single Cell COVID-19 Machine learning Deep learning Single Cell RNA Sequencing Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
topic |
Aprendizagem máquina Aprendizagem profunda Sequenciação RNA Single Cell COVID-19 Machine learning Deep learning Single Cell RNA Sequencing Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática |
description |
Dissertação de mestrado em Bioinformatics |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-04-27 2023-04-27T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://hdl.handle.net/1822/86515 |
url |
https://hdl.handle.net/1822/86515 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.relation.none.fl_str_mv |
203356004 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799133575236288512 |