Deep learning generative models for novel enzyme design

Detalhes bibliográficos
Autor(a) principal: Martins, Miguel
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/86810
Resumo: Dissertação de mestrado em Bioinformática
id RCAP_302403fe66d3e01b3fce4d95c262129d
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/86810
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Deep learning generative models for novel enzyme designDeep learningGenerative modelsProtein designEvolutionary algorithmsNovel proteinsAlgoritmos evolucionáriosDesign proteicoModelos generativosDesenho de novas proteínasEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformáticaRecent endeavours over the past few years have been applying generative Deep Learning (DL) models to generate novel proteins using an array of different approaches. Such initiatives represent a specially important development towards major contributions to the field of protein engineering. To contribute to this, various DL architectures can be applied to the different datasets to generate proteins with a particular set of properties. The field of DL applied to the generation of novel molecules has been presenting results that encourage further research on this subject. An increasing number of novel, computationally generated, molecules being synthesized with successful results creates grounds for stimulation of new endeavours and diversification of the current applications. The goal of the work presented in this dissertation is to apply different generative DL architectures to the design of novel protein sequences for a targeted set of optimized properties. The developed framework, termed GenProtEA, stands as the main contribution of this work. The framework envisages the implementation of generative DL architectures for the design of novel proteins and leverages the use sampling techniques and Evolutionary Computation to steer the generative process towards a specific set of properties. Evolutionary Algorithms (EAs) can be applied both to single and multi-objective optimization problems which in itself presents an added advantage. The optimization problems were designed considering the literature concerning protein design. The problems ranged from a simple maximization of the average hydrophobicity of the protein sequence to more complex problems such as minimizing two sets of events in a sequence or maximizing a probability of a protein being generated by a defined profile Hidden Markov Model (HMM). The results of the proposed case studies and the respective analysis accompany the framework in this endeavour. Two different generative DL architectures were deployed, trained, and evaluated, using loss and accuracy metrics to perform the analysis.: a Generative Adversarial Network (GAN) and a Variational Autoencoder (VAE). For the GAN architecture, new proteins are sampled varying the latent seed used in the generative process and then selecting the best candidates for each of the case studies. Besides following a same sampling approach to obtain new protein designs, the VAE latent space is explored using EAs. The results of this work show that the use of EAs in the optimization, steering the generative process, can produce the best results, allowing for more variability in the experiments designed and resulting in a much greater set of possibly functional novel proteins.Ao longo dos últimos anos têm sido desenvolvidas várias iniciativas para aplicar modelos generativos de DL para gerar novas proteínas, usando uma variedade de abordagens. Estas iniciativas representam um desenvolvimento bastante importante especialmente no campo da engenharia proteica. Para formular essa contribuição, vários modelos de DL podem ser aplicados, usando diferentes conjuntos de dados com o objetivo de gerar proteínas com um determinado conjunto de propriedades. A vertente de aplicação de modelos generativos de DL a geração de novas moléculas tem apresentado resultados que incentivem ao aprofundamento de trabalhos de investigação relacionados com este tópico. O número crescente de novas moléculas geradas computacionalmente bem como a subsequente bem-sucedida sintetização, estimulam uma diversificação das abordagens atuais. O objetivo do trabalho apresentado nesta dissertação consiste em aplicar diferentes modelos generativos de DL para a geração de novas proteínas com um conjunto optimizado de propriedades específicas. O framework desenvolvido, denominado de GenProtEA, é apresentado como a principal contribuição deste trabalho. Esta framework tenciona acomodar a implementação de modelos generativos de DL para a formação de novas proteínas, beneficiando do uso de computação evolutiva para guiar o processo de generativo de acordo com o conjunto específico de propriedades desejado. Os algoritmos evolucionários são aplicados em problemas de otimização com um só ou vários objetivos, que por si só representa uma vantagem adicional. Os problemas de otimização foram estabelecidos de acordo com apresentado na literatura referente ao design de proteínas. Esses problemas variaram de uma simples maximização da hidrofobicidade média da sequência proteica para problemas mais complexos, como minimizar a ocorrência de dois conjuntos de eventos numa sequência ou maximizar a probabilidade de uma proteína ser gerada por um perfil de HMM. 0s resultados obtidos nos casos de estudo propostos, bem como as respetivas análises, acompanham a framework desenvolvida neste trabalho. Foram implementados, treinados e avaliados dois modelos generativos diferentes, usando métricas de perda e precisão na avaliação: uma GAN e uma VAE. Para o modelo referente à GAN, novas proteínas são amostradas variando a Iatent seed no processo generativo selecionando as melhores amostras para o conjunto de casos de estudo implementados. Além de aplicar esta mesma abordagem com a VAE, os espaço latente da VAE foi explorado usando Eas. Os resultados deste trabalho mostram que o uso de EAs na otimização, guiando o processo generativo para um objetivo específico, pode produzir melhores resultados e permite uma major variabilidade de casos de estudo para possível avaliação. Este método apresenta ainda um conjunto muito maior de proteínas possivelmente funcionais.Rocha, MiguelPereira, VítorUniversidade do MinhoMartins, Miguel2022-03-242022-03-24T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/86810eng203362543info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-10-14T01:21:53Zoai:repositorium.sdum.uminho.pt:1822/86810Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T20:35:29.411894Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Deep learning generative models for novel enzyme design
title Deep learning generative models for novel enzyme design
spellingShingle Deep learning generative models for novel enzyme design
Martins, Miguel
Deep learning
Generative models
Protein design
Evolutionary algorithms
Novel proteins
Algoritmos evolucionários
Design proteico
Modelos generativos
Desenho de novas proteínas
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Deep learning generative models for novel enzyme design
title_full Deep learning generative models for novel enzyme design
title_fullStr Deep learning generative models for novel enzyme design
title_full_unstemmed Deep learning generative models for novel enzyme design
title_sort Deep learning generative models for novel enzyme design
author Martins, Miguel
author_facet Martins, Miguel
author_role author
dc.contributor.none.fl_str_mv Rocha, Miguel
Pereira, Vítor
Universidade do Minho
dc.contributor.author.fl_str_mv Martins, Miguel
dc.subject.por.fl_str_mv Deep learning
Generative models
Protein design
Evolutionary algorithms
Novel proteins
Algoritmos evolucionários
Design proteico
Modelos generativos
Desenho de novas proteínas
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Deep learning
Generative models
Protein design
Evolutionary algorithms
Novel proteins
Algoritmos evolucionários
Design proteico
Modelos generativos
Desenho de novas proteínas
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformática
publishDate 2022
dc.date.none.fl_str_mv 2022-03-24
2022-03-24T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/86810
url https://hdl.handle.net/1822/86810
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203362543
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133618247827456