Development of deep learning-based tools for the design of new compounds with desired biological activities

Detalhes bibliográficos
Autor(a) principal: Sousa, Tiago Filipe Escairo
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/81330
Resumo: Dissertação de mestrado em Bioinformática (especialização em Tecnologias da Informação)
id RCAP_c4a87105a73b77ecd936be75a5473987
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/81330
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Development of deep learning-based tools for the design of new compounds with desired biological activitiesDeep LearningGenerative modelsMolecular designMulti-objective evolutionary algorithmsNovel sweetenersAlgoritmos evolucionários multi-objectivoDesenho molecularModelos generativosNovos adoçantesCiências Naturais::Ciências da Computação e da InformaçãoDissertação de mestrado em Bioinformática (especialização em Tecnologias da Informação)In the last few years, de novo molecular design has increasingly been using generative models, from the emergent field of Deep Learning (DL), to propose novel compounds that are likely to possess desired properties/activities, in areas such as drug discovery, materials sciences or biotechnology. A panoply of deep generative models, such as Recurrent Neural Networks, Variational Autoencoders, Adversarial Autoencoders and Generative Adversarial Networks, can be trained on existing datasets, and provide for the generation of novel compounds, typically with similar properties of interest. Additionally, different optimization strategies, including transfer learning, Bayesian optimization, reinforcement learning, and conditional generation, can be used to direct the generation process towards desired aims, regarding their biological activities, synthesis processes or chemical features. Various instances of experimental validation of these emerging methods have surfaced, with de novo generated molecules being synthesized and proving successful in in vitro, and even in vivo, assays. These successful practical realizations encourage further research into this blooming field. This dissertation aims to explore the application of generative DL to the de novo molecular design, with a focus on the targeted generation of new compounds. Two frameworks were developed to support this endeavor and stand as the main contributions of this work. The first, termed DeepMolGen, standardizes the implementation and usage of various generative DL architectures for molecular design. The second, termed EAMO, employs multi-objective evolutionary algorithms to navigate the latent space of autoencoder based models, optimizing the generation of molecules with desired characteristics. These frameworks were accompanied with a systematic and critical review on deep generative models, the related optimization methods for targeted compound design, and their applications. Four state-of-the-art architectures were implemented, trained and evaluated under the DeepMolGen framework using a standard dataset and common metrics such as validity, uniqueness, novelty and the MOSES benchmark. The results showed that DeepMolGen was capable of performing the intended tasks and that most of the implemented models performed on par with their publications. Similarly, four case studies from the literature were optimized with EAMO and the results compared to previous works. These experiments showed that EAMO could control abstract chemical properties and is competitive with other state-of-the-art methods. Lastly, the three best performing models were combined with transfer learning and EAMO within a pipeline for the generation of sweeteners. The resulting set of 102 promising molecules was reviewed by expert chemists and the pipeline improved with their feedback. A second set of 99 compounds was then generated and the preliminary observations pointed to significantly improved results.Ao longo dos últimos anos, a criação de moléculas de novo tem vindo cada vez mais a utilizar modelos generativos, da área do Deep Learning (DL), para propor compostos com propriedades/atividades de interesse em áreas como descoberta de fármacos, ciências dos materiais ou biotecnologia. Uma panó plia de modelos DL, que incluem arquiteturas como Recurrent Neural Networks, Variational Autoencoders, Adversarial Autoencoders e Generative Adversarial Networks, podem ser treinados com conjuntos de da dos existentes permitindo a geração de novos compostos, tipicamente com propriedades de interesse semelhantes. Adicionalmente, várias estratégias de otimização, incluindo transfer learning, otimização Bayesiana, aprendizagem por reforço e geração condicionada, podem ser utilizadas para guiar o pro cesso de geração em direção a propriedades de interesse como atividade biológica, processo de síntese ou características químicas. Têm surgido ainda vários exemplos de validação experimental destes méto dos, nos quais moléculas geradas de novo são sintetizadas e demonstram sucesso em ensaios in vitro e in vivo. Estes sucessos práticos encorajam investigações adicionais nesta área emergente. A presente dissertação pretende explorar a aplicação de DL generativo para o desenho de moléculas de novo, com um foco na geração direcionada de novos compostos. Duas frameworks foram desenvolvidas para este propósito e constituem as principais contribuições deste trabalho. A primeira, DeepMolGen, padroniza a implementação e utilização de variadas arquiteturas de DL para o desenho molecular. A segunda, EAMO, aplica algoritmos evolucionários para navegar o espaço latente de modelos baseados em autoencoders, otimizando a geração de moléculas com características pretendidas. Estas frameworks foram acompanhadas de uma revisão sistemática sobre modelos generativos de DL, métodos de otimiza ção para a geração direcionada de compostos, e as suas respetivas aplicações. Quatro arquiteturas do estado-da-arte foram implementadas, treinadas e avaliadas com o DeepMolGen, usando um conjunto de dados standard e métricas comuns como validade, unicidade, novidade e o conjunto de testes MOSES. Os resultados mostraram que o DeepMolGen conseguiu realizar as tarefas pretendidas e que a maioria dos modelos comportaram-se de forma semelhante às respetivas publicações. De forma semelhante, quatro casos de estudo da literatura foram otimizados com o EAMO e os resulta comparados com publicações prévias. Estas experiências mostraram que o EAMO é capaz de controlar propriedades químicas abstratas e que é competitivo com outras abordagens do estado-da-arte. Por fim, os três melhores modelos foram combinados com transfer learning e o EAMO para abordar a geração de compostos adoçantes. O conjunto de 102 moléculas resultante foi revisto por especialistas em química e a metodologia melhorada com os comentários. Um segundo conjunto de 99 compostos foi então gerado e os comentários preliminares apontaram para uma melhoria significativa dos resultados.Gostaria de agradecer especialmente ao programa de investigação Horizonte2020-Shikifactory100, por financiar a investigação aqui desenvolvida, através da bolsa nº 814408, e aos investigadores com os quais tive o prazer de colaborar neste contexto e que contribuíram para os resultados aqui apresentados.Rocha, MiguelPereira, Vítor Manuel SáUniversidade do MinhoSousa, Tiago Filipe Escairo2021-04-212021-04-21T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/81330eng203056124info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:31:44Zoai:repositorium.sdum.uminho.pt:1822/81330Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:27:01.335819Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Development of deep learning-based tools for the design of new compounds with desired biological activities
title Development of deep learning-based tools for the design of new compounds with desired biological activities
spellingShingle Development of deep learning-based tools for the design of new compounds with desired biological activities
Sousa, Tiago Filipe Escairo
Deep Learning
Generative models
Molecular design
Multi-objective evolutionary algorithms
Novel sweeteners
Algoritmos evolucionários multi-objectivo
Desenho molecular
Modelos generativos
Novos adoçantes
Ciências Naturais::Ciências da Computação e da Informação
title_short Development of deep learning-based tools for the design of new compounds with desired biological activities
title_full Development of deep learning-based tools for the design of new compounds with desired biological activities
title_fullStr Development of deep learning-based tools for the design of new compounds with desired biological activities
title_full_unstemmed Development of deep learning-based tools for the design of new compounds with desired biological activities
title_sort Development of deep learning-based tools for the design of new compounds with desired biological activities
author Sousa, Tiago Filipe Escairo
author_facet Sousa, Tiago Filipe Escairo
author_role author
dc.contributor.none.fl_str_mv Rocha, Miguel
Pereira, Vítor Manuel Sá
Universidade do Minho
dc.contributor.author.fl_str_mv Sousa, Tiago Filipe Escairo
dc.subject.por.fl_str_mv Deep Learning
Generative models
Molecular design
Multi-objective evolutionary algorithms
Novel sweeteners
Algoritmos evolucionários multi-objectivo
Desenho molecular
Modelos generativos
Novos adoçantes
Ciências Naturais::Ciências da Computação e da Informação
topic Deep Learning
Generative models
Molecular design
Multi-objective evolutionary algorithms
Novel sweeteners
Algoritmos evolucionários multi-objectivo
Desenho molecular
Modelos generativos
Novos adoçantes
Ciências Naturais::Ciências da Computação e da Informação
description Dissertação de mestrado em Bioinformática (especialização em Tecnologias da Informação)
publishDate 2021
dc.date.none.fl_str_mv 2021-04-21
2021-04-21T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/81330
url https://hdl.handle.net/1822/81330
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203056124
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132760137269248