Melhoramento de docking-based virtual screening usando abordagem de deep learning

Detalhes bibliográficos
Autor(a) principal: Pereira, Janaina Cruz
Data de Publicação: 2017
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da FIOCRUZ (ARCA)
Texto Completo: https://www.arca.fiocruz.br/handle/icict/23812
Resumo: Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveis
id CRUZ_351262860583053a53ce2233fee910cf
oai_identifier_str oai:www.arca.fiocruz.br:icict/23812
network_acronym_str CRUZ
network_name_str Repositório Institucional da FIOCRUZ (ARCA)
repository_id_str 2135
spelling Pereira, Janaina CruzCaffarena, Ernesto Raul2017-12-27T17:18:30Z2017-12-27T17:18:30Z2017PEREIRA, Janaina Cruz. Melhoramento de docking-based virtual screening usando abordagem de deep learning. 2017. 168 f. Tese (Doutorado em Biologia Computacional e Sistemas)-Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, 2017.https://www.arca.fiocruz.br/handle/icict/23812Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveisScoring functions are one of the biggest problems in Docking-Based Virtual Screening - DBVS approach because these functions are not able to reliably classify docked ligands. In this work, we propose a new Deep Learning based approach for improving DBVS. The proposed deep neural network, DeepVS, uses the output of a docking program and learns how to extract relevant features from basic data such as atom and residues types obtained from protein-ligand complexes. Our approach introduces the use of atom and amino acid embeddings and implements an effective way of creating distributed vector representations of protein-ligand complexes by modeling the compound as a set of atom contexts that is further processed by a convolutional layer. One of the main advantages of the proposed method is that it does not require feature engineering. We evaluate DeepVS on the Directory of Useful Decoys (DUD), using the output of two docking programs: Autodock Vina1.2 and Dock 6.6. In addition, we also report results using a subset of the DUD-E database. DeepVS performance is evaluated with the leave-one-out cross-validation approach and using the well-established metrics enrichment factor and AUC. Using the output of the Autodockvina1.2 program, DeepVS achieves an AUC ROC of 0.81, which to the best of our knowledge is the best AUC result reported so far to DBVS using the 40 receptors in DUD For the subset of 44 DUD-E receptors used in this work, the cross-validation experiments resulted in an AUC of 0.93, which is also better than the AUC reported on recently published works. Finally, we applied DeepVS for a case study involving the enzyme Cruzain. The cysteine protease Cruzain is considered as the main cysteine protease of the protozoan parasite Trypanosoma cruzi, etiologic agent of Chagas disease. In this case study we perform all the main steps of structured based virtual screening involving, choice of crystallographic structure, study of the binding site, studies with positive controls to verify the method to be applied, selection of a set of compounds from a docking database, virtual screening, selection of potentially active compounds and visual inspection of selected compounds. The strategies used in the case study made it possible to identify seven drug candidate compounds in a dataset of 90,769 commercially available compoundsFundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.porPreparações FarmacêuticasRedes Neurais (Computação)Doença de ChagasAprendizado de MáquinaMelhoramento de docking-based virtual screening usando abordagem de deep learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis2017Instituto Oswaldo CruzFundação Oswaldo CruzRio de JaneiroPrograma de Pós-Graduação em Biologia Computacional e Sistemasinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/23812/1/license.txt8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALjanaina_pereira_ioc_dout_2017.pdfapplication/pdf12700671https://www.arca.fiocruz.br/bitstream/icict/23812/2/janaina_pereira_ioc_dout_2017.pdf9d0bb1bf5d8d12456256c5831d67687fMD52TEXTjanaina_pereira_ioc_dout_2017.pdf.txtjanaina_pereira_ioc_dout_2017.pdf.txtExtracted texttext/plain310448https://www.arca.fiocruz.br/bitstream/icict/23812/3/janaina_pereira_ioc_dout_2017.pdf.txt9622ca6f27ea012fc6c5d7bf4b501349MD53icict/238122022-06-24 13:09:00.025oai:www.arca.fiocruz.br:icict/23812Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352022-06-24T16:09Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false
dc.title.pt_BR.fl_str_mv Melhoramento de docking-based virtual screening usando abordagem de deep learning
title Melhoramento de docking-based virtual screening usando abordagem de deep learning
spellingShingle Melhoramento de docking-based virtual screening usando abordagem de deep learning
Pereira, Janaina Cruz
Preparações Farmacêuticas
Redes Neurais (Computação)
Doença de Chagas
Aprendizado de Máquina
title_short Melhoramento de docking-based virtual screening usando abordagem de deep learning
title_full Melhoramento de docking-based virtual screening usando abordagem de deep learning
title_fullStr Melhoramento de docking-based virtual screening usando abordagem de deep learning
title_full_unstemmed Melhoramento de docking-based virtual screening usando abordagem de deep learning
title_sort Melhoramento de docking-based virtual screening usando abordagem de deep learning
author Pereira, Janaina Cruz
author_facet Pereira, Janaina Cruz
author_role author
dc.contributor.author.fl_str_mv Pereira, Janaina Cruz
dc.contributor.advisor1.fl_str_mv Caffarena, Ernesto Raul
contributor_str_mv Caffarena, Ernesto Raul
dc.subject.other.pt_BR.fl_str_mv Preparações Farmacêuticas
Redes Neurais (Computação)
Doença de Chagas
topic Preparações Farmacêuticas
Redes Neurais (Computação)
Doença de Chagas
Aprendizado de Máquina
dc.subject.decs.pt_BR.fl_str_mv Aprendizado de Máquina
description Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveis
publishDate 2017
dc.date.accessioned.fl_str_mv 2017-12-27T17:18:30Z
dc.date.available.fl_str_mv 2017-12-27T17:18:30Z
dc.date.issued.fl_str_mv 2017
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv PEREIRA, Janaina Cruz. Melhoramento de docking-based virtual screening usando abordagem de deep learning. 2017. 168 f. Tese (Doutorado em Biologia Computacional e Sistemas)-Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, 2017.
dc.identifier.uri.fl_str_mv https://www.arca.fiocruz.br/handle/icict/23812
identifier_str_mv PEREIRA, Janaina Cruz. Melhoramento de docking-based virtual screening usando abordagem de deep learning. 2017. 168 f. Tese (Doutorado em Biologia Computacional e Sistemas)-Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, 2017.
url https://www.arca.fiocruz.br/handle/icict/23812
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da FIOCRUZ (ARCA)
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Repositório Institucional da FIOCRUZ (ARCA)
collection Repositório Institucional da FIOCRUZ (ARCA)
bitstream.url.fl_str_mv https://www.arca.fiocruz.br/bitstream/icict/23812/1/license.txt
https://www.arca.fiocruz.br/bitstream/icict/23812/2/janaina_pereira_ioc_dout_2017.pdf
https://www.arca.fiocruz.br/bitstream/icict/23812/3/janaina_pereira_ioc_dout_2017.pdf.txt
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
9d0bb1bf5d8d12456256c5831d67687f
9622ca6f27ea012fc6c5d7bf4b501349
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv repositorio.arca@fiocruz.br
_version_ 1798325029380816896