Melhoramento de docking-based virtual screening usando abordagem de deep learning
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da FIOCRUZ (ARCA) |
Texto Completo: | https://www.arca.fiocruz.br/handle/icict/23812 |
Resumo: | Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveis |
id |
CRUZ_351262860583053a53ce2233fee910cf |
---|---|
oai_identifier_str |
oai:www.arca.fiocruz.br:icict/23812 |
network_acronym_str |
CRUZ |
network_name_str |
Repositório Institucional da FIOCRUZ (ARCA) |
repository_id_str |
2135 |
spelling |
Pereira, Janaina CruzCaffarena, Ernesto Raul2017-12-27T17:18:30Z2017-12-27T17:18:30Z2017PEREIRA, Janaina Cruz. Melhoramento de docking-based virtual screening usando abordagem de deep learning. 2017. 168 f. Tese (Doutorado em Biologia Computacional e Sistemas)-Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, 2017.https://www.arca.fiocruz.br/handle/icict/23812Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveisScoring functions are one of the biggest problems in Docking-Based Virtual Screening - DBVS approach because these functions are not able to reliably classify docked ligands. In this work, we propose a new Deep Learning based approach for improving DBVS. The proposed deep neural network, DeepVS, uses the output of a docking program and learns how to extract relevant features from basic data such as atom and residues types obtained from protein-ligand complexes. Our approach introduces the use of atom and amino acid embeddings and implements an effective way of creating distributed vector representations of protein-ligand complexes by modeling the compound as a set of atom contexts that is further processed by a convolutional layer. One of the main advantages of the proposed method is that it does not require feature engineering. We evaluate DeepVS on the Directory of Useful Decoys (DUD), using the output of two docking programs: Autodock Vina1.2 and Dock 6.6. In addition, we also report results using a subset of the DUD-E database. DeepVS performance is evaluated with the leave-one-out cross-validation approach and using the well-established metrics enrichment factor and AUC. Using the output of the Autodockvina1.2 program, DeepVS achieves an AUC ROC of 0.81, which to the best of our knowledge is the best AUC result reported so far to DBVS using the 40 receptors in DUD For the subset of 44 DUD-E receptors used in this work, the cross-validation experiments resulted in an AUC of 0.93, which is also better than the AUC reported on recently published works. Finally, we applied DeepVS for a case study involving the enzyme Cruzain. The cysteine protease Cruzain is considered as the main cysteine protease of the protozoan parasite Trypanosoma cruzi, etiologic agent of Chagas disease. In this case study we perform all the main steps of structured based virtual screening involving, choice of crystallographic structure, study of the binding site, studies with positive controls to verify the method to be applied, selection of a set of compounds from a docking database, virtual screening, selection of potentially active compounds and visual inspection of selected compounds. The strategies used in the case study made it possible to identify seven drug candidate compounds in a dataset of 90,769 commercially available compoundsFundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.porPreparações FarmacêuticasRedes Neurais (Computação)Doença de ChagasAprendizado de MáquinaMelhoramento de docking-based virtual screening usando abordagem de deep learninginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis2017Instituto Oswaldo CruzFundação Oswaldo CruzRio de JaneiroPrograma de Pós-Graduação em Biologia Computacional e Sistemasinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/23812/1/license.txt8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALjanaina_pereira_ioc_dout_2017.pdfapplication/pdf12700671https://www.arca.fiocruz.br/bitstream/icict/23812/2/janaina_pereira_ioc_dout_2017.pdf9d0bb1bf5d8d12456256c5831d67687fMD52TEXTjanaina_pereira_ioc_dout_2017.pdf.txtjanaina_pereira_ioc_dout_2017.pdf.txtExtracted texttext/plain310448https://www.arca.fiocruz.br/bitstream/icict/23812/3/janaina_pereira_ioc_dout_2017.pdf.txt9622ca6f27ea012fc6c5d7bf4b501349MD53icict/238122022-06-24 13:09:00.025oai:www.arca.fiocruz.br:icict/23812Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352022-06-24T16:09Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false |
dc.title.pt_BR.fl_str_mv |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
title |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
spellingShingle |
Melhoramento de docking-based virtual screening usando abordagem de deep learning Pereira, Janaina Cruz Preparações Farmacêuticas Redes Neurais (Computação) Doença de Chagas Aprendizado de Máquina |
title_short |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
title_full |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
title_fullStr |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
title_full_unstemmed |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
title_sort |
Melhoramento de docking-based virtual screening usando abordagem de deep learning |
author |
Pereira, Janaina Cruz |
author_facet |
Pereira, Janaina Cruz |
author_role |
author |
dc.contributor.author.fl_str_mv |
Pereira, Janaina Cruz |
dc.contributor.advisor1.fl_str_mv |
Caffarena, Ernesto Raul |
contributor_str_mv |
Caffarena, Ernesto Raul |
dc.subject.other.pt_BR.fl_str_mv |
Preparações Farmacêuticas Redes Neurais (Computação) Doença de Chagas |
topic |
Preparações Farmacêuticas Redes Neurais (Computação) Doença de Chagas Aprendizado de Máquina |
dc.subject.decs.pt_BR.fl_str_mv |
Aprendizado de Máquina |
description |
Funções de pontuação são um dos grandes problemas na metodologia de Docking- Based Virtual Screening - DBVS, pois elas não são capazes de classificar de forma confiável ligantes docados. Nesse trabalho propomos um novo método baseado em Deep Learning para melhoramento de DBVS. Nossa abordagem usa a saída do docking para aprender como extrair features relevantes a partir de informações básicas como tipos de átomo e tipos de resíduos provenientes do complexo proteínacomposto. Nossa abordagem introduz o conceito de embeddings para átomos e aminoácidos e implementa uma forma efetiva de criar representações de vetores distribuídos para complexos proteína-composto. Uma da maiores vantagens da abordagem proposta em detrimento aos métodos encontrados na literatura é a capacidade de aprender features com pouca ou nenhuma intervenção humana. Para verificarmos a eficácia da DeepVS, executamos experimentos de docking com o programa Autodockvina1.2 e Dock 6.6 utilizando o banco de dados DUD com cargas corrigidas. Adicionalmente, reportamos resultados usando um subconjunto do banco de dados DUD-E. O desempenho da DeepVS é avaliado com o uso da abordagem de validação cruzada (leave-one-out) e empregando-se métricas bem estabelecidas como fator de enriquecimento e AUC Usando a saída do programa Autodockvina1.2, a DeepVS registra uma AUC ROC de 0,81, que até onde sabemos é o melhor resultado de AUC já reportado para DBVS usando os 40 receptores do DUD. Para o subconjunto de 44 proteínas do DUD-E, os experimentos de validação cruzada resultaram em uma AUC média de 0,93, valor que é superior ao reportado por trabalhos recentes. Adicionalmente, aplicamos a DeepVS (treinada com o DUD) em um estudo de caso envolvendo a enzima Cruzaína. O cisteíno-protease Cruzaína é considerado como o principal cisteíno do protozoário Trypanosoma cruzi agente etiológico da doença de Chagas. Nesse estudo de caso abordamos todas as principais etapas de virtual screening baseado em estrutura envolvendo escolha da estrutura cristalográfica, estudo do sítio de ligação, estudos com controles positivos para verificação do método a ser aplicado, seleção de um conjunto de compostos a serem ranqueados em um banco de dados de ligantes, virtual screening, seleção de compostos potencialmente ativos e inspeção visual dos compostos selecionados. As estratégias utilizadas no estudo de caso tornaram possível a identificação de sete compostos candidatos a fármacos em um conjunto de dados de 90.769 compostos comercialmente adquiríveis |
publishDate |
2017 |
dc.date.accessioned.fl_str_mv |
2017-12-27T17:18:30Z |
dc.date.available.fl_str_mv |
2017-12-27T17:18:30Z |
dc.date.issued.fl_str_mv |
2017 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PEREIRA, Janaina Cruz. Melhoramento de docking-based virtual screening usando abordagem de deep learning. 2017. 168 f. Tese (Doutorado em Biologia Computacional e Sistemas)-Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, 2017. |
dc.identifier.uri.fl_str_mv |
https://www.arca.fiocruz.br/handle/icict/23812 |
identifier_str_mv |
PEREIRA, Janaina Cruz. Melhoramento de docking-based virtual screening usando abordagem de deep learning. 2017. 168 f. Tese (Doutorado em Biologia Computacional e Sistemas)-Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, 2017. |
url |
https://www.arca.fiocruz.br/handle/icict/23812 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da FIOCRUZ (ARCA) instname:Fundação Oswaldo Cruz (FIOCRUZ) instacron:FIOCRUZ |
instname_str |
Fundação Oswaldo Cruz (FIOCRUZ) |
instacron_str |
FIOCRUZ |
institution |
FIOCRUZ |
reponame_str |
Repositório Institucional da FIOCRUZ (ARCA) |
collection |
Repositório Institucional da FIOCRUZ (ARCA) |
bitstream.url.fl_str_mv |
https://www.arca.fiocruz.br/bitstream/icict/23812/1/license.txt https://www.arca.fiocruz.br/bitstream/icict/23812/2/janaina_pereira_ioc_dout_2017.pdf https://www.arca.fiocruz.br/bitstream/icict/23812/3/janaina_pereira_ioc_dout_2017.pdf.txt |
bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 9d0bb1bf5d8d12456256c5831d67687f 9622ca6f27ea012fc6c5d7bf4b501349 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ) |
repository.mail.fl_str_mv |
repositorio.arca@fiocruz.br |
_version_ |
1798325029380816896 |