Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas

Detalhes bibliográficos
Autor(a) principal: Vidal, Lincon Onório
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/349
Resumo: As metodologias CADD (computer-aided drug design) têm sido utilizadas com êxito na busca de novos e mais seguros candidatos a medicamentos farmacêuticos, ajudando a reduzir os altos custos envolvidos no desenvolvimento de novos compostos. Um dos principais métodos de CADD é a triagem virtual baseada em estrutura (SBVS, do inglês structure-based virtual screening), na qual extensas bibliotecas de compostos e alvos moleculares são avaliados computacionalmente a fim de classificá-los biologicamente como compostos ativos ou inativos. Neste contexto, uma função de pontuação (scoring function, SF) é usada para prever o valor da afinidade entre um composto ligado a um alvo proteico de interesse, tendo um papel crucial nos métodos de SBVS. Mais recentemente, técnicas de Aprendizagem de Máquina e, particularmente, Redes Neurais Profundas, vêm sendo empregadas no desenvolvimento de SF para a predição da afinidade. Neste trabalho, apresentamos o desenvolvimento de SFs baseadas em modelos de Redes Neurais Convolutivas e Redes Neurais Residuais com o uso do programa DockTDeep, desenvolvido pelo GMMSB, visando possibilitar o uso de tais funções em aplicações de SBVS. São realizadas também diversas análises da influência dos principais componentes utilizados na construção do modelo preditivo, como a representação baseada em grade de voxel e tratamento de dados de complexos proteína-ligante, funções de custo para otimização do modelo, estratégias de regularização e técnicas de aumento de dados, bem como análises em relação aos vieses dos conjuntos de dados e suas representações. Os modelos desenvolvidos obtiveram resultados competitivos em relação a outras funções de pontuação presentes na literatura, atingindo 𝑅 = 0.721 no CASF-2016 e 𝑅 = 0.718 no CASF-2013, ao mesmo tempo que partem de uma construção mais simples que dispensa o uso de descritores manualmente selecionados por especialistas em modelagem molecular. Tais resultados demonstram a viabilidade prática e potencial do uso de funções de pontuação baseadas em Redes Neurais Profundas para aplicações de SBVS.
id LNCC_462263111005f19b18ffcd90046577ef
oai_identifier_str oai:tede-server.lncc.br:tede/349
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais ProfundasPlanejamento de fármacosAprendizado por computadorRedes neurais (Computação)DockTDeep (Programa de computador)CNPQ::CIENCIAS BIOLOGICAS::FARMACOLOGIAAs metodologias CADD (computer-aided drug design) têm sido utilizadas com êxito na busca de novos e mais seguros candidatos a medicamentos farmacêuticos, ajudando a reduzir os altos custos envolvidos no desenvolvimento de novos compostos. Um dos principais métodos de CADD é a triagem virtual baseada em estrutura (SBVS, do inglês structure-based virtual screening), na qual extensas bibliotecas de compostos e alvos moleculares são avaliados computacionalmente a fim de classificá-los biologicamente como compostos ativos ou inativos. Neste contexto, uma função de pontuação (scoring function, SF) é usada para prever o valor da afinidade entre um composto ligado a um alvo proteico de interesse, tendo um papel crucial nos métodos de SBVS. Mais recentemente, técnicas de Aprendizagem de Máquina e, particularmente, Redes Neurais Profundas, vêm sendo empregadas no desenvolvimento de SF para a predição da afinidade. Neste trabalho, apresentamos o desenvolvimento de SFs baseadas em modelos de Redes Neurais Convolutivas e Redes Neurais Residuais com o uso do programa DockTDeep, desenvolvido pelo GMMSB, visando possibilitar o uso de tais funções em aplicações de SBVS. São realizadas também diversas análises da influência dos principais componentes utilizados na construção do modelo preditivo, como a representação baseada em grade de voxel e tratamento de dados de complexos proteína-ligante, funções de custo para otimização do modelo, estratégias de regularização e técnicas de aumento de dados, bem como análises em relação aos vieses dos conjuntos de dados e suas representações. Os modelos desenvolvidos obtiveram resultados competitivos em relação a outras funções de pontuação presentes na literatura, atingindo 𝑅 = 0.721 no CASF-2016 e 𝑅 = 0.718 no CASF-2013, ao mesmo tempo que partem de uma construção mais simples que dispensa o uso de descritores manualmente selecionados por especialistas em modelagem molecular. Tais resultados demonstram a viabilidade prática e potencial do uso de funções de pontuação baseadas em Redes Neurais Profundas para aplicações de SBVS.Computer-aided drug design (CADD) methodologies have been used successfully in researching new and safer pharmaceutical drug candidates, helping to reduce the high costs involved in developing new compounds. One of the main CADD methods is structure-based virtual screening (SBVS), in which large libraries of compounds and molecular targets are computationally evaluated in order to classify them biologically as active or inactive compounds. In this context, a scoring function (SF) is used to predict the affinity value between a compound bound to a protein target of interest, playing a crucial role in SBVS methods. More recently, Machine Learning techniques, and particularly Deep Neural Networks, have been employed in the development of SF for affinity prediction. In this work, we present the development of SFs based on Convolutional Neural Networks and Residual Neural Networks models using the DockTDeep program, developed by GMMSB, aiming to enable the use of such functions in SBVS applications. Several analyses of the influence of the main elements used in the construction of the predictive model, such as voxel grid-based representation and treatment of protein-ligand complex data, cost functions for model optimization, regularization strategies and data augmentation techniques, as well as analyses regarding the biases of the data sets and their representations, are also performed. The developed models obtained competitive results compared to other scoring functions present in the literature, reaching 𝑅 = 0.721 in CASF-2016 and 𝑅 = 0.718 in CASF-2013, while starting from a simpler construction that dispenses the use of descriptors manually selected by molecular modeling experts. Such results demonstrate the practical feasibility and potential of using Deep Neural Network-based scoring functions for SBVS applications.Conselho Nacional de Desenvolvimento Científico e TecnológicoLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalDardenne, Laurent EmmanuelDardenne, Laurent EmmanuelCustódio , Fábio LimaFerreira, Rafaela SalgadoBarreto, André da Motta SallesVidal, Lincon Onório2023-04-06T18:31:27Z2022-03-04info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVIDAL, L. O. Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas. 2022. 86 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.https://tede.lncc.br/handle/tede/349porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-06-02T15:09:08Zoai:tede-server.lncc.br:tede/349Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-06-02T15:09:08Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
title Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
spellingShingle Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
Vidal, Lincon Onório
Planejamento de fármacos
Aprendizado por computador
Redes neurais (Computação)
DockTDeep (Programa de computador)
CNPQ::CIENCIAS BIOLOGICAS::FARMACOLOGIA
title_short Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
title_full Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
title_fullStr Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
title_full_unstemmed Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
title_sort Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas
author Vidal, Lincon Onório
author_facet Vidal, Lincon Onório
author_role author
dc.contributor.none.fl_str_mv Dardenne, Laurent Emmanuel
Dardenne, Laurent Emmanuel
Custódio , Fábio Lima
Ferreira, Rafaela Salgado
Barreto, André da Motta Salles
dc.contributor.author.fl_str_mv Vidal, Lincon Onório
dc.subject.por.fl_str_mv Planejamento de fármacos
Aprendizado por computador
Redes neurais (Computação)
DockTDeep (Programa de computador)
CNPQ::CIENCIAS BIOLOGICAS::FARMACOLOGIA
topic Planejamento de fármacos
Aprendizado por computador
Redes neurais (Computação)
DockTDeep (Programa de computador)
CNPQ::CIENCIAS BIOLOGICAS::FARMACOLOGIA
description As metodologias CADD (computer-aided drug design) têm sido utilizadas com êxito na busca de novos e mais seguros candidatos a medicamentos farmacêuticos, ajudando a reduzir os altos custos envolvidos no desenvolvimento de novos compostos. Um dos principais métodos de CADD é a triagem virtual baseada em estrutura (SBVS, do inglês structure-based virtual screening), na qual extensas bibliotecas de compostos e alvos moleculares são avaliados computacionalmente a fim de classificá-los biologicamente como compostos ativos ou inativos. Neste contexto, uma função de pontuação (scoring function, SF) é usada para prever o valor da afinidade entre um composto ligado a um alvo proteico de interesse, tendo um papel crucial nos métodos de SBVS. Mais recentemente, técnicas de Aprendizagem de Máquina e, particularmente, Redes Neurais Profundas, vêm sendo empregadas no desenvolvimento de SF para a predição da afinidade. Neste trabalho, apresentamos o desenvolvimento de SFs baseadas em modelos de Redes Neurais Convolutivas e Redes Neurais Residuais com o uso do programa DockTDeep, desenvolvido pelo GMMSB, visando possibilitar o uso de tais funções em aplicações de SBVS. São realizadas também diversas análises da influência dos principais componentes utilizados na construção do modelo preditivo, como a representação baseada em grade de voxel e tratamento de dados de complexos proteína-ligante, funções de custo para otimização do modelo, estratégias de regularização e técnicas de aumento de dados, bem como análises em relação aos vieses dos conjuntos de dados e suas representações. Os modelos desenvolvidos obtiveram resultados competitivos em relação a outras funções de pontuação presentes na literatura, atingindo 𝑅 = 0.721 no CASF-2016 e 𝑅 = 0.718 no CASF-2013, ao mesmo tempo que partem de uma construção mais simples que dispensa o uso de descritores manualmente selecionados por especialistas em modelagem molecular. Tais resultados demonstram a viabilidade prática e potencial do uso de funções de pontuação baseadas em Redes Neurais Profundas para aplicações de SBVS.
publishDate 2022
dc.date.none.fl_str_mv 2022-03-04
2023-04-06T18:31:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VIDAL, L. O. Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas. 2022. 86 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.
https://tede.lncc.br/handle/tede/349
identifier_str_mv VIDAL, L. O. Desenvolvimento de funções de pontuação para predição de afinidade proteína-ligante utilizando Redes Neurais Profundas. 2022. 86 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2022.
url https://tede.lncc.br/handle/tede/349
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1816081207272669184