Função de escore baseada em machine learning para docagem molecular proteína-ligante

Detalhes bibliográficos
Autor(a) principal: Arce, Oscar Emilio Arrua
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da FURG (RI FURG)
Texto Completo: http://repositorio.furg.br/handle/1/9982
Resumo: No desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016.
id FURG_7c29304dbe6172f071c16771adc02f16
oai_identifier_str oai:repositorio.furg.br:1/9982
network_acronym_str FURG
network_name_str Repositório Institucional da FURG (RI FURG)
repository_id_str
spelling Função de escore baseada em machine learning para docagem molecular proteína-liganteA machine learning scoring function for protein–ligand dockingBioinformáticaDocagem molecularFunção de escoreAprendizado de máquinaSeleção de atributosOtimização de parâmetrosBioinformaticMolecular dockingScoring functionMachine learningFeature selectionHyperparameters optimizationNo desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016.In the field of drug design, scoring functions are useful for predicting the binding affinity of protein-ligand complexes. The machine learning approach is showing a promising performance as a result of the increasing amount of data regarding biochemical and biophysical processes, obtained from previous experiments. The aim of this work was to develop a scoring function based on machine learning method for protein-ligand molecular docking. The current methodology was designed from related works available in the literature, where the information about protein-ligand complexes that are used like training collection were obtained; features of proteins, features of ligands and interactions between them the are used as descriptors; machine learning methods that are to used to train models, including feature selection techniques and hyperparameters optimization; and test sets that are used to evaluate scoring functions. To compile the training set were studied: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ and Decoys CSAR-NRC HiQ. As atributes set where seen: geometrical features, SFCscore features, AutoDock Vina features and score, solvent-accessible surface area features, DeltaVinaRF20 features, protein primary structure features, descriptors related to protein secundary structure, features from PaDEL Descriptor, NNScore 2.0 interactions features, Features 2D/3D from RDKit. Random Forest and Gaussian Process were compared as machine learning methods, in addition to LASSO to calculate the weights of the attributes and GridSearchCV as a technique to hyperparameters optimization. The proposed scoring function will be evaluated using the CASF-2016 benchmark, based on the following parameters: Scoring Power, Ranking Power, Docking Power and Screening Power. For the Scoring Power test, the proposed scoring function achieves a Pearson correlation coefficient between predicted affinities and experimental measured affinities of 0.81 versus 0.816 achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Ranking Power, the proposed scoring function achieves a Spearman correlation coefficient between the ranks based on the predicted affinities values and the experimentally values measured of 0.66 versus 0.75 achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Docking Power test, the proposed scoring function has obtain a 86% success rate in identifying the top best-scored ligand binding pose below 2 Å root-mean-square deviation from the native pose compared to 90.2% achieved by the best scoring function in CASF-2016 (AutoDock Vina). For the Docking Power test without native pose, the proposed scoring function has obtain a success rate of 83.8% versus 84.9% achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Forward Screening Power test, the proposed scoring function has a got 26.5% success rate to identifying potential small-molecule ligands for a chosen target protein at the top 1% level versus 42.1% by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Reverse Screening Power test, the proposed scoring function achieve a 18.5% success rate in identifying potential target proteins for a bioactive small-molecule compound at the top 1% level and was the best scoring function in CASF-2016.Machado, Karina dos SantosWerhli, Adriano VelasqueAderhold, AndrejArce, Oscar Emilio Arrua2021-12-17T14:12:39Z2021-12-17T14:12:39Z2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfARCE, Oscar Emilio Arrua. Função de escore baseada em machine learning para docagem molecular proteína-ligante. 2020. 370 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2020.http://repositorio.furg.br/handle/1/9982porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FURG (RI FURG)instname:Universidade Federal do Rio Grande (FURG)instacron:FURG2022-10-10T18:37:30Zoai:repositorio.furg.br:1/9982Repositório InstitucionalPUBhttps://repositorio.furg.br/oai/request || http://200.19.254.174/oai/requestopendoar:2022-10-10T18:37:30Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)false
dc.title.none.fl_str_mv Função de escore baseada em machine learning para docagem molecular proteína-ligante
A machine learning scoring function for protein–ligand docking
title Função de escore baseada em machine learning para docagem molecular proteína-ligante
spellingShingle Função de escore baseada em machine learning para docagem molecular proteína-ligante
Arce, Oscar Emilio Arrua
Bioinformática
Docagem molecular
Função de escore
Aprendizado de máquina
Seleção de atributos
Otimização de parâmetros
Bioinformatic
Molecular docking
Scoring function
Machine learning
Feature selection
Hyperparameters optimization
title_short Função de escore baseada em machine learning para docagem molecular proteína-ligante
title_full Função de escore baseada em machine learning para docagem molecular proteína-ligante
title_fullStr Função de escore baseada em machine learning para docagem molecular proteína-ligante
title_full_unstemmed Função de escore baseada em machine learning para docagem molecular proteína-ligante
title_sort Função de escore baseada em machine learning para docagem molecular proteína-ligante
author Arce, Oscar Emilio Arrua
author_facet Arce, Oscar Emilio Arrua
author_role author
dc.contributor.none.fl_str_mv Machado, Karina dos Santos
Werhli, Adriano Velasque
Aderhold, Andrej
dc.contributor.author.fl_str_mv Arce, Oscar Emilio Arrua
dc.subject.por.fl_str_mv Bioinformática
Docagem molecular
Função de escore
Aprendizado de máquina
Seleção de atributos
Otimização de parâmetros
Bioinformatic
Molecular docking
Scoring function
Machine learning
Feature selection
Hyperparameters optimization
topic Bioinformática
Docagem molecular
Função de escore
Aprendizado de máquina
Seleção de atributos
Otimização de parâmetros
Bioinformatic
Molecular docking
Scoring function
Machine learning
Feature selection
Hyperparameters optimization
description No desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016.
publishDate 2020
dc.date.none.fl_str_mv 2020
2021-12-17T14:12:39Z
2021-12-17T14:12:39Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ARCE, Oscar Emilio Arrua. Função de escore baseada em machine learning para docagem molecular proteína-ligante. 2020. 370 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2020.
http://repositorio.furg.br/handle/1/9982
identifier_str_mv ARCE, Oscar Emilio Arrua. Função de escore baseada em machine learning para docagem molecular proteína-ligante. 2020. 370 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2020.
url http://repositorio.furg.br/handle/1/9982
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da FURG (RI FURG)
instname:Universidade Federal do Rio Grande (FURG)
instacron:FURG
instname_str Universidade Federal do Rio Grande (FURG)
instacron_str FURG
institution FURG
reponame_str Repositório Institucional da FURG (RI FURG)
collection Repositório Institucional da FURG (RI FURG)
repository.name.fl_str_mv Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)
repository.mail.fl_str_mv
_version_ 1813187253258682368