Função de escore baseada em machine learning para docagem molecular proteína-ligante
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da FURG (RI FURG) |
Texto Completo: | http://repositorio.furg.br/handle/1/9982 |
Resumo: | No desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016. |
id |
FURG_7c29304dbe6172f071c16771adc02f16 |
---|---|
oai_identifier_str |
oai:repositorio.furg.br:1/9982 |
network_acronym_str |
FURG |
network_name_str |
Repositório Institucional da FURG (RI FURG) |
repository_id_str |
|
spelling |
Função de escore baseada em machine learning para docagem molecular proteína-liganteA machine learning scoring function for protein–ligand dockingBioinformáticaDocagem molecularFunção de escoreAprendizado de máquinaSeleção de atributosOtimização de parâmetrosBioinformaticMolecular dockingScoring functionMachine learningFeature selectionHyperparameters optimizationNo desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016.In the field of drug design, scoring functions are useful for predicting the binding affinity of protein-ligand complexes. The machine learning approach is showing a promising performance as a result of the increasing amount of data regarding biochemical and biophysical processes, obtained from previous experiments. The aim of this work was to develop a scoring function based on machine learning method for protein-ligand molecular docking. The current methodology was designed from related works available in the literature, where the information about protein-ligand complexes that are used like training collection were obtained; features of proteins, features of ligands and interactions between them the are used as descriptors; machine learning methods that are to used to train models, including feature selection techniques and hyperparameters optimization; and test sets that are used to evaluate scoring functions. To compile the training set were studied: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ and Decoys CSAR-NRC HiQ. As atributes set where seen: geometrical features, SFCscore features, AutoDock Vina features and score, solvent-accessible surface area features, DeltaVinaRF20 features, protein primary structure features, descriptors related to protein secundary structure, features from PaDEL Descriptor, NNScore 2.0 interactions features, Features 2D/3D from RDKit. Random Forest and Gaussian Process were compared as machine learning methods, in addition to LASSO to calculate the weights of the attributes and GridSearchCV as a technique to hyperparameters optimization. The proposed scoring function will be evaluated using the CASF-2016 benchmark, based on the following parameters: Scoring Power, Ranking Power, Docking Power and Screening Power. For the Scoring Power test, the proposed scoring function achieves a Pearson correlation coefficient between predicted affinities and experimental measured affinities of 0.81 versus 0.816 achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Ranking Power, the proposed scoring function achieves a Spearman correlation coefficient between the ranks based on the predicted affinities values and the experimentally values measured of 0.66 versus 0.75 achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Docking Power test, the proposed scoring function has obtain a 86% success rate in identifying the top best-scored ligand binding pose below 2 Å root-mean-square deviation from the native pose compared to 90.2% achieved by the best scoring function in CASF-2016 (AutoDock Vina). For the Docking Power test without native pose, the proposed scoring function has obtain a success rate of 83.8% versus 84.9% achieved by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Forward Screening Power test, the proposed scoring function has a got 26.5% success rate to identifying potential small-molecule ligands for a chosen target protein at the top 1% level versus 42.1% by the best scoring function in CASF-2016 (DeltaVinaRF20). For the Reverse Screening Power test, the proposed scoring function achieve a 18.5% success rate in identifying potential target proteins for a bioactive small-molecule compound at the top 1% level and was the best scoring function in CASF-2016.Machado, Karina dos SantosWerhli, Adriano VelasqueAderhold, AndrejArce, Oscar Emilio Arrua2021-12-17T14:12:39Z2021-12-17T14:12:39Z2020info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfARCE, Oscar Emilio Arrua. Função de escore baseada em machine learning para docagem molecular proteína-ligante. 2020. 370 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2020.http://repositorio.furg.br/handle/1/9982porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FURG (RI FURG)instname:Universidade Federal do Rio Grande (FURG)instacron:FURG2022-10-10T18:37:30Zoai:repositorio.furg.br:1/9982Repositório InstitucionalPUBhttps://repositorio.furg.br/oai/request || http://200.19.254.174/oai/requestopendoar:2022-10-10T18:37:30Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG)false |
dc.title.none.fl_str_mv |
Função de escore baseada em machine learning para docagem molecular proteína-ligante A machine learning scoring function for protein–ligand docking |
title |
Função de escore baseada em machine learning para docagem molecular proteína-ligante |
spellingShingle |
Função de escore baseada em machine learning para docagem molecular proteína-ligante Arce, Oscar Emilio Arrua Bioinformática Docagem molecular Função de escore Aprendizado de máquina Seleção de atributos Otimização de parâmetros Bioinformatic Molecular docking Scoring function Machine learning Feature selection Hyperparameters optimization |
title_short |
Função de escore baseada em machine learning para docagem molecular proteína-ligante |
title_full |
Função de escore baseada em machine learning para docagem molecular proteína-ligante |
title_fullStr |
Função de escore baseada em machine learning para docagem molecular proteína-ligante |
title_full_unstemmed |
Função de escore baseada em machine learning para docagem molecular proteína-ligante |
title_sort |
Função de escore baseada em machine learning para docagem molecular proteína-ligante |
author |
Arce, Oscar Emilio Arrua |
author_facet |
Arce, Oscar Emilio Arrua |
author_role |
author |
dc.contributor.none.fl_str_mv |
Machado, Karina dos Santos Werhli, Adriano Velasque Aderhold, Andrej |
dc.contributor.author.fl_str_mv |
Arce, Oscar Emilio Arrua |
dc.subject.por.fl_str_mv |
Bioinformática Docagem molecular Função de escore Aprendizado de máquina Seleção de atributos Otimização de parâmetros Bioinformatic Molecular docking Scoring function Machine learning Feature selection Hyperparameters optimization |
topic |
Bioinformática Docagem molecular Função de escore Aprendizado de máquina Seleção de atributos Otimização de parâmetros Bioinformatic Molecular docking Scoring function Machine learning Feature selection Hyperparameters optimization |
description |
No desenho de fármacos, as scoring functions ou funções de escore são úteis para prever as afinidades de ligação dos complexos proteína-ligante. O constante aumento dos dados bioquímicos e biofísicos, juntamente com o trabalho experimental, permitiu que as funções de escore baseadas em machine learning apresentassem resultados promissores. O objetivo deste trabalho foi desenvolver uma função de escore baseada em machine learning para docagem molecular proteína-ligante. A metodologia aplicada nesta dissertação foi elaborada a partir dos trabalhos relacionados disponíveis na literatura, dos quais foram extraídos informações sobre coleções de complexos proteína-ligante que são utilizados como conjunto de treinamento; atributos das proteínas, dos ligantes e informações geradas das interações entre eles utilizadas como descritores; métodos de machine learning utilizados para treinar modelos, incluindo técnicas de seleção de atributos e otimização de parâmetros; e conjuntos de testes utilizados para avaliar as funções de escore. Para compilar o conjunto de treinamento, foram estudados: PDBbind refined set, PDBbind general set, CSAR-NRC HiQ e Decoys CSAR-NRC HiQ. Como grupos de atributos foram vistos: descritores geométricos, descritores do SFCscore, descritores e escore do AutoDock Vina, descritores relacionados à área de superfície acessível ao solvente, descritores do DeltaVinaRF20, descritores relacionados à sequência de aminoácidos, descritores relacionados à estrutura secundária de as proteínas, atributos dos ligantes gerados com o PaDEL Descriptor, descritores de interação proteína-ligante utilizados no NNscore 2.0 e descritores 2D/3D gerados com RDKit. Como métodos machine learning foram comparados o Random Forest e o Gaussian Process, além do LASSO para calcular os pesos dos atributos e o GridSearchCV como técnica para otimizar os parâmetros. A função de escore proposta foi avaliada com o benchmark CASF-2016 em relação a quatro métricas: Scoring Power, Ranking Power, Docking Power e Screening Power. No teste do Scoring Power, a função de escore proposta alcançou um coeficiente de correlação de Pearson entre as afinidades previstas e as afinidades medidas experimentalmente de 0.81 contra os 0.816 alcançados pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Ranking Power, a função de escore proposta atingiu um coeficiente de correlação de Spearman entre a classificação, com base nos valores de afinidade previstos e os valores medidos experimentalmente de 0.66 contra os 0.75 atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste do Docking Power, a função de escore proposta alcançou uma taxa de sucesso de 86% para identificar a melhor pose de união com RMSD abaixo de 2 Å da pose nativa, em comparação com 90.2% alcançados pela melhor função de escore no CASF-2016 (AutoDock Vina). No teste do Docking Power sem considerar a pose nativa, a função de escore proposta atingiu uma taxa de sucesso de 83.8% contra os 84.9% atingidos pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Forward Screening Power, a função de escore proposta obteve uma taxa de sucesso de 26.5% para identificar ligantes ativos entre moléculas aleatórias para uma proteína alvo no top 1% da classificação, em comparação com 42.1% obtida pela melhor função de escore no CASF-2016 (DeltaVinaRF20). No teste de Reverse Screening Power, a função de escore proposta alcançou uma taxa de sucesso de 18.5% para identificar proteínas-alvo potenciais para um ligante específico no top 1% da classificação, obtendo a melhor pontuação no CASF-2016. |
publishDate |
2020 |
dc.date.none.fl_str_mv |
2020 2021-12-17T14:12:39Z 2021-12-17T14:12:39Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
ARCE, Oscar Emilio Arrua. Função de escore baseada em machine learning para docagem molecular proteína-ligante. 2020. 370 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2020. http://repositorio.furg.br/handle/1/9982 |
identifier_str_mv |
ARCE, Oscar Emilio Arrua. Função de escore baseada em machine learning para docagem molecular proteína-ligante. 2020. 370 f. Dissertação (Mestrado em Engenharia da Computação) – Centro de Ciências Computacionais, Universidade Federal do Rio Grande, Rio Grande, 2020. |
url |
http://repositorio.furg.br/handle/1/9982 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da FURG (RI FURG) instname:Universidade Federal do Rio Grande (FURG) instacron:FURG |
instname_str |
Universidade Federal do Rio Grande (FURG) |
instacron_str |
FURG |
institution |
FURG |
reponame_str |
Repositório Institucional da FURG (RI FURG) |
collection |
Repositório Institucional da FURG (RI FURG) |
repository.name.fl_str_mv |
Repositório Institucional da FURG (RI FURG) - Universidade Federal do Rio Grande (FURG) |
repository.mail.fl_str_mv |
|
_version_ |
1813187253258682368 |