Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais

Detalhes bibliográficos
Autor(a) principal: Oliveira, Tiago Branquinho
Data de Publicação: 2015
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/60/60138/tde-28102015-155052/
Resumo: Com o surgimento da era computacional com especial aplicação em química, as substâncias de origem naturais puderam ter suas informações armazenadas em bancos de dados. Desta forma, surge a oportunidade de se empregar bancos de dados de produtos naturais e de algumas ferramentas de quimioinformática como os estudos de Quantitative Structure-Retention Relationship (QSRR) para acelerar a identificação de substâncias em estudos metabolômicos. Este trabalho propôs o desenvolvimento de três estudos de QSRR, bem como a construção de um banco de dados (AsterDB) com estruturas químicas da família Asteraceae e informações a elas associadas (ex.: ocorrências botânicas e taxonômicas, atividade biológica, informações analíticas etc.) para auxiliar a desreplicação de substâncias em extratos vegetais. O primeiro estudo foi elaborado com 39 lactonas sesquiterpênicas (LST) analisadas em dois diferentes sistemas de solventes (MeOH-H2O 55:45 e MeCN-H2O 35:65), três grupos de descritores estruturais (2D-descr, 3D-1conf e 3D-weigh), dois diferentes conjuntos para treino e teste (26:13 e 29:10), quatro algoritmos para seleção de descritores (best first, linear forward - LFS, greedy stepwise e algoritmo genético - GA), três diferentes tamanhos de modelos (quatro, cinco e seis descritores) e dois métodos de modelagem (mínimos quadrados parciais - PLS e redes neurais artificiais - ANN). O segundo foi desenvolvido com 50 substâncias de diferentes classes químicas com intuito de avaliar as diferenças entre substâncias analisadas individualmente e em mistura em três diferentes equipamentos e dois métodos cromatográficos. O terceiro foi elaborado com 2.635 estruturas químicas com um teste externo comum a todos os modelos (25%, n = 656), três métodos de separação para teste e treino (partição baseada na resposta e baseada nos preditores 2D e 3D), três diferentes tamanhos de modelos selecionados por GA e dois métodos de modelagem (MLR e redes neurais feed-forward com regularização bayesiana - BRNN). O banco de dados AsterDB foi desenvolvido para ser preenchido de forma gradual e atualmente possui cerca de 2.000 estruturas químicas. O primeiro estudo de QSRR gerou bons modelos capazes de estimar o logaritmo do fator de retenção (logk) das LST com P2>0,81 para o sistema MeCN-H2O. O segundo estudo mostrou que não houve diferença estatística entre as substâncias analisadas individualmente e em mistura (p-valor>0,95) e que a correlação entre os dois métodos cromatográficos e equipamentos utilizados foi reprodutível (R>0,95). Estas análises mostraram que foi possível desenvolver modelos de QSRR para um método cromatográfico e equipamento e transpô-los para outro equipamento seguindo o uso de substâncias em comum. O terceiro estudo produziu modelos com boa capacidade de predição (P2>0,81) utilizando alta amplitude de espaço químico e rigor estatístico. Conclui-se que, estas informações podem ser utilizadas como uma plataforma piloto para análises de dados com objetivo de auxiliar na desreplicação de extratos de plantas em estudos metabolômicos
id USP_6f73099074eeccaad43a2c35e6731dde
oai_identifier_str oai:teses.usp.br:tde-28102015-155052
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetaisApplication of chemoinformatic tools in the study of plant metabolic profiles and dereplicationBanco de dadosCheminformaticsChemoinformaticsDatabaseEstimar tempo de retençãoNatural productsProdutos naturaisQSRRQuimioinformáticaCom o surgimento da era computacional com especial aplicação em química, as substâncias de origem naturais puderam ter suas informações armazenadas em bancos de dados. Desta forma, surge a oportunidade de se empregar bancos de dados de produtos naturais e de algumas ferramentas de quimioinformática como os estudos de Quantitative Structure-Retention Relationship (QSRR) para acelerar a identificação de substâncias em estudos metabolômicos. Este trabalho propôs o desenvolvimento de três estudos de QSRR, bem como a construção de um banco de dados (AsterDB) com estruturas químicas da família Asteraceae e informações a elas associadas (ex.: ocorrências botânicas e taxonômicas, atividade biológica, informações analíticas etc.) para auxiliar a desreplicação de substâncias em extratos vegetais. O primeiro estudo foi elaborado com 39 lactonas sesquiterpênicas (LST) analisadas em dois diferentes sistemas de solventes (MeOH-H2O 55:45 e MeCN-H2O 35:65), três grupos de descritores estruturais (2D-descr, 3D-1conf e 3D-weigh), dois diferentes conjuntos para treino e teste (26:13 e 29:10), quatro algoritmos para seleção de descritores (best first, linear forward - LFS, greedy stepwise e algoritmo genético - GA), três diferentes tamanhos de modelos (quatro, cinco e seis descritores) e dois métodos de modelagem (mínimos quadrados parciais - PLS e redes neurais artificiais - ANN). O segundo foi desenvolvido com 50 substâncias de diferentes classes químicas com intuito de avaliar as diferenças entre substâncias analisadas individualmente e em mistura em três diferentes equipamentos e dois métodos cromatográficos. O terceiro foi elaborado com 2.635 estruturas químicas com um teste externo comum a todos os modelos (25%, n = 656), três métodos de separação para teste e treino (partição baseada na resposta e baseada nos preditores 2D e 3D), três diferentes tamanhos de modelos selecionados por GA e dois métodos de modelagem (MLR e redes neurais feed-forward com regularização bayesiana - BRNN). O banco de dados AsterDB foi desenvolvido para ser preenchido de forma gradual e atualmente possui cerca de 2.000 estruturas químicas. O primeiro estudo de QSRR gerou bons modelos capazes de estimar o logaritmo do fator de retenção (logk) das LST com P2>0,81 para o sistema MeCN-H2O. O segundo estudo mostrou que não houve diferença estatística entre as substâncias analisadas individualmente e em mistura (p-valor>0,95) e que a correlação entre os dois métodos cromatográficos e equipamentos utilizados foi reprodutível (R>0,95). Estas análises mostraram que foi possível desenvolver modelos de QSRR para um método cromatográfico e equipamento e transpô-los para outro equipamento seguindo o uso de substâncias em comum. O terceiro estudo produziu modelos com boa capacidade de predição (P2>0,81) utilizando alta amplitude de espaço químico e rigor estatístico. Conclui-se que, estas informações podem ser utilizadas como uma plataforma piloto para análises de dados com objetivo de auxiliar na desreplicação de extratos de plantas em estudos metabolômicosAfter the emergence of the computing era with special application in chemistry, all substances from natural sources might have their information stored in databases. Therefore, the opportunity arises to employ natural product databases and some chemoinformatic tools such as QSRR studies to speed up the identification of substances from metabolomic studies. This paper proposes the development of three QSRR studies as well as the building of a database (AsterDB) with chemical structures from the Asteraceae family and related information (i.e.: botanical and taxonomic occurrences, biological activity, analytical information, etc.) aiming to assist the dereplication of substances in plant extracts. The first study was carried out with 39 sesquiterpene lactones (STLs) analysed using two different solvent systems (MeOH-H2O 55:45 and MeCN-H2O 35:65), three groups of structural descriptors (2D-descr, 3D-1conf, and 3D-weigh), two different sets for training and testing (26:13 and 29:10), four algorithms for selection of descriptors (best first, LFS, greedy stepwise, and GA), three different model sizes (four, five, and six descriptors) and two modelling methods (PLS and ANN). The second study was developed with 50 compounds of different chemical classification in order to assess the differences between individual and mixed compounds analysed in three different equipments and two chromatographic methods. The third was elaborated with 2,635 chemical structures with a common external test to all models (25%, n = 656), three separation methods for testing- and training-set (based on response and on 2D and 3D predictors partitions), three different sizes of models selected by GA and two modelling methods (MLR and BrNN). The AsterDB database was developed to be populated gradually and currently, it has about 2,000 chemical structures. The first QSRR study generated good models, able to estimate the logarithm of the retention factor (logk) of STLs with P2>0.81 for the MeCN-H2O system. The second study showed that there was no statistical difference between the substances analysed individually and mixed (p-value>0.95) and the correlation between the two chromatographic methods and equipments used was reproducible (R>0.95). These analyses showed that it was possible to develop QSRR models for a chromatographic method and equipment and translate them into other equipment following the use of substances in common. The third study produced models with good predictive capacity (P2>0.81) using a high range of chemical space and statistical accuracy. In conclusion, this information can be used as a pilot platform for data analysis in order to assist in plant dereplication in metabolomics studiesBiblioteca Digitais de Teses e Dissertações da USPCosta, Fernando Batista daOliveira, Tiago Branquinho2015-09-10info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/60/60138/tde-28102015-155052/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2017-10-27T05:00:13Zoai:teses.usp.br:tde-28102015-155052Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212017-10-27T05:00:13Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
Application of chemoinformatic tools in the study of plant metabolic profiles and dereplication
title Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
spellingShingle Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
Oliveira, Tiago Branquinho
Banco de dados
Cheminformatics
Chemoinformatics
Database
Estimar tempo de retenção
Natural products
Produtos naturais
QSRR
Quimioinformática
title_short Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
title_full Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
title_fullStr Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
title_full_unstemmed Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
title_sort Emprego de ferramentas de quimioinformática no estudo do perfil metabólico de plantas e na desreplicação de matrizes vegetais
author Oliveira, Tiago Branquinho
author_facet Oliveira, Tiago Branquinho
author_role author
dc.contributor.none.fl_str_mv Costa, Fernando Batista da
dc.contributor.author.fl_str_mv Oliveira, Tiago Branquinho
dc.subject.por.fl_str_mv Banco de dados
Cheminformatics
Chemoinformatics
Database
Estimar tempo de retenção
Natural products
Produtos naturais
QSRR
Quimioinformática
topic Banco de dados
Cheminformatics
Chemoinformatics
Database
Estimar tempo de retenção
Natural products
Produtos naturais
QSRR
Quimioinformática
description Com o surgimento da era computacional com especial aplicação em química, as substâncias de origem naturais puderam ter suas informações armazenadas em bancos de dados. Desta forma, surge a oportunidade de se empregar bancos de dados de produtos naturais e de algumas ferramentas de quimioinformática como os estudos de Quantitative Structure-Retention Relationship (QSRR) para acelerar a identificação de substâncias em estudos metabolômicos. Este trabalho propôs o desenvolvimento de três estudos de QSRR, bem como a construção de um banco de dados (AsterDB) com estruturas químicas da família Asteraceae e informações a elas associadas (ex.: ocorrências botânicas e taxonômicas, atividade biológica, informações analíticas etc.) para auxiliar a desreplicação de substâncias em extratos vegetais. O primeiro estudo foi elaborado com 39 lactonas sesquiterpênicas (LST) analisadas em dois diferentes sistemas de solventes (MeOH-H2O 55:45 e MeCN-H2O 35:65), três grupos de descritores estruturais (2D-descr, 3D-1conf e 3D-weigh), dois diferentes conjuntos para treino e teste (26:13 e 29:10), quatro algoritmos para seleção de descritores (best first, linear forward - LFS, greedy stepwise e algoritmo genético - GA), três diferentes tamanhos de modelos (quatro, cinco e seis descritores) e dois métodos de modelagem (mínimos quadrados parciais - PLS e redes neurais artificiais - ANN). O segundo foi desenvolvido com 50 substâncias de diferentes classes químicas com intuito de avaliar as diferenças entre substâncias analisadas individualmente e em mistura em três diferentes equipamentos e dois métodos cromatográficos. O terceiro foi elaborado com 2.635 estruturas químicas com um teste externo comum a todos os modelos (25%, n = 656), três métodos de separação para teste e treino (partição baseada na resposta e baseada nos preditores 2D e 3D), três diferentes tamanhos de modelos selecionados por GA e dois métodos de modelagem (MLR e redes neurais feed-forward com regularização bayesiana - BRNN). O banco de dados AsterDB foi desenvolvido para ser preenchido de forma gradual e atualmente possui cerca de 2.000 estruturas químicas. O primeiro estudo de QSRR gerou bons modelos capazes de estimar o logaritmo do fator de retenção (logk) das LST com P2>0,81 para o sistema MeCN-H2O. O segundo estudo mostrou que não houve diferença estatística entre as substâncias analisadas individualmente e em mistura (p-valor>0,95) e que a correlação entre os dois métodos cromatográficos e equipamentos utilizados foi reprodutível (R>0,95). Estas análises mostraram que foi possível desenvolver modelos de QSRR para um método cromatográfico e equipamento e transpô-los para outro equipamento seguindo o uso de substâncias em comum. O terceiro estudo produziu modelos com boa capacidade de predição (P2>0,81) utilizando alta amplitude de espaço químico e rigor estatístico. Conclui-se que, estas informações podem ser utilizadas como uma plataforma piloto para análises de dados com objetivo de auxiliar na desreplicação de extratos de plantas em estudos metabolômicos
publishDate 2015
dc.date.none.fl_str_mv 2015-09-10
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/60/60138/tde-28102015-155052/
url http://www.teses.usp.br/teses/disponiveis/60/60138/tde-28102015-155052/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257444591337472