On the analysis of remd protein structure prediction simulations for reducing volume of analytical data

Detalhes bibliográficos
Autor(a) principal: Macedo, Rafael Cauduro Oliveira
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/8268
Resumo: Proteínas executam um papel vital em todos os seres vivos, mediando uma série de processos necessários para a vida. Apesar de existirem maneiras de determinar a composição dessas moléculas, ainda falta-nos conhecimentos suficiente para determinar de uma maneira rápida e barata a sua estrutura 3D, que desempenha um papel importante na suas funções. Um dos principais métodos computacionais aplicados ao estudo das proteínas e o seu processo de enovelamento, o qual determina a sua estrutura, é Dinâmica Molecular. Um aprimoramento deste método, conhecido como Replica Exchange Molecular Dynamics (ou REMD), é capaz de produzir resultados muito melhores, com o revés de significativamente aumentar o seu custo computacional e gerar um volume muito maior de dados. Esta dissertação apresenta um novo método de otimização deste método, intitulado Filtragem de Dados Analíticos, que tem como objetivo otimizar a análise pós-simulação filtrando as estruturas preditas insatisfatórias através do uso de métricas de qualidade absolutas. A metodologia proposta tem o potencial de operar em conjunto com outras abordagens de otimização e também cobrir uma área ainda não abordada por elas. Adiante, a ferramenta SnapFi é apresentada, a qual foi designada especialmente para o propósito de filtrar estruturas preditas insatisfatórias e ainda operar em conjunto com as diferentes abordagens de otimização do método REMD. Um estudo foi então conduzido sobre um conjunto teste de simulações REMD de predição de estruturas de proteínas afim de elucidar uma séries de hipóteses formuladas sobre o impacto das diferentes temperaturas na qualidade final do conjunto de estruturas preditas do processo REMD, a eficiência das diferentes métricas de qualidade absolutas e uma possível configuração de filtragem que utiliza essas métricas. Foi observado que as temperaturas mais altas do método REMD para predição de estruturas de proteínas podem ser descartadas de forma segura da análise posterior ao seu término e também que as métricas de qualidade absolutas possuem uma alta variância (em termos de qualidade) entre diferentes simulações de predições de estruturas de proteínas. Além disso, foi observado que diferentes configurações de filtragem que utilize tais métricas carrega consigo esta variância.
id P_RS_f3c7da130ba64e03f4c32376e8e7b85c
oai_identifier_str oai:tede2.pucrs.br:tede/8268
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Souza, Osmar Norberto dehttp://lattes.cnpq.br/0608337674042057http://lattes.cnpq.br/8227762542415162Macedo, Rafael Cauduro Oliveira2018-09-04T12:47:15Z2017-08-30http://tede2.pucrs.br/tede2/handle/tede/8268Proteínas executam um papel vital em todos os seres vivos, mediando uma série de processos necessários para a vida. Apesar de existirem maneiras de determinar a composição dessas moléculas, ainda falta-nos conhecimentos suficiente para determinar de uma maneira rápida e barata a sua estrutura 3D, que desempenha um papel importante na suas funções. Um dos principais métodos computacionais aplicados ao estudo das proteínas e o seu processo de enovelamento, o qual determina a sua estrutura, é Dinâmica Molecular. Um aprimoramento deste método, conhecido como Replica Exchange Molecular Dynamics (ou REMD), é capaz de produzir resultados muito melhores, com o revés de significativamente aumentar o seu custo computacional e gerar um volume muito maior de dados. Esta dissertação apresenta um novo método de otimização deste método, intitulado Filtragem de Dados Analíticos, que tem como objetivo otimizar a análise pós-simulação filtrando as estruturas preditas insatisfatórias através do uso de métricas de qualidade absolutas. A metodologia proposta tem o potencial de operar em conjunto com outras abordagens de otimização e também cobrir uma área ainda não abordada por elas. Adiante, a ferramenta SnapFi é apresentada, a qual foi designada especialmente para o propósito de filtrar estruturas preditas insatisfatórias e ainda operar em conjunto com as diferentes abordagens de otimização do método REMD. Um estudo foi então conduzido sobre um conjunto teste de simulações REMD de predição de estruturas de proteínas afim de elucidar uma séries de hipóteses formuladas sobre o impacto das diferentes temperaturas na qualidade final do conjunto de estruturas preditas do processo REMD, a eficiência das diferentes métricas de qualidade absolutas e uma possível configuração de filtragem que utiliza essas métricas. Foi observado que as temperaturas mais altas do método REMD para predição de estruturas de proteínas podem ser descartadas de forma segura da análise posterior ao seu término e também que as métricas de qualidade absolutas possuem uma alta variância (em termos de qualidade) entre diferentes simulações de predições de estruturas de proteínas. Além disso, foi observado que diferentes configurações de filtragem que utilize tais métricas carrega consigo esta variância.Proteins perform a vital role in all living beings, mediating a series of processes necessary to life. Although we have ways to determine the composition of such molecules, we lack sufficient knowledge regarding the determination of their 3D structure in a cheap and fast manner, which plays an important role in their functions. One of the main computational methods applied to the study of proteins and their folding process, which determine its structure, is Molecular Dynamics. An enhancement of this method, known as Replica-Exchange Molecular Dynamics (or REMD) is capable of producing much better results, at the expense of a significant increase in computational costs and volume of raw data generated. This dissertation presents a novel optimization for this method, titled Analytical Data Filtering, which aims to optimize post-simulation analysis by filtering unsatisfactory predicted structures via the use of different absolute quality metrics. The proposed methodology has the potential of working together with other optimization approaches as well as covering an area still untouched at large by them to the best of the author knowledge. Further on, the SnapFi tool is presented, a tool designed specially for the purpose of filtering unsatisfactory structure predictions and also being able to work with the different optimization approaches of the Replica-Exchange Molecular Dynamics method. A study was then conducted on a test dataset of REMD protein structure prediction simulations aiming to elucidate a series of formulated hypothesis regarding the impact of the different temperatures of the REMD process in the final quality of the predicted structures, the efficiency of the different absolute quality metrics and a possible filtering configuration that take advantage of such metrics. It was observed that high temperatures may be safely discarded from post-simulation analysis of REMD protein structure prediction simulations, that absolute quality metrics posses a high variance of efficiency (regarding quality terms) between different protein structure prediction simulations and that different filtering configurations composed of such quality metrics carry on this inconvenient variance.Submitted by PPG Ciência da Computação (ppgcc@pucrs.br) on 2018-09-03T14:00:58Z No. of bitstreams: 1 RAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf: 6178948 bytes, checksum: 6ed3599e31f122e78b11b322a8c0ac06 (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2018-09-04T12:17:04Z (GMT) No. of bitstreams: 1 RAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf: 6178948 bytes, checksum: 6ed3599e31f122e78b11b322a8c0ac06 (MD5)Made available in DSpace on 2018-09-04T12:47:15Z (GMT). No. of bitstreams: 1 RAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf: 6178948 bytes, checksum: 6ed3599e31f122e78b11b322a8c0ac06 (MD5) Previous issue date: 2017-08-30application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/173125/RAFAEL%20CAUDURO%20OLIVEIRA%20MACEDO_DIS.pdf.jpgengPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBrasilEscola PolitécnicaReplica Exchange Molecular DynamicsProtein Structure PredictionFilteringQuality MetricPredição de Estruturas de ProteínasFiltragemMétrica de QualidadeCIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAOOn the analysis of remd protein structure prediction simulations for reducing volume of analytical datainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisTrabalho não apresenta restrição para publicação1974996533081274470500500-862078257083325301info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILRAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf.jpgRAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf.jpgimage/jpeg5717http://tede2.pucrs.br/tede2/bitstream/tede/8268/4/RAFAEL+CAUDURO+OLIVEIRA+MACEDO_DIS.pdf.jpg9126b10d1e7c1422dfc83137c287a94fMD54TEXTRAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf.txtRAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdf.txttext/plain286912http://tede2.pucrs.br/tede2/bitstream/tede/8268/3/RAFAEL+CAUDURO+OLIVEIRA+MACEDO_DIS.pdf.txta15cd634c2067a2d6fc2f1f913593fb1MD53ORIGINALRAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdfRAFAEL CAUDURO OLIVEIRA MACEDO_DIS.pdfapplication/pdf6178948http://tede2.pucrs.br/tede2/bitstream/tede/8268/2/RAFAEL+CAUDURO+OLIVEIRA+MACEDO_DIS.pdf6ed3599e31f122e78b11b322a8c0ac06MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8610http://tede2.pucrs.br/tede2/bitstream/tede/8268/1/license.txt5a9d6006225b368ef605ba16b4f6d1beMD51tede/82682018-09-04 12:01:07.624oai:tede2.pucrs.br:tede/8268QXV0b3JpemHDp8OjbyBwYXJhIFB1YmxpY2HDp8OjbyBFbGV0csO0bmljYTogQ29tIGJhc2Ugbm8gZGlzcG9zdG8gbmEgTGVpIEZlZGVyYWwgbsK6OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYcOnw6NvIGVsZXRyw7RuaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWbDrWNpYSBVbml2ZXJzaWRhZGUgQ2F0w7NsaWNhIGRvIFJpbyBHcmFuZGUgZG8gU3VsLCBzZWRpYWRhIGEgQXYuIElwaXJhbmdhIDY2ODEsIFBvcnRvIEFsZWdyZSwgUmlvIEdyYW5kZSBkbyBTdWwsIGNvbSByZWdpc3RybyBkZSBDTlBKIDg4NjMwNDEzMDAwMi04MSBiZW0gY29tbyBlbSBvdXRyYXMgYmlibGlvdGVjYXMgZGlnaXRhaXMsIG5hY2lvbmFpcyBlIGludGVybmFjaW9uYWlzLCBjb25zw7NyY2lvcyBlIHJlZGVzIMOgcyBxdWFpcyBhIGJpYmxpb3RlY2EgZGEgUFVDUlMgcG9zc2EgYSB2aXIgcGFydGljaXBhciwgc2VtIMO0bnVzIGFsdXNpdm8gYW9zIGRpcmVpdG9zIGF1dG9yYWlzLCBhIHTDrXR1bG8gZGUgZGl2dWxnYcOnw6NvIGRhIHByb2R1w6fDo28gY2llbnTDrWZpY2EuCg==Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2018-09-04T15:01:07Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
title On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
spellingShingle On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
Macedo, Rafael Cauduro Oliveira
Replica Exchange Molecular Dynamics
Protein Structure Prediction
Filtering
Quality Metric
Predição de Estruturas de Proteínas
Filtragem
Métrica de Qualidade
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
title_short On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
title_full On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
title_fullStr On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
title_full_unstemmed On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
title_sort On the analysis of remd protein structure prediction simulations for reducing volume of analytical data
author Macedo, Rafael Cauduro Oliveira
author_facet Macedo, Rafael Cauduro Oliveira
author_role author
dc.contributor.advisor1.fl_str_mv Souza, Osmar Norberto de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0608337674042057
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8227762542415162
dc.contributor.author.fl_str_mv Macedo, Rafael Cauduro Oliveira
contributor_str_mv Souza, Osmar Norberto de
dc.subject.eng.fl_str_mv Replica Exchange Molecular Dynamics
Protein Structure Prediction
Filtering
Quality Metric
topic Replica Exchange Molecular Dynamics
Protein Structure Prediction
Filtering
Quality Metric
Predição de Estruturas de Proteínas
Filtragem
Métrica de Qualidade
CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
dc.subject.por.fl_str_mv Predição de Estruturas de Proteínas
Filtragem
Métrica de Qualidade
dc.subject.cnpq.fl_str_mv CIENCIA DA COMPUTACAO::TEORIA DA COMPUTACAO
description Proteínas executam um papel vital em todos os seres vivos, mediando uma série de processos necessários para a vida. Apesar de existirem maneiras de determinar a composição dessas moléculas, ainda falta-nos conhecimentos suficiente para determinar de uma maneira rápida e barata a sua estrutura 3D, que desempenha um papel importante na suas funções. Um dos principais métodos computacionais aplicados ao estudo das proteínas e o seu processo de enovelamento, o qual determina a sua estrutura, é Dinâmica Molecular. Um aprimoramento deste método, conhecido como Replica Exchange Molecular Dynamics (ou REMD), é capaz de produzir resultados muito melhores, com o revés de significativamente aumentar o seu custo computacional e gerar um volume muito maior de dados. Esta dissertação apresenta um novo método de otimização deste método, intitulado Filtragem de Dados Analíticos, que tem como objetivo otimizar a análise pós-simulação filtrando as estruturas preditas insatisfatórias através do uso de métricas de qualidade absolutas. A metodologia proposta tem o potencial de operar em conjunto com outras abordagens de otimização e também cobrir uma área ainda não abordada por elas. Adiante, a ferramenta SnapFi é apresentada, a qual foi designada especialmente para o propósito de filtrar estruturas preditas insatisfatórias e ainda operar em conjunto com as diferentes abordagens de otimização do método REMD. Um estudo foi então conduzido sobre um conjunto teste de simulações REMD de predição de estruturas de proteínas afim de elucidar uma séries de hipóteses formuladas sobre o impacto das diferentes temperaturas na qualidade final do conjunto de estruturas preditas do processo REMD, a eficiência das diferentes métricas de qualidade absolutas e uma possível configuração de filtragem que utiliza essas métricas. Foi observado que as temperaturas mais altas do método REMD para predição de estruturas de proteínas podem ser descartadas de forma segura da análise posterior ao seu término e também que as métricas de qualidade absolutas possuem uma alta variância (em termos de qualidade) entre diferentes simulações de predições de estruturas de proteínas. Além disso, foi observado que diferentes configurações de filtragem que utilize tais métricas carrega consigo esta variância.
publishDate 2017
dc.date.issued.fl_str_mv 2017-08-30
dc.date.accessioned.fl_str_mv 2018-09-04T12:47:15Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/8268
url http://tede2.pucrs.br/tede2/handle/tede/8268
dc.language.iso.fl_str_mv eng
language eng
dc.relation.program.fl_str_mv 1974996533081274470
dc.relation.confidence.fl_str_mv 500
500
dc.relation.cnpq.fl_str_mv -862078257083325301
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Escola Politécnica
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/8268/4/RAFAEL+CAUDURO+OLIVEIRA+MACEDO_DIS.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/8268/3/RAFAEL+CAUDURO+OLIVEIRA+MACEDO_DIS.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/8268/2/RAFAEL+CAUDURO+OLIVEIRA+MACEDO_DIS.pdf
http://tede2.pucrs.br/tede2/bitstream/tede/8268/1/license.txt
bitstream.checksum.fl_str_mv 9126b10d1e7c1422dfc83137c287a94f
a15cd634c2067a2d6fc2f1f913593fb1
6ed3599e31f122e78b11b322a8c0ac06
5a9d6006225b368ef605ba16b4f6d1be
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765335123951616