Desenvolvimento de metodologias de novo para predição de estruturas de proteínas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/196 |
Resumo: | De novo protein structure prediction aims to find the 3D conformation of a protein from its amino acid sequence without the use of experimental templates. One of the most successful strategies consists in assembling models from a collection of small fragments of other proteins using a search algorithm. GAPF (Genetic Algorithms for Protein Folding) is a software for ab initio protein structure prediction developed by GMMSB/LNCC which uses a multiple minima genetic algorithms (GA) to search the energy landscape. The aim of this work is to incorporate a de novo methodology to GAPF to increase its predictiveness. The main strategy implemented is based on using fragment libraries. Fragments are selected based on sequence similarity and secondary structure prediction, and were used both to assemble the individuals of the initial population, and as mutation operators. We developed a strategy to insert fragments whose length was determined using the confidence of the secondary structure prediction. Additionaly, the structures with the highest hydrophobic compactness were favoured by a new form of parental selection. The test set comprises 20 proteins distributed among mainly-α, mainly-β and α/β classes, ranging from 20 to 146 aminoacids. The de novo method presented here was able to improve the prediction for 75% of the proteins of the test set, and the improvement was considered significative for 50% of the proteins of the test set. Besides the performance improvement (i.e., smaller number of evaluations of the energy function), a greater number of individuals with better hydrophobic compactness was generated. The results of this work point to important pathways to better de novo methods and aided setting the protocol that allowed GAPF to participate in the Critical Assessment of Protein Structure Prediction - CASP 11. |
id |
LNCC_538949da2f92fd6801d8a26a35ebc7d8 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/196 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Dardenne, Laurent Emmanuelhttp://lattes.cnpq.br/8344194525615133Custódio, Fábio Limahttp://lattes.cnpq.br/9126339190151859Barbosa, Hélio José Correahttp://lattes.cnpq.br/0375745110240885Garratt, Richard Charleshttp://lattes.cnpq.br/1405100203133067Araújo, Antônio Francisco Pereira dehttp://lattes.cnpq.br/2822819241158320070549366-04http://lattes.cnpq.br/7223174055569374Oliveira, Raphael Trevizani Roque de2015-03-31T15:01:54Z2014-12-17OLIVEIRA, RAPHAEL TREVIZANI ROQUE DE. Desenvolvimento de metodologias de novo para predição de estruturas de proteínas, 2014, 112 p. Tese (Doutorado), Programa de Pós-Graduação em Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis. 2014.https://tede.lncc.br/handle/tede/196De novo protein structure prediction aims to find the 3D conformation of a protein from its amino acid sequence without the use of experimental templates. One of the most successful strategies consists in assembling models from a collection of small fragments of other proteins using a search algorithm. GAPF (Genetic Algorithms for Protein Folding) is a software for ab initio protein structure prediction developed by GMMSB/LNCC which uses a multiple minima genetic algorithms (GA) to search the energy landscape. The aim of this work is to incorporate a de novo methodology to GAPF to increase its predictiveness. The main strategy implemented is based on using fragment libraries. Fragments are selected based on sequence similarity and secondary structure prediction, and were used both to assemble the individuals of the initial population, and as mutation operators. We developed a strategy to insert fragments whose length was determined using the confidence of the secondary structure prediction. Additionaly, the structures with the highest hydrophobic compactness were favoured by a new form of parental selection. The test set comprises 20 proteins distributed among mainly-α, mainly-β and α/β classes, ranging from 20 to 146 aminoacids. The de novo method presented here was able to improve the prediction for 75% of the proteins of the test set, and the improvement was considered significative for 50% of the proteins of the test set. Besides the performance improvement (i.e., smaller number of evaluations of the energy function), a greater number of individuals with better hydrophobic compactness was generated. The results of this work point to important pathways to better de novo methods and aided setting the protocol that allowed GAPF to participate in the Critical Assessment of Protein Structure Prediction - CASP 11.A predição de novo de estruturas de proteínas almeja encontrar a conformação tridimensional de uma proteína a partir de sua sequência de aminoácidos sem o uso de moldes/estruturas experimentais de referência. Uma das estratégias de maior sucesso consiste em construir modelos a partir de uma coleção de fragmentos de outras proteínas utilizando um algoritmo de otimização. O GAPF (Genetic Algorithms for Protein Folding) é um programa de predição ab initio, desenvolvido pelo GMMSB/LNCC, que utiliza um algoritmo genético (AG) de múltiplas soluções para a exploração da superfície de energia livre. O objetivo deste trabalho é o desenvolvimento de uma metodologia de novo para o programa GAPF objetivando o aumento da sua capacidade preditiva. A principal estratégia implementada baseia-se no uso de bibliotecas de fragmentos. Os fragmentos são escolhidos com base na similaridade de sequência e predição de estruturas secundárias e foram utilizados para compor os indivíduos da população inicial do AG e também através do uso de operadores de mutação específicos. Desenvolveu-se uma estratégia de inserção de fragmentos de tamanho variável, onde a determinação do tamanho utiliza informações obtidas da predição de estrutura secundária. Adicionalmente, foi incorporada uma estratégia de favorecimento da compactação hidrofóbica das estruturas preditas através do desenvolvimento de uma nova forma de seleção parental para a geração de novos indivíduos durante o AG. A metodologia foi testada em um conjunto de 20 proteínas, contendo de 20 a 146 resíduos de aminoácidos, pertencentes às classes principalmente-α, principalmente-β e α/β. Os resultados obtidos mostraram que a metodologia de novo desenvolvida foi capaz de melhorar a predição para 75% das proteínas do conjunto, sendo que foram verificadas melhorias consideradas significativas para 50% do conjunto. Além de uma melhora na performance computacional (i.e., menor número de avaliações da função energia), observou-se também a geração de indivíduos exibindo uma melhor compactação hidrofóbica. Os resultados deste trabalho apontam caminhos importantes para a melhoria da metodologia de novo no contexto do programa GAPF e viabilizaram a construção do protocolo utilizado pelo GMMSB em sua participação no evento Critical Assessment of Protein Structure Prediction - CASP 11.Submitted by Maria Cristina (library@lncc.br) on 2015-03-31T14:55:14Z No. of bitstreams: 1 thesis Trevizani_protegida.pdf: 22726026 bytes, checksum: 6bea89be5be890f00d13877ab906c396 (MD5)Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-03-31T14:57:14Z (GMT) No. of bitstreams: 1 thesis Trevizani_protegida.pdf: 22726026 bytes, checksum: 6bea89be5be890f00d13877ab906c396 (MD5)Made available in DSpace on 2015-03-31T15:01:54Z (GMT). No. of bitstreams: 1 thesis Trevizani_protegida.pdf: 22726026 bytes, checksum: 6bea89be5be890f00d13877ab906c396 (MD5) Previous issue date: 2014-12-17application/pdfhttp://tede-server.lncc.br:8080/retrieve/463/thesis%20Trevizani_protegida.pdf.jpghttp://tede-server.lncc.br:8080/retrieve/678/thesis%20Trevizani_protegida.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilServiço de Análise e Apoio a Formação de Recursos HumanosProteinasPredição de estruturasBibliotecas de fragmentosBiologia molecular - Simulação por computadorProteinPrediction structuresCIÊNCIAS BIOLÓGIAS : BIOQUIMICACIÊNCIAS EXATAS : CIÊNCIA DA COMUTAÇÃODesenvolvimento de metodologias de novo para predição de estruturas de proteínasDevelopment of de novo methods for protein structure predictioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/196/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51ORIGINALthesis Trevizani_protegida.pdfthesis Trevizani_protegida.pdfapplication/pdf22726026http://tede-server.lncc.br:8080/tede/bitstream/tede/196/2/thesis+Trevizani_protegida.pdf6bea89be5be890f00d13877ab906c396MD52THUMBNAILthesis Trevizani_protegida.pdf.jpgthesis Trevizani_protegida.pdf.jpgimage/jpeg3256http://tede-server.lncc.br:8080/tede/bitstream/tede/196/3/thesis+Trevizani_protegida.pdf.jpg7815601072b35845edbf3204f765b5f8MD53tede/1962018-07-04 09:59:48.092oai:tede-server.lncc.br:tede/196Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2018-07-04T12:59:48Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.por.fl_str_mv |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
dc.title.alternative.eng.fl_str_mv |
Development of de novo methods for protein structure prediction |
title |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
spellingShingle |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas Oliveira, Raphael Trevizani Roque de Proteinas Predição de estruturas Bibliotecas de fragmentos Biologia molecular - Simulação por computador Protein Prediction structures CIÊNCIAS BIOLÓGIAS : BIOQUIMICA CIÊNCIAS EXATAS : CIÊNCIA DA COMUTAÇÃO |
title_short |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
title_full |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
title_fullStr |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
title_full_unstemmed |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
title_sort |
Desenvolvimento de metodologias de novo para predição de estruturas de proteínas |
author |
Oliveira, Raphael Trevizani Roque de |
author_facet |
Oliveira, Raphael Trevizani Roque de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Dardenne, Laurent Emmanuel |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8344194525615133 |
dc.contributor.advisor2.fl_str_mv |
Custódio, Fábio Lima |
dc.contributor.advisor2Lattes.fl_str_mv |
http://lattes.cnpq.br/9126339190151859 |
dc.contributor.referee1.fl_str_mv |
Barbosa, Hélio José Correa |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/0375745110240885 |
dc.contributor.referee2.fl_str_mv |
Garratt, Richard Charles |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/1405100203133067 |
dc.contributor.referee3.fl_str_mv |
Araújo, Antônio Francisco Pereira de |
dc.contributor.referee3Lattes.fl_str_mv |
http://lattes.cnpq.br/2822819241158320 |
dc.contributor.authorID.fl_str_mv |
070549366-04 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/7223174055569374 |
dc.contributor.author.fl_str_mv |
Oliveira, Raphael Trevizani Roque de |
contributor_str_mv |
Dardenne, Laurent Emmanuel Custódio, Fábio Lima Barbosa, Hélio José Correa Garratt, Richard Charles Araújo, Antônio Francisco Pereira de |
dc.subject.por.fl_str_mv |
Proteinas Predição de estruturas Bibliotecas de fragmentos Biologia molecular - Simulação por computador |
topic |
Proteinas Predição de estruturas Bibliotecas de fragmentos Biologia molecular - Simulação por computador Protein Prediction structures CIÊNCIAS BIOLÓGIAS : BIOQUIMICA CIÊNCIAS EXATAS : CIÊNCIA DA COMUTAÇÃO |
dc.subject.eng.fl_str_mv |
Protein Prediction structures |
dc.subject.cnpq.fl_str_mv |
CIÊNCIAS BIOLÓGIAS : BIOQUIMICA CIÊNCIAS EXATAS : CIÊNCIA DA COMUTAÇÃO |
description |
De novo protein structure prediction aims to find the 3D conformation of a protein from its amino acid sequence without the use of experimental templates. One of the most successful strategies consists in assembling models from a collection of small fragments of other proteins using a search algorithm. GAPF (Genetic Algorithms for Protein Folding) is a software for ab initio protein structure prediction developed by GMMSB/LNCC which uses a multiple minima genetic algorithms (GA) to search the energy landscape. The aim of this work is to incorporate a de novo methodology to GAPF to increase its predictiveness. The main strategy implemented is based on using fragment libraries. Fragments are selected based on sequence similarity and secondary structure prediction, and were used both to assemble the individuals of the initial population, and as mutation operators. We developed a strategy to insert fragments whose length was determined using the confidence of the secondary structure prediction. Additionaly, the structures with the highest hydrophobic compactness were favoured by a new form of parental selection. The test set comprises 20 proteins distributed among mainly-α, mainly-β and α/β classes, ranging from 20 to 146 aminoacids. The de novo method presented here was able to improve the prediction for 75% of the proteins of the test set, and the improvement was considered significative for 50% of the proteins of the test set. Besides the performance improvement (i.e., smaller number of evaluations of the energy function), a greater number of individuals with better hydrophobic compactness was generated. The results of this work point to important pathways to better de novo methods and aided setting the protocol that allowed GAPF to participate in the Critical Assessment of Protein Structure Prediction - CASP 11. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-12-17 |
dc.date.accessioned.fl_str_mv |
2015-03-31T15:01:54Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
OLIVEIRA, RAPHAEL TREVIZANI ROQUE DE. Desenvolvimento de metodologias de novo para predição de estruturas de proteínas, 2014, 112 p. Tese (Doutorado), Programa de Pós-Graduação em Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis. 2014. |
dc.identifier.uri.fl_str_mv |
https://tede.lncc.br/handle/tede/196 |
identifier_str_mv |
OLIVEIRA, RAPHAEL TREVIZANI ROQUE DE. Desenvolvimento de metodologias de novo para predição de estruturas de proteínas, 2014, 112 p. Tese (Doutorado), Programa de Pós-Graduação em Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis. 2014. |
url |
https://tede.lncc.br/handle/tede/196 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Modelagem Computacional |
dc.publisher.initials.fl_str_mv |
LNCC |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Serviço de Análise e Apoio a Formação de Recursos Humanos |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
bitstream.url.fl_str_mv |
http://tede-server.lncc.br:8080/tede/bitstream/tede/196/1/license.txt http://tede-server.lncc.br:8080/tede/bitstream/tede/196/2/thesis+Trevizani_protegida.pdf http://tede-server.lncc.br:8080/tede/bitstream/tede/196/3/thesis+Trevizani_protegida.pdf.jpg |
bitstream.checksum.fl_str_mv |
bd3efa91386c1718a7f26a329fdcb468 6bea89be5be890f00d13877ab906c396 7815601072b35845edbf3204f765b5f8 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1797683217956864000 |