PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução
Autor(a) principal: | |
---|---|
Data de Publicação: | 2016 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/35084 |
Resumo: | Análises por conservação e correlação de aminoácidos podem fornecer informa- ções importantes acerca da estrutura e função de famílias de proteínas. Além disso, resultados experimentais sugerem que o enovelamento de proteínas pode ser alcançado com menos caracteres do que os 20 aminoácidos de ocorrência natural. Nosso grupo propôs recentemente um método para obter determinantes de sub-classes funcionais em famílias de proteínas chamado Decomposição de Redes de Coevolução de Resíduos (DRCN). O DRCN consiste de um método baseado em sequência para análises de famílias de proteínas representadas por alinhamentos múltiplos de sequências. Apresentamos um software para análises de famílias de proteínas através de DRCN, estudos de conservação de resíduos, aplicações de redução de alfabeto e busca automática por anotações. Os algoritmos foram agrupados de modo a ter uma aplicação robusta e intuitiva para o estudo de proteínas homólogas. As análises por DRCN necessitam de um único arquivo de entrada obrigatório, um alinhamento múltiplo de sequências (AMS), apesar de que um arquivo no formato PDB também pode ser utilizado para visualização de resultados na estrutura. A qualidade do AMS é o principal fator para obter melhores resultados utilizando esta metodologia, logo, o sistema disponibiliza uma etapa de ltragem de sequências a m de maximizar a representatividade do AMS através da remoção de fragmentos, sequências mal alinhadas e redundância. Foram estudados quatro domínios de famílias de proteínas: lisozimas de tipo C/alfalactoalbuminas, fosfolipases A2, proteínas reguladoras de nitrogênio PII e o domínio de ligação de DNA dos receptores nucleares IV; três diferentes abordagens de AMS extraídas do PFAM e 19 alfabetos de aminoácidos reduzidos disponíveis na literatura. Nestes estudos, foram encontradas informações sobre sítios catalíticos e de ligação em todas as quatro famí- lias, além de dados relacionados a estruturas secundárias, núcleo hidrofóbico e sítio de dimerização. Ao observar as arestas de anti-correlação, foi encontrado um ou mais resíduos que separavam duas ou mais subclasses, este é o caso do C122 nas fosfolipases A2. Este nó formou um hub de correlações negativas conectando resíduos de cada uma das outras comunidades identi cadas. Sua presença ocorre em 217 sequências, sendo todas de Oikopleura dioica. A utilização de alfabetos reduzidos nas análises por DRCN mostraram aumentar o tamanho das comunidades encontradas, além de manter hipóteses consistentes para seu signi cado biológico. Porém, em casos como o dos receptores nucleares, o uso de um alfabeto reduzido pode ocultar uma comunidade que compartilha posições em comum com outra. |
id |
UFMG_e0f32f79150cc2ae4f9b73285289dc6b |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/35084 |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Lucas Bleicherhttp://lattes.cnpq.br/1342208759733891Laila Alves NahumGisele Lobo PappaJosé Miguel Ortegahttp://lattes.cnpq.br/9168400134037419Neli José da Fonseca Júnior2021-03-01T15:03:08Z2021-03-01T15:03:08Z2016-03-01http://hdl.handle.net/1843/35084Análises por conservação e correlação de aminoácidos podem fornecer informa- ções importantes acerca da estrutura e função de famílias de proteínas. Além disso, resultados experimentais sugerem que o enovelamento de proteínas pode ser alcançado com menos caracteres do que os 20 aminoácidos de ocorrência natural. Nosso grupo propôs recentemente um método para obter determinantes de sub-classes funcionais em famílias de proteínas chamado Decomposição de Redes de Coevolução de Resíduos (DRCN). O DRCN consiste de um método baseado em sequência para análises de famílias de proteínas representadas por alinhamentos múltiplos de sequências. Apresentamos um software para análises de famílias de proteínas através de DRCN, estudos de conservação de resíduos, aplicações de redução de alfabeto e busca automática por anotações. Os algoritmos foram agrupados de modo a ter uma aplicação robusta e intuitiva para o estudo de proteínas homólogas. As análises por DRCN necessitam de um único arquivo de entrada obrigatório, um alinhamento múltiplo de sequências (AMS), apesar de que um arquivo no formato PDB também pode ser utilizado para visualização de resultados na estrutura. A qualidade do AMS é o principal fator para obter melhores resultados utilizando esta metodologia, logo, o sistema disponibiliza uma etapa de ltragem de sequências a m de maximizar a representatividade do AMS através da remoção de fragmentos, sequências mal alinhadas e redundância. Foram estudados quatro domínios de famílias de proteínas: lisozimas de tipo C/alfalactoalbuminas, fosfolipases A2, proteínas reguladoras de nitrogênio PII e o domínio de ligação de DNA dos receptores nucleares IV; três diferentes abordagens de AMS extraídas do PFAM e 19 alfabetos de aminoácidos reduzidos disponíveis na literatura. Nestes estudos, foram encontradas informações sobre sítios catalíticos e de ligação em todas as quatro famí- lias, além de dados relacionados a estruturas secundárias, núcleo hidrofóbico e sítio de dimerização. Ao observar as arestas de anti-correlação, foi encontrado um ou mais resíduos que separavam duas ou mais subclasses, este é o caso do C122 nas fosfolipases A2. Este nó formou um hub de correlações negativas conectando resíduos de cada uma das outras comunidades identi cadas. Sua presença ocorre em 217 sequências, sendo todas de Oikopleura dioica. A utilização de alfabetos reduzidos nas análises por DRCN mostraram aumentar o tamanho das comunidades encontradas, além de manter hipóteses consistentes para seu signi cado biológico. Porém, em casos como o dos receptores nucleares, o uso de um alfabeto reduzido pode ocultar uma comunidade que compartilha posições em comum com outra.Structural and functional insights about protein families can be obtained by amino acids conservation and correlation analysis. Futhermore, experimental research has suggested that protein folding can be achieved with fewer characters than the 20 naturally occurring amino acids. Our group has recently proposed a method to obtain functional sub-class determinants in protein families, called Decomposition of Residue Coevolution Networks (DRCN). DRCN is a sequence based method for analysis of protein families represented by multiple sequence alignments. We present a software for protein family analysis using DRCN, conservation analysis, alphabet reductions and automatic annotation search. The algorithms were grouped in order to have a robust and intuitive application to the analysis of homologous proteins. The DRCN analysis consists of a unique required input le, a multiple sequence alignment (MSA), besides that a PDB le can be also used to visualize the results in the structure. The MSA quality is a crucial factor to achieve better results with the methodology, therefore, a ltering step is available to maximize its representativeness by removing fragments, poorly aligned sequences and redundancy. We have studied four protein family domains: lysozyme C/Alpha-lactoalbumin, phospholipases A2, nitrogen regulatory protein PII and the DNA binding domain of the nuclear receptors IV; three MSAs aproaches extracted from PFAM and 19 amino acids reducted alphabets from literature. We have found insights about catalyctic and binding sites in all of then, there's also information related to secondary structure, the hydrophobic putative channel and dimer site. By looking for the anti-correlated edges, we could nd a residue or a group of residues that separates two or more sub-classes. That's the case of the C122 in the phospholipase A2, this node form an anti-correlated hub that connects every community. Its presence occurs in 217 sequences, all from Oikopleura dioica, and all without the phospholipase catalyctic activity. The uses of reduced alphabet in DRCN analysis usually increase the number of residues in each community and in the most cases maintaining a consistent hypothesis for their biological role. But in cases as this nuclear receptors IV study, the uses of a reduced alphabet can hide clusters that share common positions with another community.porUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em BioinformaticaUFMGBrasilICB - INSTITUTO DE CIÊNCIAS BIOLOGICAShttp://creativecommons.org/licenses/by-nc-nd/3.0/pt/info:eu-repo/semantics/openAccessBiologia computacionalAminoácidosCoevolução biológicaSistemas complexosConservação de aminoácidosReduções de alfabetoRedes de coevoluçãoPFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevoluçãoinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALneli Fonseca.pdfneli Fonseca.pdfapplication/pdf8477261https://repositorio.ufmg.br/bitstream/1843/35084/1/neli%20Fonseca.pdf56f931879af3dad04c001e4a69aa4019MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8811https://repositorio.ufmg.br/bitstream/1843/35084/2/license_rdfcfd6801dba008cb6adbd9838b81582abMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-82119https://repositorio.ufmg.br/bitstream/1843/35084/3/license.txt34badce4be7e31e3adb4575ae96af679MD531843/350842021-03-01 12:03:08.605oai:repositorio.ufmg.br:1843/35084TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KCg==Repositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2021-03-01T15:03:08Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.pt_BR.fl_str_mv |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
title |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
spellingShingle |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução Neli José da Fonseca Júnior Sistemas complexos Conservação de aminoácidos Reduções de alfabeto Redes de coevolução Biologia computacional Aminoácidos Coevolução biológica |
title_short |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
title_full |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
title_fullStr |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
title_full_unstemmed |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
title_sort |
PFSTATS: sistema para estudo de famílias de proteínas através de detecção de resíduos conservados e decomposição de redes de coevolução |
author |
Neli José da Fonseca Júnior |
author_facet |
Neli José da Fonseca Júnior |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Lucas Bleicher |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1342208759733891 |
dc.contributor.referee1.fl_str_mv |
Laila Alves Nahum |
dc.contributor.referee2.fl_str_mv |
Gisele Lobo Pappa |
dc.contributor.referee3.fl_str_mv |
José Miguel Ortega |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/9168400134037419 |
dc.contributor.author.fl_str_mv |
Neli José da Fonseca Júnior |
contributor_str_mv |
Lucas Bleicher Laila Alves Nahum Gisele Lobo Pappa José Miguel Ortega |
dc.subject.por.fl_str_mv |
Sistemas complexos Conservação de aminoácidos Reduções de alfabeto Redes de coevolução |
topic |
Sistemas complexos Conservação de aminoácidos Reduções de alfabeto Redes de coevolução Biologia computacional Aminoácidos Coevolução biológica |
dc.subject.other.pt_BR.fl_str_mv |
Biologia computacional Aminoácidos Coevolução biológica |
description |
Análises por conservação e correlação de aminoácidos podem fornecer informa- ções importantes acerca da estrutura e função de famílias de proteínas. Além disso, resultados experimentais sugerem que o enovelamento de proteínas pode ser alcançado com menos caracteres do que os 20 aminoácidos de ocorrência natural. Nosso grupo propôs recentemente um método para obter determinantes de sub-classes funcionais em famílias de proteínas chamado Decomposição de Redes de Coevolução de Resíduos (DRCN). O DRCN consiste de um método baseado em sequência para análises de famílias de proteínas representadas por alinhamentos múltiplos de sequências. Apresentamos um software para análises de famílias de proteínas através de DRCN, estudos de conservação de resíduos, aplicações de redução de alfabeto e busca automática por anotações. Os algoritmos foram agrupados de modo a ter uma aplicação robusta e intuitiva para o estudo de proteínas homólogas. As análises por DRCN necessitam de um único arquivo de entrada obrigatório, um alinhamento múltiplo de sequências (AMS), apesar de que um arquivo no formato PDB também pode ser utilizado para visualização de resultados na estrutura. A qualidade do AMS é o principal fator para obter melhores resultados utilizando esta metodologia, logo, o sistema disponibiliza uma etapa de ltragem de sequências a m de maximizar a representatividade do AMS através da remoção de fragmentos, sequências mal alinhadas e redundância. Foram estudados quatro domínios de famílias de proteínas: lisozimas de tipo C/alfalactoalbuminas, fosfolipases A2, proteínas reguladoras de nitrogênio PII e o domínio de ligação de DNA dos receptores nucleares IV; três diferentes abordagens de AMS extraídas do PFAM e 19 alfabetos de aminoácidos reduzidos disponíveis na literatura. Nestes estudos, foram encontradas informações sobre sítios catalíticos e de ligação em todas as quatro famí- lias, além de dados relacionados a estruturas secundárias, núcleo hidrofóbico e sítio de dimerização. Ao observar as arestas de anti-correlação, foi encontrado um ou mais resíduos que separavam duas ou mais subclasses, este é o caso do C122 nas fosfolipases A2. Este nó formou um hub de correlações negativas conectando resíduos de cada uma das outras comunidades identi cadas. Sua presença ocorre em 217 sequências, sendo todas de Oikopleura dioica. A utilização de alfabetos reduzidos nas análises por DRCN mostraram aumentar o tamanho das comunidades encontradas, além de manter hipóteses consistentes para seu signi cado biológico. Porém, em casos como o dos receptores nucleares, o uso de um alfabeto reduzido pode ocultar uma comunidade que compartilha posições em comum com outra. |
publishDate |
2016 |
dc.date.issued.fl_str_mv |
2016-03-01 |
dc.date.accessioned.fl_str_mv |
2021-03-01T15:03:08Z |
dc.date.available.fl_str_mv |
2021-03-01T15:03:08Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/35084 |
url |
http://hdl.handle.net/1843/35084 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/pt/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Bioinformatica |
dc.publisher.initials.fl_str_mv |
UFMG |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
ICB - INSTITUTO DE CIÊNCIAS BIOLOGICAS |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
bitstream.url.fl_str_mv |
https://repositorio.ufmg.br/bitstream/1843/35084/1/neli%20Fonseca.pdf https://repositorio.ufmg.br/bitstream/1843/35084/2/license_rdf https://repositorio.ufmg.br/bitstream/1843/35084/3/license.txt |
bitstream.checksum.fl_str_mv |
56f931879af3dad04c001e4a69aa4019 cfd6801dba008cb6adbd9838b81582ab 34badce4be7e31e3adb4575ae96af679 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
|
_version_ |
1801676713016426496 |