Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | https://locus.ufv.br//handle/123456789/30201 |
Resumo: | A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP. |
id |
UFV_f54649d93286aa9f3bcfcca3ca1a4767 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/30201 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Comarela, Giovanni VentorimMendes, Vinício Fragosohttp://lattes.cnpq.br/0035712800773133Silveira, Sabrina de Azevedo2022-11-09T12:13:38Z2022-11-09T12:13:38Z2019-09-27MENDES, Vinício Fragoso. Uma estratégia hierárquica e escalável para classificação estrutural de proteínas. 2019. 57 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.https://locus.ufv.br//handle/123456789/30201A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP.The prediction of protein structural classification is a relevant but challenging and complex task, where the structural data of proteins have large amounts of information about protein function, data from the literature and the relationship between protein and its coding gene. With increasing publicly available biological data, there is a demand for computational methods to organize, annotate, and understand the data. With the large amount of data recognized and deposited, it is difficult or even impossible to manually infer protein classification. This work proposes a supervised learning strategy to perform the structural classification of proteins, with a Particular interest in hierarchical models. To evaluate the proposed strategy, three experiments were performed using structural data of proteins available in biological databases (CATH, SCOPe and BRENDA). Each data set is associated with a well known hierarchical classification scheme (CATH, SCOP, EC Number). First, the structural data, containing the position of each atom in the 3D space, were modeled as a distance matrix (CSM - Cutoff Scanning Matrix). Then the amount of data was reduced and some of the noise removed, both from the Singular Value Decom- Position application (SVD) to the mentioned matrix. Then the reduced matrix was used as input to the model, which is able to classify protein structures according; to different classification schemes. The accuracy of the model has been shown to range from 86% to 95% by predicting the levels of CATH, SCOP and EC Number. To the best of our knowledge, this work is the first one to achieve such high accuracy when dealing with large scale datasets. Keywords: Protein hierarchical classification. CATH. EC number. SCOP.porUniversidade Federal de ViçosaCiência da ComputaçãoProteínas - ClassificaçãoCATH (Banco de dados)EC number (Código numérico)SCOP (Banco de dados)Modelos multiníveis (Estatísticas)Ciência da ComputaçãoUma estratégia hierárquica e escalável para classificação estrutural de proteínasA hierarchical and scalable strategy for protein structural classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2019-09-27Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALresumo.pdfresumo.pdfresumoapplication/pdf372439https://locus.ufv.br//bitstream/123456789/30201/1/resumo.pdfcd12c18d3e22af79ed017bfd3c3bd892MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/30201/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/302012022-11-09 09:13:39.893oai:locus.ufv.br:123456789/30201Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-11-09T12:13:39LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.pt-BR.fl_str_mv |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
dc.title.en.fl_str_mv |
A hierarchical and scalable strategy for protein structural classification |
title |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
spellingShingle |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas Mendes, Vinício Fragoso Proteínas - Classificação CATH (Banco de dados) EC number (Código numérico) SCOP (Banco de dados) Modelos multiníveis (Estatísticas) Ciência da Computação |
title_short |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
title_full |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
title_fullStr |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
title_full_unstemmed |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
title_sort |
Uma estratégia hierárquica e escalável para classificação estrutural de proteínas |
author |
Mendes, Vinício Fragoso |
author_facet |
Mendes, Vinício Fragoso |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/0035712800773133 |
dc.contributor.none.fl_str_mv |
Comarela, Giovanni Ventorim |
dc.contributor.author.fl_str_mv |
Mendes, Vinício Fragoso |
dc.contributor.advisor1.fl_str_mv |
Silveira, Sabrina de Azevedo |
contributor_str_mv |
Silveira, Sabrina de Azevedo |
dc.subject.pt-BR.fl_str_mv |
Proteínas - Classificação CATH (Banco de dados) EC number (Código numérico) SCOP (Banco de dados) Modelos multiníveis (Estatísticas) |
topic |
Proteínas - Classificação CATH (Banco de dados) EC number (Código numérico) SCOP (Banco de dados) Modelos multiníveis (Estatísticas) Ciência da Computação |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação |
description |
A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP. |
publishDate |
2019 |
dc.date.issued.fl_str_mv |
2019-09-27 |
dc.date.accessioned.fl_str_mv |
2022-11-09T12:13:38Z |
dc.date.available.fl_str_mv |
2022-11-09T12:13:38Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MENDES, Vinício Fragoso. Uma estratégia hierárquica e escalável para classificação estrutural de proteínas. 2019. 57 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019. |
dc.identifier.uri.fl_str_mv |
https://locus.ufv.br//handle/123456789/30201 |
identifier_str_mv |
MENDES, Vinício Fragoso. Uma estratégia hierárquica e escalável para classificação estrutural de proteínas. 2019. 57 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019. |
url |
https://locus.ufv.br//handle/123456789/30201 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.publisher.program.fl_str_mv |
Ciência da Computação |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/30201/1/resumo.pdf https://locus.ufv.br//bitstream/123456789/30201/2/license.txt |
bitstream.checksum.fl_str_mv |
cd12c18d3e22af79ed017bfd3c3bd892 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801213037341835264 |