Uma estratégia hierárquica e escalável para classificação estrutural de proteínas

Detalhes bibliográficos
Autor(a) principal: Mendes, Vinício Fragoso
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: https://locus.ufv.br//handle/123456789/30201
Resumo: A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP.
id UFV_f54649d93286aa9f3bcfcca3ca1a4767
oai_identifier_str oai:locus.ufv.br:123456789/30201
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Comarela, Giovanni VentorimMendes, Vinício Fragosohttp://lattes.cnpq.br/0035712800773133Silveira, Sabrina de Azevedo2022-11-09T12:13:38Z2022-11-09T12:13:38Z2019-09-27MENDES, Vinício Fragoso. Uma estratégia hierárquica e escalável para classificação estrutural de proteínas. 2019. 57 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.https://locus.ufv.br//handle/123456789/30201A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP.The prediction of protein structural classification is a relevant but challenging and complex task, where the structural data of proteins have large amounts of information about protein function, data from the literature and the relationship between protein and its coding gene. With increasing publicly available biological data, there is a demand for computational methods to organize, annotate, and understand the data. With the large amount of data recognized and deposited, it is difficult or even impossible to manually infer protein classification. This work proposes a supervised learning strategy to perform the structural classification of proteins, with a Particular interest in hierarchical models. To evaluate the proposed strategy, three experiments were performed using structural data of proteins available in biological databases (CATH, SCOPe and BRENDA). Each data set is associated with a well known hierarchical classification scheme (CATH, SCOP, EC Number). First, the structural data, containing the position of each atom in the 3D space, were modeled as a distance matrix (CSM - Cutoff Scanning Matrix). Then the amount of data was reduced and some of the noise removed, both from the Singular Value Decom- Position application (SVD) to the mentioned matrix. Then the reduced matrix was used as input to the model, which is able to classify protein structures according; to different classification schemes. The accuracy of the model has been shown to range from 86% to 95% by predicting the levels of CATH, SCOP and EC Number. To the best of our knowledge, this work is the first one to achieve such high accuracy when dealing with large scale datasets. Keywords: Protein hierarchical classification. CATH. EC number. SCOP.porUniversidade Federal de ViçosaCiência da ComputaçãoProteínas - ClassificaçãoCATH (Banco de dados)EC number (Código numérico)SCOP (Banco de dados)Modelos multiníveis (Estatísticas)Ciência da ComputaçãoUma estratégia hierárquica e escalável para classificação estrutural de proteínasA hierarchical and scalable strategy for protein structural classificationinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de InformáticaMestre em Ciência da ComputaçãoViçosa - MG2019-09-27Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALresumo.pdfresumo.pdfresumoapplication/pdf372439https://locus.ufv.br//bitstream/123456789/30201/1/resumo.pdfcd12c18d3e22af79ed017bfd3c3bd892MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/30201/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/302012022-11-09 09:13:39.893oai:locus.ufv.br:123456789/30201Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-11-09T12:13:39LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.pt-BR.fl_str_mv Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
dc.title.en.fl_str_mv A hierarchical and scalable strategy for protein structural classification
title Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
spellingShingle Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
Mendes, Vinício Fragoso
Proteínas - Classificação
CATH (Banco de dados)
EC number (Código numérico)
SCOP (Banco de dados)
Modelos multiníveis (Estatísticas)
Ciência da Computação
title_short Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
title_full Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
title_fullStr Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
title_full_unstemmed Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
title_sort Uma estratégia hierárquica e escalável para classificação estrutural de proteínas
author Mendes, Vinício Fragoso
author_facet Mendes, Vinício Fragoso
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/0035712800773133
dc.contributor.none.fl_str_mv Comarela, Giovanni Ventorim
dc.contributor.author.fl_str_mv Mendes, Vinício Fragoso
dc.contributor.advisor1.fl_str_mv Silveira, Sabrina de Azevedo
contributor_str_mv Silveira, Sabrina de Azevedo
dc.subject.pt-BR.fl_str_mv Proteínas - Classificação
CATH (Banco de dados)
EC number (Código numérico)
SCOP (Banco de dados)
Modelos multiníveis (Estatísticas)
topic Proteínas - Classificação
CATH (Banco de dados)
EC number (Código numérico)
SCOP (Banco de dados)
Modelos multiníveis (Estatísticas)
Ciência da Computação
dc.subject.cnpq.fl_str_mv Ciência da Computação
description A predição da classificação estrutural proteica é uma tarefa relevante, mas desafiadora e complexa, onde os dados estruturais das proteínas possuem grandes quantidades de informação a respeito de suas funções e relação entre proteína e seu gene codificante. Com o aumento dos dados biológicos publicamente disponíveis, há uma demanda por métodos computacionais para organizar, anotar e compreender os dados. Cada vez mais, são necessárias as tentativas de atribuir automaticamente a classificação estrutural ou da função proteica. Com o grande montante de dados reconhecidos e depositados, é difícil ou até mesmo impossível inferir manualmente a classificação proteica. Este trabalho propõe uma estratégia de aprendizado supervisionado para realizar a classificação estrutural de proteínas, com um interesse Particular em modelos hierárquicos. Para avaliar a estratégia proposta, foram realizados três experimentos utilizando dados estruturais de proteínas disponíveis em bancos de dados biológicos (CATH, SCOPe e BRENDA). Cada conjunto de dados está associado a um esquema de classificação hierárquica bem conhecido (CATH, SCOP, EC Number). Primeiro os dados estruturais contendo a posição de cada átomo no espaço 3D foram modelados como uma matriz de distância (CSM - Cutoff Scanning Matrix). Em seguida, a quantidade de dados foi reduzida e parte do ruído removido, ambos a partir da aplicação do SVD (Singular Value Decomposition) à matriz. Em seguida, foi utilizada a matriz reduzida como entrada para o modelo, que é capaz de prever corretamente classificação na maioria das vezes. Foi mostrado que a precisão do modelo varia de 86% a 95% ao prever a classificação de CATH, SCOP e EC Number, valores compatíveis ou superiores ao estado da arte em alguns casos. Palavras-chave: Classificação hierárquica de proteínas. CATH. EC number. SCOP.
publishDate 2019
dc.date.issued.fl_str_mv 2019-09-27
dc.date.accessioned.fl_str_mv 2022-11-09T12:13:38Z
dc.date.available.fl_str_mv 2022-11-09T12:13:38Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MENDES, Vinício Fragoso. Uma estratégia hierárquica e escalável para classificação estrutural de proteínas. 2019. 57 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/30201
identifier_str_mv MENDES, Vinício Fragoso. Uma estratégia hierárquica e escalável para classificação estrutural de proteínas. 2019. 57 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Viçosa, Viçosa. 2019.
url https://locus.ufv.br//handle/123456789/30201
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.publisher.program.fl_str_mv Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/30201/1/resumo.pdf
https://locus.ufv.br//bitstream/123456789/30201/2/license.txt
bitstream.checksum.fl_str_mv cd12c18d3e22af79ed017bfd3c3bd892
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801213037341835264