Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/198 |
Resumo: | Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins. One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable. WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V. Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively. Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone. The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model. |
id |
LNCC_5a813c90bc3b6d022203237e03a33b60 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/198 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Guedes, Luciane Prioli Ciapinahttp://lattes.cnpq.br/1906825541995385Kritz, Maurício VieiraCoimbra, Roney dos SantosBarreto, André da Motta SallesAlves, Ronnie Cley de Oliveira11203964765http://lattes.cnpq.br/7262655947864771Dias, Maria Fernanda Ribeiro2015-04-02T18:45:51Z2014-03-14DIAS, MARIA FERNANDA RIBEIRO. Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae, 2014, 123 p. Dissertação (Mestrado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2014.https://tede.lncc.br/handle/tede/198Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins. One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable. WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V. Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively. Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone. The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model.Metarhizium anisopliae é um fungo entomopatogênico utilizado como inseticida biológico. Este organismo possui proteínas ligadas ao processo de infecção cujos mecanismos de controle ainda são desconhecidos. Muitos destes mecanismos podem ser controlados pelo sistema de ubiquitinação. Neste trabalho, foram utilizados métodos de aprendizado de máquina para classificar sítios de ubiquitinação em proteínas preditas, a partir do genoma do fungo {\it \Manisopliae~} isolado E6. Cento e cinquenta e um (151) peptídeos ubiquitinados e cento e cinquenta e um (151) peptídeos não-ubiquitinados de {\it S.cereviseae} e {\it H.sapiens} foram utilizados como conjunto de treinamento.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} Cada um destes peptídeos foi composto por 21 aminoácidos com um resíduo de lisina central. Os peptídeos foram representados como vetores numéricos que correspondem ao valor médio das propriedades físico-químicas dos aminoácidos. O agrupamento hierárquico feito com os peptídeos (dados de treinamento), mostrou evidências de correlação entre várias propriedades físico-químicas, indicando alguma redundância nos atributos. Atributos redundantes podem causar {\it overfitting} do modelo e aumentar o custo computacional. Nós utilizamos o algoritmo {\it WeightedVotingXValidation} para descobrir o conjunto mínimo de atributos que me\-lhor re\-pre\-sen\-tam os peptídeos a serem classificados como ubiquitináveis ou não. O algoritmo {\it WeightedVotingXValidation} apresentou um comportamento semelhante para vetores de 10 e 31 dimensões. A correlação entre os atributos foi confirmada pelo teste de correlação de Pearson (coeficientes que variam de -0,95 a -0,40 e 0,40 a 0,98). Em seguida, comparamos o desempenho dos classificadores W-V e {\it Support Vector Machine} (SVM) com a função {\it kernel} radial para vetores com 10 ou 31 dimensões. Em ambos os casos, os resultados do SVM superou W-V. O resultado de {\it recall}, precisão e acurácia quando utilizamos 10 atributos foram, respectivamente, 67 \%, 65\% e 66\% para SVM, contra 65\%, 55\% e 47\% para W-V. Com o uso de 31 atributos, o resultado para os indicadores de desempenho foi de 71\%, 71\% e 71\% para SVM contra 60\%, 55\%, 52\% para W-V. Os dados foram processados em um {\it notebook} ASUS K43U com AMD Dual Core C60 1.0GHz , 2 x 512 KB de memória cache, 4 GB de RAM. O tempo de processamento foi de 8h e 22h, para SVM com 10 e 31 atributos físico-químicos, respectivamente. Considerando-se o risco de {\it overfitting} do modelo e a redundância dos atributos, nós aplicamos o algoritmo SVM treinado com 10 atributos físico-químicos para classificar possíveis proteínas propensas a ubiquitinação no proteoma de {\it \Manisopliae~} isolado E6 (10.775 proteínas). Os 160.694 peptídeos particionados em 21 aminoácidos contendo um resíduo de lisina na posição central, extraídos a partir de proteínas, foram representados por vetores de 10 dimensões e utilizados como conjunto independente. Das \seqliprot, 9.314 foram classificadas como sendo propensas a ubiquitinação e 1.417 como não-ubiquitináveis. Quarenta e quatro destas proteínas não foram analisadas por não possuírem o aminoácido lisina. A pequena perda de desempenho com a redução de dimensão do espaço de dados é compensada pela redução significativa no tempo de processamento e pelo menor risco de {\it overfitting} utilizando vetores de 10 dimensões.Submitted by Maria Cristina (library@lncc.br) on 2015-04-02T18:45:21Z No. of bitstreams: 1 Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5)Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-02T18:45:37Z (GMT) No. of bitstreams: 1 Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5)Made available in DSpace on 2015-04-02T18:45:51Z (GMT). No. of bitstreams: 1 Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5) Previous issue date: 2015-02-23Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)application/pdfhttp://tede-server.lncc.br:8080/retrieve/430/Texto%20completo.jpghttp://tede-server.lncc.br:8080/retrieve/639/Texto%20completo.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilServiço de Análise e Apoio a Formação de Recursos HumanosBioinformáticaUbiquitinasBioinformaticsCiência da ComputaçãoCiências BiológicasAnálise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliaeEmpirical analysis of machine learning techniques for classification of protein sequences of Metarhizium Anisopliaeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/198/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51ORIGINALTexto completoTexto completoapplication/pdf3554535http://tede-server.lncc.br:8080/tede/bitstream/tede/198/2/Texto+completo008e52d46f1049b4b131d2d5de745ce9MD52THUMBNAILTexto completo.jpgTexto completo.jpgimage/jpeg3325http://tede-server.lncc.br:8080/tede/bitstream/tede/198/3/Texto+completo.jpgbc56490c46cdbaa3ed6617c91cc77ea1MD53tede/1982023-05-31 16:00:40.59oai:tede-server.lncc.br:tede/198Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-05-31T19:00:40Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.por.fl_str_mv |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
dc.title.alternative.por.fl_str_mv |
Empirical analysis of machine learning techniques for classification of protein sequences of Metarhizium Anisopliae |
title |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
spellingShingle |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae Dias, Maria Fernanda Ribeiro Bioinformática Ubiquitinas Bioinformatics Ciência da Computação Ciências Biológicas |
title_short |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
title_full |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
title_fullStr |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
title_full_unstemmed |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
title_sort |
Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae |
author |
Dias, Maria Fernanda Ribeiro |
author_facet |
Dias, Maria Fernanda Ribeiro |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Guedes, Luciane Prioli Ciapina |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/1906825541995385 |
dc.contributor.advisor2.fl_str_mv |
Kritz, Maurício Vieira |
dc.contributor.advisor-co1.fl_str_mv |
Coimbra, Roney dos Santos |
dc.contributor.referee1.fl_str_mv |
Barreto, André da Motta Salles |
dc.contributor.referee2.fl_str_mv |
Alves, Ronnie Cley de Oliveira |
dc.contributor.authorID.fl_str_mv |
11203964765 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/7262655947864771 |
dc.contributor.author.fl_str_mv |
Dias, Maria Fernanda Ribeiro |
contributor_str_mv |
Guedes, Luciane Prioli Ciapina Kritz, Maurício Vieira Coimbra, Roney dos Santos Barreto, André da Motta Salles Alves, Ronnie Cley de Oliveira |
dc.subject.por.fl_str_mv |
Bioinformática Ubiquitinas Bioinformatics |
topic |
Bioinformática Ubiquitinas Bioinformatics Ciência da Computação Ciências Biológicas |
dc.subject.cnpq.fl_str_mv |
Ciência da Computação Ciências Biológicas |
description |
Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins. One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable. WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V. Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively. Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone. The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model. |
publishDate |
2014 |
dc.date.issued.fl_str_mv |
2014-03-14 |
dc.date.accessioned.fl_str_mv |
2015-04-02T18:45:51Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
DIAS, MARIA FERNANDA RIBEIRO. Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae, 2014, 123 p. Dissertação (Mestrado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2014. |
dc.identifier.uri.fl_str_mv |
https://tede.lncc.br/handle/tede/198 |
identifier_str_mv |
DIAS, MARIA FERNANDA RIBEIRO. Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae, 2014, 123 p. Dissertação (Mestrado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2014. |
url |
https://tede.lncc.br/handle/tede/198 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Modelagem Computacional |
dc.publisher.initials.fl_str_mv |
LNCC |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Serviço de Análise e Apoio a Formação de Recursos Humanos |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
bitstream.url.fl_str_mv |
http://tede-server.lncc.br:8080/tede/bitstream/tede/198/1/license.txt http://tede-server.lncc.br:8080/tede/bitstream/tede/198/2/Texto+completo http://tede-server.lncc.br:8080/tede/bitstream/tede/198/3/Texto+completo.jpg |
bitstream.checksum.fl_str_mv |
bd3efa91386c1718a7f26a329fdcb468 008e52d46f1049b4b131d2d5de745ce9 bc56490c46cdbaa3ed6617c91cc77ea1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1797683217970495488 |