Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae

Detalhes bibliográficos
Autor(a) principal: Dias, Maria Fernanda Ribeiro
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/198
Resumo: Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins. One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable. WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V. Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively. Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone. The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model.
id LNCC_5a813c90bc3b6d022203237e03a33b60
oai_identifier_str oai:tede-server.lncc.br:tede/198
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Guedes, Luciane Prioli Ciapinahttp://lattes.cnpq.br/1906825541995385Kritz, Maurício VieiraCoimbra, Roney dos SantosBarreto, André da Motta SallesAlves, Ronnie Cley de Oliveira11203964765http://lattes.cnpq.br/7262655947864771Dias, Maria Fernanda Ribeiro2015-04-02T18:45:51Z2014-03-14DIAS, MARIA FERNANDA RIBEIRO. Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae, 2014, 123 p. Dissertação (Mestrado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2014.https://tede.lncc.br/handle/tede/198Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins. One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable. WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V. Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively. Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone. The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model.Metarhizium anisopliae é um fungo entomopatogênico utilizado como inseticida biológico. Este organismo possui proteínas ligadas ao processo de infecção cujos mecanismos de controle ainda são desconhecidos. Muitos destes mecanismos podem ser controlados pelo sistema de ubiquitinação. Neste trabalho, foram utilizados métodos de aprendizado de máquina para classificar sítios de ubiquitinação em proteínas preditas, a partir do genoma do fungo {\it \Manisopliae~} isolado E6.  Cento e cinquenta e um (151) peptídeos ubiquitinados e cento e cinquenta e um (151) peptídeos não-ubiquitinados de {\it S.cereviseae} e {\it H.sapiens} foram utilizados como conjunto de treinamento.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} Cada um destes peptídeos foi composto por 21 aminoácidos com um resíduo de lisina central. Os peptídeos foram representados como vetores numéricos que correspondem ao valor médio das propriedades físico-químicas dos aminoácidos. O agrupamento hierárquico feito com os peptídeos (dados de treinamento), mostrou evidências de correlação entre várias propriedades físico-químicas, indicando alguma redundância nos atributos. Atributos redundantes podem causar {\it overfitting} do modelo e aumentar o custo computacional. Nós utilizamos o algoritmo {\it WeightedVotingXValidation} para descobrir o conjunto mínimo de atributos que me\-lhor re\-pre\-sen\-tam os peptídeos a serem classificados como ubiquitináveis ou não. O algoritmo {\it WeightedVotingXValidation} apresentou um comportamento semelhante para vetores de 10 e 31 dimensões. A correlação entre os atributos foi confirmada pelo teste de correlação de Pearson (coeficientes que variam de -0,95 a -0,40 e 0,40 a 0,98). Em seguida, comparamos o desempenho dos classificadores W-V e {\it Support Vector Machine} (SVM) com a função {\it kernel} radial para vetores com 10 ou 31 dimensões. Em ambos os casos, os resultados do SVM superou W-V. O resultado de {\it recall}, precisão e acurácia quando utilizamos 10 atributos foram, respectivamente, 67 \%, 65\% e 66\% para SVM, contra 65\%, 55\% e 47\% para W-V. Com o uso de 31 atributos, o resultado para os indicadores de desempenho foi de 71\%, 71\% e 71\% para SVM contra 60\%, 55\%, 52\% para W-V. Os dados foram processados em um {\it notebook} ASUS K43U com AMD Dual Core C60 1.0GHz , 2 x 512 KB de memória cache, 4 GB de RAM. O tempo de processamento foi de 8h e 22h, para SVM com 10 e 31 atributos físico-químicos, respectivamente. Considerando-se o risco de {\it overfitting} do modelo e a redundância dos atributos, nós aplicamos o algoritmo SVM treinado com 10 atributos físico-químicos para classificar possíveis proteínas propensas a ubiquitinação no proteoma de {\it \Manisopliae~} isolado E6 (10.775 proteínas). Os 160.694 peptídeos particionados em 21 aminoácidos contendo um resíduo de lisina na posição central, extraídos a partir de proteínas, foram representados por vetores de 10 dimensões e utilizados como conjunto independente. Das \seqliprot, 9.314 foram classificadas como sendo propensas a ubiquitinação e 1.417 como não-ubiquitináveis. Quarenta e quatro destas proteínas não foram analisadas por não possuírem o aminoácido lisina. A pequena perda de desempenho com a redução de dimensão do espaço de dados é compensada pela redução significativa no tempo de processamento e pelo menor risco de {\it overfitting} utilizando vetores de 10 dimensões.Submitted by Maria Cristina (library@lncc.br) on 2015-04-02T18:45:21Z No. of bitstreams: 1 Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5)Approved for entry into archive by Maria Cristina (library@lncc.br) on 2015-04-02T18:45:37Z (GMT) No. of bitstreams: 1 Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5)Made available in DSpace on 2015-04-02T18:45:51Z (GMT). No. of bitstreams: 1 Dissertacao_MariaFernandaRibeiroDias_entregue.pdf: 3554535 bytes, checksum: 008e52d46f1049b4b131d2d5de745ce9 (MD5) Previous issue date: 2015-02-23Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (Capes)application/pdfhttp://tede-server.lncc.br:8080/retrieve/430/Texto%20completo.jpghttp://tede-server.lncc.br:8080/retrieve/639/Texto%20completo.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBrasilServiço de Análise e Apoio a Formação de Recursos HumanosBioinformáticaUbiquitinasBioinformaticsCiência da ComputaçãoCiências BiológicasAnálise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliaeEmpirical analysis of machine learning techniques for classification of protein sequences of Metarhizium Anisopliaeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCLICENSElicense.txtlicense.txttext/plain; charset=utf-82165http://tede-server.lncc.br:8080/tede/bitstream/tede/198/1/license.txtbd3efa91386c1718a7f26a329fdcb468MD51ORIGINALTexto completoTexto completoapplication/pdf3554535http://tede-server.lncc.br:8080/tede/bitstream/tede/198/2/Texto+completo008e52d46f1049b4b131d2d5de745ce9MD52THUMBNAILTexto completo.jpgTexto completo.jpgimage/jpeg3325http://tede-server.lncc.br:8080/tede/bitstream/tede/198/3/Texto+completo.jpgbc56490c46cdbaa3ed6617c91cc77ea1MD53tede/1982023-05-31 16:00:40.59oai:tede-server.lncc.br:tede/198Tk9UQTogQ09MT1FVRSBBUVVJIEEgU1VBIFBSw5NQUklBIExJQ0VOw4dBCkVzdGEgbGljZW7Dp2EgZGUgZXhlbXBsbyDDqSBmb3JuZWNpZGEgYXBlbmFzIHBhcmEgZmlucyBpbmZvcm1hdGl2b3MuCgpMSUNFTsOHQSBERSBESVNUUklCVUnDh8ODTyBOw4NPLUVYQ0xVU0lWQQoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgClhYWCAoU2lnbGEgZGEgVW5pdmVyc2lkYWRlKSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgIHRyYWR1emlyIChjb25mb3JtZSBkZWZpbmlkbyBhYmFpeG8pLCBlL291IApkaXN0cmlidWlyIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyAoaW5jbHVpbmRvIG8gcmVzdW1vKSBwb3IgdG9kbyBvIG11bmRvIG5vIGZvcm1hdG8gaW1wcmVzc28gZSBlbGV0csO0bmljbyBlIAplbSBxdWFscXVlciBtZWlvLCBpbmNsdWluZG8gb3MgZm9ybWF0b3Mgw6F1ZGlvIG91IHbDrWRlby4KClZvY8OqIGNvbmNvcmRhIHF1ZSBhIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBwb2RlLCBzZW0gYWx0ZXJhciBvIGNvbnRlw7pkbywgdHJhbnNwb3IgYSBzdWEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIApwYXJhIHF1YWxxdWVyIG1laW8gb3UgZm9ybWF0byBwYXJhIGZpbnMgZGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIHRhbWLDqW0gY29uY29yZGEgcXVlIGEgU2lnbGEgZGUgVW5pdmVyc2lkYWRlIHBvZGUgbWFudGVyIG1haXMgZGUgdW1hIGPDs3BpYSBhIHN1YSB0ZXNlIG91IApkaXNzZXJ0YcOnw6NvIHBhcmEgZmlucyBkZSBzZWd1cmFuw6dhLCBiYWNrLXVwIGUgcHJlc2VydmHDp8Ojby4KClZvY8OqIGRlY2xhcmEgcXVlIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyDDqSBvcmlnaW5hbCBlIHF1ZSB2b2PDqiB0ZW0gbyBwb2RlciBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyAKbmVzdGEgbGljZW7Dp2EuIFZvY8OqIHRhbWLDqW0gZGVjbGFyYSBxdWUgbyBkZXDDs3NpdG8gZGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBuw6NvLCBxdWUgc2VqYSBkZSBzZXUgCmNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHRlc2Ugb3UgZGlzc2VydGHDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiAKZGVjbGFyYSBxdWUgb2J0ZXZlIGEgcGVybWlzc8OjbyBpcnJlc3RyaXRhIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBwYXJhIGNvbmNlZGVyIMOgIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSAKb3MgZGlyZWl0b3MgYXByZXNlbnRhZG9zIG5lc3RhIGxpY2Vuw6dhLCBlIHF1ZSBlc3NlIG1hdGVyaWFsIGRlIHByb3ByaWVkYWRlIGRlIHRlcmNlaXJvcyBlc3TDoSBjbGFyYW1lbnRlIAppZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBubyBjb250ZcO6ZG8gZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvIG9yYSBkZXBvc2l0YWRhLgoKQ0FTTyBBIFRFU0UgT1UgRElTU0VSVEHDh8ODTyBPUkEgREVQT1NJVEFEQSBURU5IQSBTSURPIFJFU1VMVEFETyBERSBVTSBQQVRST0PDjU5JTyBPVSAKQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PIFFVRSBOw4NPIFNFSkEgQSBTSUdMQSBERSAKVU5JVkVSU0lEQURFLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyAKVEFNQsOJTSBBUyBERU1BSVMgT0JSSUdBw4fDlUVTIEVYSUdJREFTIFBPUiBDT05UUkFUTyBPVSBBQ09SRE8uCgpBIFNpZ2xhIGRlIFVuaXZlcnNpZGFkZSBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lIChzKSBvdSBvKHMpIG5vbWUocykgZG8ocykgCmRldGVudG9yKGVzKSBkb3MgZGlyZWl0b3MgYXV0b3JhaXMgZGEgdGVzZSBvdSBkaXNzZXJ0YcOnw6NvLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIGFsw6ltIGRhcXVlbGFzIApjb25jZWRpZGFzIHBvciBlc3RhIGxpY2Vuw6dhLgo=Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-05-31T19:00:40Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.por.fl_str_mv Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
dc.title.alternative.por.fl_str_mv Empirical analysis of machine learning techniques for classification of protein sequences of Metarhizium Anisopliae
title Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
spellingShingle Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
Dias, Maria Fernanda Ribeiro
Bioinformática
Ubiquitinas
Bioinformatics
Ciência da Computação
Ciências Biológicas
title_short Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
title_full Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
title_fullStr Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
title_full_unstemmed Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
title_sort Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae
author Dias, Maria Fernanda Ribeiro
author_facet Dias, Maria Fernanda Ribeiro
author_role author
dc.contributor.advisor1.fl_str_mv Guedes, Luciane Prioli Ciapina
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/1906825541995385
dc.contributor.advisor2.fl_str_mv Kritz, Maurício Vieira
dc.contributor.advisor-co1.fl_str_mv Coimbra, Roney dos Santos
dc.contributor.referee1.fl_str_mv Barreto, André da Motta Salles
dc.contributor.referee2.fl_str_mv Alves, Ronnie Cley de Oliveira
dc.contributor.authorID.fl_str_mv 11203964765
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/7262655947864771
dc.contributor.author.fl_str_mv Dias, Maria Fernanda Ribeiro
contributor_str_mv Guedes, Luciane Prioli Ciapina
Kritz, Maurício Vieira
Coimbra, Roney dos Santos
Barreto, André da Motta Salles
Alves, Ronnie Cley de Oliveira
dc.subject.por.fl_str_mv Bioinformática
Ubiquitinas
Bioinformatics
topic Bioinformática
Ubiquitinas
Bioinformatics
Ciência da Computação
Ciências Biológicas
dc.subject.cnpq.fl_str_mv Ciência da Computação
Ciências Biológicas
description Metarhizium anisopliae} is an entomopathogenic fungus used as biological insecticide possessing proteins linked to infection processes and unknown control mechanisms, many of which may be controlled by the ubiquitination system. In this work we used machine-learning techniques to predict {\it M. anisopliae~ isolate E6} ubiquitination-prone proteins. One hundred fifty-one ubiquitinable peptides and one hundred fifty-one non-ubiquitinable peptides from {\it S. cereviseae} and {\it H. sapiens} were used as the training set.\!\footnote{(http://iclab.life.nctu.edu.tw/ubipred/)} These peptides were composed by 21 amino acids flanking a central lysine residue. Each of these peptides was represented as a numerical vector corresponding to the average value for their constituent amino-acids of each of the 31 physicochemical properties previously used in Ubipred. Hierarchical clustering of ubiquitinable proteins from this dataset showed evidence of correlation between several physicochemical properties, indicating redundancy in these features. Redundant features may cause model overfitting and increase computational cost. We used the classification algorithm Weighted-Voting (W-V), with cross validation, to disclose the minimal set of features best correlated with the probability of a given peptide being ubiquitinable. WeightedVotingXvalidation performed similarly for vectors of 10 and 31 dimensions. Indeed, each of the 10 features in the minimal set correlates with most of the remaining 21 features, as confirmed by pairwise Pearson correlation test (coefficients ranging from -0.95 to -0.40 and 0.40 to 0.98). We then compared the performance of the algorithms W-V and Support Vector Machine (SVM) with radial kernel for vectors with 10 or 31 dimensions. In both cases, SVM outperformed W-V. The resulting of recall, precision and accuracy with 10 features were respectively, 67\%, 65\% and 66\% for SVM against 65\%, 55\% and 47\% for W-V and with 31 features were 71\%, 71\% and 71\% for SVM against 60\%, 55\% and 52\% for W-V. Processing time in ASUS K43U, Process with AMD Dual Core C60 1.0 GHz, 2 x 512 KB of cache memory, 4 GB of RAM. Processing time was 8h and 22h, for SVM with 10 or 31 physicochemical features, respectively. Considering the risk of overfitting the model due to features redundancy, we applied the SVM trained with 10 features to search for ubiquitination-prone proteins in the predicted proteome of {\it M. anisopliae~ isolate E6} (10,775 proteins). The 160,694, 21-amino acids long peptides flanking a central lysine residue extracted from these proteins were represented as a 10 dimensional vector for the training dataset. Forty-four of these proteins with no lysine were automatically excluded from this analysis. The classifier predicted 9,314 proteins as being ubiquitination-prone. The small loss of performance of the SVM after dimensionality reduction is compensated by the significant reduction in processing time. The feature correlations suggest a lower risk of overfitting for the 10-dimensions model.
publishDate 2014
dc.date.issued.fl_str_mv 2014-03-14
dc.date.accessioned.fl_str_mv 2015-04-02T18:45:51Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DIAS, MARIA FERNANDA RIBEIRO. Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae, 2014, 123 p. Dissertação (Mestrado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2014.
dc.identifier.uri.fl_str_mv https://tede.lncc.br/handle/tede/198
identifier_str_mv DIAS, MARIA FERNANDA RIBEIRO. Análise empírica da utilização de técnicas de aprendizagem de máquina para classificação de sequências de proteínas de Metarhizium anisopliae, 2014, 123 p. Dissertação (Mestrado em Modelagem Computacional), Programa de Pós-Graduação de Modelagem Computacional, Laboratório Nacional de Computação Científica, Petrópolis, 2014.
url https://tede.lncc.br/handle/tede/198
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv LNCC
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Serviço de Análise e Apoio a Formação de Recursos Humanos
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
bitstream.url.fl_str_mv http://tede-server.lncc.br:8080/tede/bitstream/tede/198/1/license.txt
http://tede-server.lncc.br:8080/tede/bitstream/tede/198/2/Texto+completo
http://tede-server.lncc.br:8080/tede/bitstream/tede/198/3/Texto+completo.jpg
bitstream.checksum.fl_str_mv bd3efa91386c1718a7f26a329fdcb468
008e52d46f1049b4b131d2d5de745ce9
bc56490c46cdbaa3ed6617c91cc77ea1
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1797683217970495488