Machine learning prediction of protein abundance by codon usage metrics
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | https://locus.ufv.br//handle/123456789/27942 |
Resumo: | Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica. |
id |
UFV_907746d4d2068a4d09a84b020955b604 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/27942 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Silveira, Sabrina de AzevedoFerreira, Maurício Alexander de Mourahttp://lattes.cnpq.br/8263383011862281Silveira, Wendel Batista da2021-06-25T18:30:16Z2021-06-25T18:30:16Z2020-07-27FERREIRA, Maurício Alexander de Moura. Machine learning prediction of protein abundance by codon usage metrics. 2020. 70 f. Dissertação (Mestrado em Microbiologia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2020.https://locus.ufv.br//handle/123456789/27942Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica.Proteins are responsible for most physiological processes in the cell, and their abundance provides crucial information for systems biology research. Protein abundance is determined by a number of factors, such as mRNA abundance, translation efficiency, protein turnover rate, and codon usage bias. New frameworks of genome-scale metabolic models have been recently developed to simulate phenotypes taking into account protein abundance data along with enzyme kinetics. However, these models still have the limitation of dataset availability, which impairs their reconstruction. This is due to limitations in absolute protein quantification methods, such as mass spectrometry. Moreover, absolute protein quantification has been mostly limited to model species, such as Escherichia coli and Saccharomyces cerevisiae, which hinders system biology endeavours in non-model species. Codon usage bias directly affects translation dynamics, which in turn affects protein levels, and many metrics for codon usage have been developed in order to clarify this phenomenon. In this study, it was evaluated the effect of codon usage bias of genes in protein abundance. Notably, many differences regarding codon usage patterns between genes coding for highly abundant proteins and genes coding for less abundant proteins were observed. Based on these differences, various codon metrics coupled with machine learning algorithms were applied to predict the absolute abundance of proteins used by S. cerevisiae. The machine learning models predicted protein abundances from codon usage metrics with remarkable accuracy. Upon integration of the predicted protein abundance in enzyme-constrained genome-scale metabolic models, the simulated phenotypes closely matched experimental data, which demonstrates that the built predictive models are valuable tools for systems metabolic engineering approaches Keywords: Codon usage bias. Metabolic modelling. Metabolic engineering.Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPQengUniversidade Federal de ViçosaProteínasCódonsModelos matemáticosEngenharia MetabólicaGenética, Fisiologia e Ecologia de Micro-organismosMachine learning prediction of protein abundance by codon usage metricsPredição da abundância de proteínas por métricas de uso de códons utilizando aprendizado de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de Biologia GeralMestre em Microbiologia AgrícolaViçosa - MG2020-07-27Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1903789https://locus.ufv.br//bitstream/123456789/27942/1/texto%20completo.pdf353e88a551c501fa1efa754e31448874MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/27942/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/279422022-06-28 11:28:11.395oai:locus.ufv.br:123456789/27942Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-06-28T14:28:11LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.en.fl_str_mv |
Machine learning prediction of protein abundance by codon usage metrics |
dc.title.pt-BR.fl_str_mv |
Predição da abundância de proteínas por métricas de uso de códons utilizando aprendizado de máquina |
title |
Machine learning prediction of protein abundance by codon usage metrics |
spellingShingle |
Machine learning prediction of protein abundance by codon usage metrics Ferreira, Maurício Alexander de Moura Proteínas Códons Modelos matemáticos Engenharia Metabólica Genética, Fisiologia e Ecologia de Micro-organismos |
title_short |
Machine learning prediction of protein abundance by codon usage metrics |
title_full |
Machine learning prediction of protein abundance by codon usage metrics |
title_fullStr |
Machine learning prediction of protein abundance by codon usage metrics |
title_full_unstemmed |
Machine learning prediction of protein abundance by codon usage metrics |
title_sort |
Machine learning prediction of protein abundance by codon usage metrics |
author |
Ferreira, Maurício Alexander de Moura |
author_facet |
Ferreira, Maurício Alexander de Moura |
author_role |
author |
dc.contributor.authorLattes.pt-BR.fl_str_mv |
http://lattes.cnpq.br/8263383011862281 |
dc.contributor.none.fl_str_mv |
Silveira, Sabrina de Azevedo |
dc.contributor.author.fl_str_mv |
Ferreira, Maurício Alexander de Moura |
dc.contributor.advisor1.fl_str_mv |
Silveira, Wendel Batista da |
contributor_str_mv |
Silveira, Wendel Batista da |
dc.subject.pt-BR.fl_str_mv |
Proteínas Códons Modelos matemáticos Engenharia Metabólica |
topic |
Proteínas Códons Modelos matemáticos Engenharia Metabólica Genética, Fisiologia e Ecologia de Micro-organismos |
dc.subject.cnpq.fl_str_mv |
Genética, Fisiologia e Ecologia de Micro-organismos |
description |
Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-07-27 |
dc.date.accessioned.fl_str_mv |
2021-06-25T18:30:16Z |
dc.date.available.fl_str_mv |
2021-06-25T18:30:16Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
FERREIRA, Maurício Alexander de Moura. Machine learning prediction of protein abundance by codon usage metrics. 2020. 70 f. Dissertação (Mestrado em Microbiologia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2020. |
dc.identifier.uri.fl_str_mv |
https://locus.ufv.br//handle/123456789/27942 |
identifier_str_mv |
FERREIRA, Maurício Alexander de Moura. Machine learning prediction of protein abundance by codon usage metrics. 2020. 70 f. Dissertação (Mestrado em Microbiologia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2020. |
url |
https://locus.ufv.br//handle/123456789/27942 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/27942/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/27942/2/license.txt |
bitstream.checksum.fl_str_mv |
353e88a551c501fa1efa754e31448874 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212982517039104 |