Machine learning prediction of protein abundance by codon usage metrics

Detalhes bibliográficos
Autor(a) principal: Ferreira, Maurício Alexander de Moura
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: LOCUS Repositório Institucional da UFV
Texto Completo: https://locus.ufv.br//handle/123456789/27942
Resumo: Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica.
id UFV_907746d4d2068a4d09a84b020955b604
oai_identifier_str oai:locus.ufv.br:123456789/27942
network_acronym_str UFV
network_name_str LOCUS Repositório Institucional da UFV
repository_id_str 2145
spelling Silveira, Sabrina de AzevedoFerreira, Maurício Alexander de Mourahttp://lattes.cnpq.br/8263383011862281Silveira, Wendel Batista da2021-06-25T18:30:16Z2021-06-25T18:30:16Z2020-07-27FERREIRA, Maurício Alexander de Moura. Machine learning prediction of protein abundance by codon usage metrics. 2020. 70 f. Dissertação (Mestrado em Microbiologia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2020.https://locus.ufv.br//handle/123456789/27942Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica.Proteins are responsible for most physiological processes in the cell, and their abundance provides crucial information for systems biology research. Protein abundance is determined by a number of factors, such as mRNA abundance, translation efficiency, protein turnover rate, and codon usage bias. New frameworks of genome-scale metabolic models have been recently developed to simulate phenotypes taking into account protein abundance data along with enzyme kinetics. However, these models still have the limitation of dataset availability, which impairs their reconstruction. This is due to limitations in absolute protein quantification methods, such as mass spectrometry. Moreover, absolute protein quantification has been mostly limited to model species, such as Escherichia coli and Saccharomyces cerevisiae, which hinders system biology endeavours in non-model species. Codon usage bias directly affects translation dynamics, which in turn affects protein levels, and many metrics for codon usage have been developed in order to clarify this phenomenon. In this study, it was evaluated the effect of codon usage bias of genes in protein abundance. Notably, many differences regarding codon usage patterns between genes coding for highly abundant proteins and genes coding for less abundant proteins were observed. Based on these differences, various codon metrics coupled with machine learning algorithms were applied to predict the absolute abundance of proteins used by S. cerevisiae. The machine learning models predicted protein abundances from codon usage metrics with remarkable accuracy. Upon integration of the predicted protein abundance in enzyme-constrained genome-scale metabolic models, the simulated phenotypes closely matched experimental data, which demonstrates that the built predictive models are valuable tools for systems metabolic engineering approaches Keywords: Codon usage bias. Metabolic modelling. Metabolic engineering.Conselho Nacional de Desenvolvimento Científico e Tecnológico - CNPQengUniversidade Federal de ViçosaProteínasCódonsModelos matemáticosEngenharia MetabólicaGenética, Fisiologia e Ecologia de Micro-organismosMachine learning prediction of protein abundance by codon usage metricsPredição da abundância de proteínas por métricas de uso de códons utilizando aprendizado de máquinainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal de ViçosaDepartamento de Biologia GeralMestre em Microbiologia AgrícolaViçosa - MG2020-07-27Mestradoinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdftexto completo.pdftexto completoapplication/pdf1903789https://locus.ufv.br//bitstream/123456789/27942/1/texto%20completo.pdf353e88a551c501fa1efa754e31448874MD51LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://locus.ufv.br//bitstream/123456789/27942/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52123456789/279422022-06-28 11:28:11.395oai:locus.ufv.br:123456789/27942Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452022-06-28T14:28:11LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false
dc.title.en.fl_str_mv Machine learning prediction of protein abundance by codon usage metrics
dc.title.pt-BR.fl_str_mv Predição da abundância de proteínas por métricas de uso de códons utilizando aprendizado de máquina
title Machine learning prediction of protein abundance by codon usage metrics
spellingShingle Machine learning prediction of protein abundance by codon usage metrics
Ferreira, Maurício Alexander de Moura
Proteínas
Códons
Modelos matemáticos
Engenharia Metabólica
Genética, Fisiologia e Ecologia de Micro-organismos
title_short Machine learning prediction of protein abundance by codon usage metrics
title_full Machine learning prediction of protein abundance by codon usage metrics
title_fullStr Machine learning prediction of protein abundance by codon usage metrics
title_full_unstemmed Machine learning prediction of protein abundance by codon usage metrics
title_sort Machine learning prediction of protein abundance by codon usage metrics
author Ferreira, Maurício Alexander de Moura
author_facet Ferreira, Maurício Alexander de Moura
author_role author
dc.contributor.authorLattes.pt-BR.fl_str_mv http://lattes.cnpq.br/8263383011862281
dc.contributor.none.fl_str_mv Silveira, Sabrina de Azevedo
dc.contributor.author.fl_str_mv Ferreira, Maurício Alexander de Moura
dc.contributor.advisor1.fl_str_mv Silveira, Wendel Batista da
contributor_str_mv Silveira, Wendel Batista da
dc.subject.pt-BR.fl_str_mv Proteínas
Códons
Modelos matemáticos
Engenharia Metabólica
topic Proteínas
Códons
Modelos matemáticos
Engenharia Metabólica
Genética, Fisiologia e Ecologia de Micro-organismos
dc.subject.cnpq.fl_str_mv Genética, Fisiologia e Ecologia de Micro-organismos
description Proteínas são as principais moléculas responsáveis por processos fisiológicos na célula, e o conhecimento de suas abundâncias é crucial para pesquisas em biologia sistêmica do metabolismo. A abundância de proteínas é determinada por uma série de fatores, como abundância de mRNA, eficiência da tradução, taxas de turnover de proteínas e viés no uso de códons. Recentemente, novas plataformas para simulação de fenótipos têm sido desenvolvidas, integrando dados de eficiência catalítica e abundância de proteína a modelos metabólicos em escala genômica. Entretanto, o uso destes modelos é dificultado pela indisponibilidade de dados de abundância de muitas proteínas, principalmente por limitações analíticas como espectrometria de massas. Além disso, muitos dos esforços em proteômica quantitativa têm sido focados em espécies-modelo, como Saccharomyces cerevisiae e Escherichia coli, o que limita abordagens sistêmicas em espécies não modelos. O viés no uso de códons é um fenômeno que afeta diretamente a dinâmica da tradução, o que impacta na quantidade de proteína presente na célula. Dessa forma, muitas métricas foram desenvolvidas para explicar matematicamente esse fenômeno. Neste trabalho, foram exploradas as diferenças no uso de códons entre sequências codificantes de proteínas de S. cerevisiae de alta e baixa abundância. Estes dados foram utilizados para o treinamento de algoritmos de aprendizado de máquina, com o intuito de gerar modelos capazes de predizer a abundância de proteínas. As abundâncias preditas foram então integradas em modelos metabólicos em escala genômica, e os fenótipos simulados apresentaram boa correspondência com valores experimentais. Isso demonstra que estes modelos preditivos são ferramentas valiosas para a biologia sistêmica do metabolismo e para a engenharia metabólica. Palavras-chave: Uso de códons. Modelagem metabólica. Engenharia metabólica.
publishDate 2020
dc.date.issued.fl_str_mv 2020-07-27
dc.date.accessioned.fl_str_mv 2021-06-25T18:30:16Z
dc.date.available.fl_str_mv 2021-06-25T18:30:16Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv FERREIRA, Maurício Alexander de Moura. Machine learning prediction of protein abundance by codon usage metrics. 2020. 70 f. Dissertação (Mestrado em Microbiologia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2020.
dc.identifier.uri.fl_str_mv https://locus.ufv.br//handle/123456789/27942
identifier_str_mv FERREIRA, Maurício Alexander de Moura. Machine learning prediction of protein abundance by codon usage metrics. 2020. 70 f. Dissertação (Mestrado em Microbiologia Agrícola) - Universidade Federal de Viçosa, Viçosa. 2020.
url https://locus.ufv.br//handle/123456789/27942
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Viçosa
publisher.none.fl_str_mv Universidade Federal de Viçosa
dc.source.none.fl_str_mv reponame:LOCUS Repositório Institucional da UFV
instname:Universidade Federal de Viçosa (UFV)
instacron:UFV
instname_str Universidade Federal de Viçosa (UFV)
instacron_str UFV
institution UFV
reponame_str LOCUS Repositório Institucional da UFV
collection LOCUS Repositório Institucional da UFV
bitstream.url.fl_str_mv https://locus.ufv.br//bitstream/123456789/27942/1/texto%20completo.pdf
https://locus.ufv.br//bitstream/123456789/27942/2/license.txt
bitstream.checksum.fl_str_mv 353e88a551c501fa1efa754e31448874
8a4605be74aa9ea9d79846c1fba20a33
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)
repository.mail.fl_str_mv fabiojreis@ufv.br
_version_ 1801212982517039104