Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/9772 |
Resumo: | Tuberculosis is an infectious disease mainly caused by Mycobacterium tuberculosis. Despite the availability of treatment and vaccine, this disease accounts for millions of deaths annually. Moreover, the emergence of resistant strains to the first-line drugs is increasing. Therefore, the understanding of mycobacterial biology is essential to the development new therapeutic strategies to reduce the tuberculosis incidence in the world. Since the first prokaryotic DNA sequencing twenty-five years ago, it has become possible to delve deeper into bacterial genomes and to better understand the organization and regulation of their genes. Traditionally, annotation pipelines only include in their workflow Open Reading Frames (ORFs) with at least 300 nucleotides, or 100 codons. Hence, the set of ORFs with less than 100 codons, known as small ORFs (smORFs), is excluded by an arbitrary cutoff since countless smORFs sequences may be found in any genome just by chance, with a high probability of being biologically meaningless and not, in fact, a coding sequence. In this work. We investigated the hidden universe of microproteins encoded by smORFs in Mycolicibacterium smegmatis mc²155 (Mycobacterium smegmatis), normally used as a model of M. tuberculosis due to its non-pathogenic and fast-growing characteristics, by applying a proteogenomic approach. Combining genomics, transcriptomics and proteomics we were able to accurately identify and annotate these smORFs. We improved the results performing different methods to enrich low molecular weight proteins, as they may have low abundance in a complex biological sample. Throughout our analysis, we identified 16 unannotated ORFs, one of which has 23 paralogues spread across copies of IS1096, a well-known M. smegmatis transposon, showing that element encodes a total of three ORFs, one more than previously reported. Our workflow also allowed us to extend the sequence of a previously annotated protein and to find the shortest ORF yet in the genome of M. smegmatis. We were able to show that the most prominent start codon in these sequences is GTG, followed by the canonical ATG and the alternatives ATT and TTG. Many of these new ORFs have both annotated and unannotated orthologous sequences in Mycobacteria and other close bacteria. Moreover, we showed how the combination of multiple proteomes can properly exclude known proteins that would otherwise be deemed as novel. We expect this study to contribute to the understanding of mycobacterial genomes and proteomes. Moreover, we believe that the discovery of these proteins will provide insights for new studies dedicated to their structures, functions, and essentiality. |
id |
P_RS_31ae807a248d32d74eae9e8bd4cffe61 |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/9772 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Bizarro, Cristiano Valimhttp://lattes.cnpq.br/8237569228020224http://lattes.cnpq.br/0215025477816008Dalberto, Pedro Ferrari2021-07-01T13:45:32Z2021-03-29http://tede2.pucrs.br/tede2/handle/tede/9772Tuberculosis is an infectious disease mainly caused by Mycobacterium tuberculosis. Despite the availability of treatment and vaccine, this disease accounts for millions of deaths annually. Moreover, the emergence of resistant strains to the first-line drugs is increasing. Therefore, the understanding of mycobacterial biology is essential to the development new therapeutic strategies to reduce the tuberculosis incidence in the world. Since the first prokaryotic DNA sequencing twenty-five years ago, it has become possible to delve deeper into bacterial genomes and to better understand the organization and regulation of their genes. Traditionally, annotation pipelines only include in their workflow Open Reading Frames (ORFs) with at least 300 nucleotides, or 100 codons. Hence, the set of ORFs with less than 100 codons, known as small ORFs (smORFs), is excluded by an arbitrary cutoff since countless smORFs sequences may be found in any genome just by chance, with a high probability of being biologically meaningless and not, in fact, a coding sequence. In this work. We investigated the hidden universe of microproteins encoded by smORFs in Mycolicibacterium smegmatis mc²155 (Mycobacterium smegmatis), normally used as a model of M. tuberculosis due to its non-pathogenic and fast-growing characteristics, by applying a proteogenomic approach. Combining genomics, transcriptomics and proteomics we were able to accurately identify and annotate these smORFs. We improved the results performing different methods to enrich low molecular weight proteins, as they may have low abundance in a complex biological sample. Throughout our analysis, we identified 16 unannotated ORFs, one of which has 23 paralogues spread across copies of IS1096, a well-known M. smegmatis transposon, showing that element encodes a total of three ORFs, one more than previously reported. Our workflow also allowed us to extend the sequence of a previously annotated protein and to find the shortest ORF yet in the genome of M. smegmatis. We were able to show that the most prominent start codon in these sequences is GTG, followed by the canonical ATG and the alternatives ATT and TTG. Many of these new ORFs have both annotated and unannotated orthologous sequences in Mycobacteria and other close bacteria. Moreover, we showed how the combination of multiple proteomes can properly exclude known proteins that would otherwise be deemed as novel. We expect this study to contribute to the understanding of mycobacterial genomes and proteomes. Moreover, we believe that the discovery of these proteins will provide insights for new studies dedicated to their structures, functions, and essentiality.A tuberculose é uma doença infecciosa causada principalmente pelo Mycobacterium tuberculosis. Apesar da disponibilidade de tratamento e vacina, ela é responsável por milhões de mortes anualmente. Além disso, o surgimento de cepas resistentes aos medicamentos de primeira linha vem em constante crescimento. Portanto, o entendimento da biologia micobacteriana é essencial para o desenvolvimento de novas estratégias terapêuticas que reduzam a prevalência da tuberculose no mundo. Desde o primeiro sequenciamento de DNA procariótico, há mais de vinte e cinco anos, tornou-se possível desvendar os mistérios dos genomas bacterianos e compreender melhor a organização e a regulação de seus genes. Tradicionalmente, as pipelines de anotação incluem apenas em seu fluxo de trabalho ORFs (do inglês Open Reading Frame) com pelo menos 300 nucleotídeos ou 100 códons. As ORFs inferiores a 100 códons, conhecidas como pequenas ORFs (small ORFs - smORFs), são excluídas por um corte arbitrário, uma vez que um grande número de smORFs podem ser encontradas em qualquer genoma apenas ao acaso, com uma alta probabilidade de serem biologicamente sem sentido e não codificarem proteínas. Neste trabalho, investigamos o universo oculto de microproteínas codificadas por smORFS em Mycolicibacterium smegmatis mc²155 (Mycobacterium smegmatis), normalmente utilizado como modelo de M. tuberculosis devido às suas características não patogênicas e de rápido crescimento, por meio de uma abordagem proteogenômica. Combinando genômica, transcriptômica e proteômica, fomos capazes de identificar e anotar com precisão smORFs em M. smegmatis. Conseguimos aumentar a eficiência de identificação de microproteínas por meio de diferentes métodos de enriquecimento de proteínas de baixo peso molecular, pois elas, normalmente, são consideradas proteínas de baixa abundância em uma amostra biológica complexa. Identificamos 16 ORFs não anotadas, uma delas possuindo 23 parálogos espalhados por cópias do elemento de inserção IS1096, um conhecido transposon de M. smegmatis. Desse modo, descrevemos a existência de uma terceira ORF funcional do elemento IS1096, além das duas já conhecidas e caracterizadas. Nosso trabalho também nos permitiu estender a sequência de uma proteína previamente anotada e identificar a menor sequência codificadora já encontrada no genoma de M. smegmatis. Mostramos que o códon de início mais frequente nessas sequências é o GTG, seguido pelo ATG canônico e posteriormente pelos códons alternativos ATT e TTG. Muitas dessas novas ORFs possuem tanto sequências ortólogas anotadas quanto não anotadas em micobactérias e em outras bactérias próximas. Além disso, mostramos como a combinação de diferentes bancos de dados de proteomas podem excluir adequadamente proteínas conhecidas que, de outra forma, seriam consideradas novas. Esperamos que este estudo irá contribuir para a compreensão dos genomas e proteomas micobacterianos. Ainda, acreditamos que a descoberta dessas proteínas irá proporcionar novos estudos dedicados à elucidação de suas estruturas, funções e avaliação de essencialidade.Submitted by PPG Biologia Celular e Molecular (bcm@pucrs.br) on 2021-06-30T15:42:08Z No. of bitstreams: 1 PEDRO_FERRARI_DALBERTO_TES.pdf: 16668307 bytes, checksum: f56c0d217df790c46d1e5b644c7b49a9 (MD5)Approved for entry into archive by Sheila Dias (sheila.dias@pucrs.br) on 2021-07-01T13:35:37Z (GMT) No. of bitstreams: 1 PEDRO_FERRARI_DALBERTO_TES.pdf: 16668307 bytes, checksum: f56c0d217df790c46d1e5b644c7b49a9 (MD5)Made available in DSpace on 2021-07-01T13:45:32Z (GMT). No. of bitstreams: 1 PEDRO_FERRARI_DALBERTO_TES.pdf: 16668307 bytes, checksum: f56c0d217df790c46d1e5b644c7b49a9 (MD5) Previous issue date: 2021-03-29Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESapplication/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/181521/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Biologia Celular e MolecularPUCRSBrasilEscola de CiênciasTuberculoseEspectrometria de MassaProteogenômicaSmORFsMicroproteínasCIENCIAS BIOLOGICAS::BIOLOGIA GERALIdentificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômicainfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisTrabalho será publicado como artigo ou livro60 meses01/07/20263463594373552466096500500600-16345593859312446973590462550136975366info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAILTES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.jpgTES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.jpgimage/jpeg4083http://tede2.pucrs.br/tede2/bitstream/tede/9772/4/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.jpgf647f5b28a894bd2f298303e6b098edcMD54TEXTTES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.txtTES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.txttext/plain1810http://tede2.pucrs.br/tede2/bitstream/tede/9772/3/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.txt6085edbda60668471870f9fb65f53ecbMD53ORIGINALTES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdfTES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdfapplication/pdf342501http://tede2.pucrs.br/tede2/bitstream/tede/9772/2/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf38b5f7fb33c45aa488e82e83a71dca77MD52LICENSElicense.txtlicense.txttext/plain; charset=utf-8590http://tede2.pucrs.br/tede2/bitstream/tede/9772/1/license.txt220e11f2d3ba5354f917c7035aadef24MD51tede/97722021-07-01 12:00:24.609oai:tede2.pucrs.br:tede/9772QXV0b3JpemE/P28gcGFyYSBQdWJsaWNhPz9vIEVsZXRyP25pY2E6IENvbSBiYXNlIG5vIGRpc3Bvc3RvIG5hIExlaSBGZWRlcmFsIG4/OS42MTAsIGRlIDE5IGRlIGZldmVyZWlybyBkZSAxOTk4LCBvIGF1dG9yIEFVVE9SSVpBIGEgcHVibGljYT8/byBlbGV0cj9uaWNhIGRhIHByZXNlbnRlIG9icmEgbm8gYWNlcnZvIGRhIEJpYmxpb3RlY2EgRGlnaXRhbCBkYSBQb250aWY/Y2lhIFVuaXZlcnNpZGFkZSBDYXQ/bGljYSBkbyBSaW8gR3JhbmRlIGRvIFN1bCwgc2VkaWFkYSBhIEF2LiBJcGlyYW5nYSA2NjgxLCBQb3J0byBBbGVncmUsIFJpbyBHcmFuZGUgZG8gU3VsLCBjb20gcmVnaXN0cm8gZGUgQ05QSiA4ODYzMDQxMzAwMDItODEgYmVtIGNvbW8gZW0gb3V0cmFzIGJpYmxpb3RlY2FzIGRpZ2l0YWlzLCBuYWNpb25haXMgZSBpbnRlcm5hY2lvbmFpcywgY29ucz9yY2lvcyBlIHJlZGVzID9zIHF1YWlzIGEgYmlibGlvdGVjYSBkYSBQVUNSUyBwb3NzYSBhIHZpciBwYXJ0aWNpcGFyLCBzZW0gP251cyBhbHVzaXZvIGFvcyBkaXJlaXRvcyBhdXRvcmFpcywgYSB0P3R1bG8gZGUgZGl2dWxnYT8/byBkYSBwcm9kdT8/byBjaWVudD9maWNhLgo=Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2021-07-01T15:00:24Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
title |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
spellingShingle |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica Dalberto, Pedro Ferrari Tuberculose Espectrometria de Massa Proteogenômica SmORFs Microproteínas CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
title_short |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
title_full |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
title_fullStr |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
title_full_unstemmed |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
title_sort |
Identificação de microproteínas codificadas por pequenas ORFs em mycolicibacterium smegmatis (mycobacterium smegmatis) por meio de análise proteogenômica |
author |
Dalberto, Pedro Ferrari |
author_facet |
Dalberto, Pedro Ferrari |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Bizarro, Cristiano Valim |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/8237569228020224 |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/0215025477816008 |
dc.contributor.author.fl_str_mv |
Dalberto, Pedro Ferrari |
contributor_str_mv |
Bizarro, Cristiano Valim |
dc.subject.por.fl_str_mv |
Tuberculose Espectrometria de Massa Proteogenômica SmORFs Microproteínas |
topic |
Tuberculose Espectrometria de Massa Proteogenômica SmORFs Microproteínas CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
dc.subject.cnpq.fl_str_mv |
CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
description |
Tuberculosis is an infectious disease mainly caused by Mycobacterium tuberculosis. Despite the availability of treatment and vaccine, this disease accounts for millions of deaths annually. Moreover, the emergence of resistant strains to the first-line drugs is increasing. Therefore, the understanding of mycobacterial biology is essential to the development new therapeutic strategies to reduce the tuberculosis incidence in the world. Since the first prokaryotic DNA sequencing twenty-five years ago, it has become possible to delve deeper into bacterial genomes and to better understand the organization and regulation of their genes. Traditionally, annotation pipelines only include in their workflow Open Reading Frames (ORFs) with at least 300 nucleotides, or 100 codons. Hence, the set of ORFs with less than 100 codons, known as small ORFs (smORFs), is excluded by an arbitrary cutoff since countless smORFs sequences may be found in any genome just by chance, with a high probability of being biologically meaningless and not, in fact, a coding sequence. In this work. We investigated the hidden universe of microproteins encoded by smORFs in Mycolicibacterium smegmatis mc²155 (Mycobacterium smegmatis), normally used as a model of M. tuberculosis due to its non-pathogenic and fast-growing characteristics, by applying a proteogenomic approach. Combining genomics, transcriptomics and proteomics we were able to accurately identify and annotate these smORFs. We improved the results performing different methods to enrich low molecular weight proteins, as they may have low abundance in a complex biological sample. Throughout our analysis, we identified 16 unannotated ORFs, one of which has 23 paralogues spread across copies of IS1096, a well-known M. smegmatis transposon, showing that element encodes a total of three ORFs, one more than previously reported. Our workflow also allowed us to extend the sequence of a previously annotated protein and to find the shortest ORF yet in the genome of M. smegmatis. We were able to show that the most prominent start codon in these sequences is GTG, followed by the canonical ATG and the alternatives ATT and TTG. Many of these new ORFs have both annotated and unannotated orthologous sequences in Mycobacteria and other close bacteria. Moreover, we showed how the combination of multiple proteomes can properly exclude known proteins that would otherwise be deemed as novel. We expect this study to contribute to the understanding of mycobacterial genomes and proteomes. Moreover, we believe that the discovery of these proteins will provide insights for new studies dedicated to their structures, functions, and essentiality. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-07-01T13:45:32Z |
dc.date.issued.fl_str_mv |
2021-03-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/9772 |
url |
http://tede2.pucrs.br/tede2/handle/tede/9772 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
3463594373552466096 |
dc.relation.confidence.fl_str_mv |
500 500 600 |
dc.relation.cnpq.fl_str_mv |
-1634559385931244697 |
dc.relation.sponsorship.fl_str_mv |
3590462550136975366 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Biologia Celular e Molecular |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Escola de Ciências |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/9772/4/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/9772/3/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/9772/2/TES_PEDRO_FERRARI_DALBERTO_CONFIDENCIAL.pdf http://tede2.pucrs.br/tede2/bitstream/tede/9772/1/license.txt |
bitstream.checksum.fl_str_mv |
f647f5b28a894bd2f298303e6b098edc 6085edbda60668471870f9fb65f53ecb 38b5f7fb33c45aa488e82e83a71dca77 220e11f2d3ba5354f917c7035aadef24 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765350815891456 |