Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli

Detalhes bibliográficos
Autor(a) principal: Maia, Guilherme Augusto
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/215541
Resumo: Dissertação (mestrado) - Universidade Federal de Santa Catarina, Programa de Pós-Graduação em Biotecnologia e Biociências, Florianópolis, 2019.
id UFSC_b7390c99a6bc1e7f1794522eaaf0d05b
oai_identifier_str oai:repositorio.ufsc.br:123456789/215541
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa CatarinaMaia, Guilherme AugustoWagner, Glauber2020-10-21T21:17:44Z2020-10-21T21:17:44Z2019363977https://repositorio.ufsc.br/handle/123456789/215541Dissertação (mestrado) - Universidade Federal de Santa Catarina, Programa de Pós-Graduação em Biotecnologia e Biociências, Florianópolis, 2019.O Trypanosoma rangeli é um protozoário que infecta triatomíneos e diversos mamíferos para realizar o seu ciclo biológico. O T. rangeli tornou-se um organismo de interesse científico devido a sua similaridade genômica e proteômica com Trypanosoma cruzi. Do genoma de T. rangeli foi observado que 66% dos genes codificam ?proteínas hipotéticas?, que são proteínas preditas por ferramentas de bioinformática, mas que não têm suas funções caracterizadas. O estudo destes dados moleculares, através de análises computacionais comparativas, pode esclarecer os mecanismos de virulência e infectividade de outras espécies de Trypanosoma. Este trabalho tem como objetivo caracterizar a possível função e expressão de proteínas hipotéticas em T. rangeli através de análises in silico com base em dados genômicos, transcriptômicos e proteômicos deste organismo. Foi feita a predição de sequências a partir de diferentes dados de sequenciamento e montagens do genoma de T. rangeli, utilizando-se os programas Glimmer e Augustus. As 10.506 sequências proteicas preditas não redundantes foram utilizadas para realizar uma busca por similaridade com outros genomas através do algoritmo do BLAST+, com dados disponíveis no TriTrypDB v.41, das quais 6.475 encontraram correspondência de anotação, 3.740 foram anotadas como hipotéticas, 133 como pseudogenes e 158 não encontraram nenhuma correspondência, formando assim um conjunto de dados de 3.898 proteínas hipotéticas. Destas, 1.149 continham descrições ou anotações funcionais considerando os resultados do InterProScan, HMMER e RPSblast+, sendo que 788 (20,42%) destas proteínas hipotéticas continham ao menos uma descrição. Para avaliar a possível expressão destas proteínas, foram realizadas análises de evidências de expressão utilizando dados disponíveis do transcriptoma e do proteoma de T. rangeli. Foram encontradas 3.690 (94,66%) sequências hipotéticas com pelo menos um transcrito e 1.452 (37,25%) com pelo menos dois peptídeos nas análises de espectrometria de massas. Considerando apenas sequências que apresentavam ambas evidências de expressão, 1.018 (26,12%) sequências hipotéticas são potencialmente expressas. Finalmente, utilizando os dados gerados neste pipeline, é possível reanotar 372 (9,54%) de todas as proteínas previamente descritas como hipotéticas, pois apresentam maior respaldo para uma anotação confiável. Em conclusão, este trabalho gerou uma abordagem sistemática e integrada que permite a reanotação de proteínas in silico e potencialmente aplicável a outros genomas que apresentem dados de expressão.<br>Abstract : Trypanosoma rangeli is a protozoan that infects triatomines and mammals to complete its biological life cycle. T. rangeli has become an organism of scientific interest due to its genomic and proteomic similarity to Trypanosoma cruzi. From its genome, it was observed that 66% of the genes were annotated as ?hypothetical proteins?, which are proteins predicted by bioinformatics? tools, although their function is unknown. The study of this molecular data, through comparative computational analysis, may help to elucidate the mechanisms of virulence and infectivity of other Trypanosomes. This study aimed to characterize the putative function and expression of hypothetical proteins of T. rangeli using an in silico approach based on genomic, transcriptomic and proteomic data. The gene prediction was performed by Glimmer and Augustus utilizing sequenced and assembled data from different versions of T. rangeli genome. 10,506 non redundant protein sequences were used as query in a similarity analysis with the BLAST+ algorithm, searching against data available on TriTrypDB v. 41, of which 6,475 sequences found a hit on the database, 3,740 were annotated as hypothetical, 133 as pseudogene and 158 did not find any corresponding match, therefore forming a dataset of 3,898 hypothetical proteins. 1,149 of those had available descriptions or functional annotations considering the results found by InterProScan, HMMER, and RPSblast+, from these 788 (20.42%) hypothetical proteins had at least one description. To evaluate the possible expression of these proteins, evidence of expression analysis was performed using available transcriptome and proteomic data from T. rangeli. 3,690 (64.66%) protein sequences had at least one transcript associated and 1,452 (37.25%) at least two different peptides originated from a previous mass spectrometry analysis. Considering only the sequences which presented both evidence, 1,018 (26.12%) hypothetical proteins could potentially be expressed. Finally, according to the results found here, it is possible to reannotate 372 (9.54%) sequences that were previously annotated as hypothetical, as these are the sequences that show greater evidence. In conclusion, this study developed an integrated systemic analysis that allows for protein reannotation in silico and could be applied to other organisms that have available expression data.79 p.| ils., gráfs., gráfs.porBiotecnologiaTrypanosoma rangeliBioinformáticaGenomaProteomaProteínasFerramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeliinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccessORIGINALPBTC0302-D.pdfPBTC0302-D.pdfapplication/pdf1925553https://repositorio.ufsc.br/bitstream/123456789/215541/-1/PBTC0302-D.pdff49ff188e17f80e206499bc592ddd59cMD5-1123456789/2155412020-10-21 18:17:44.378oai:repositorio.ufsc.br:123456789/215541Repositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732020-10-21T21:17:44Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
title Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
spellingShingle Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
Maia, Guilherme Augusto
Biotecnologia
Trypanosoma rangeli
Bioinformática
Genoma
Proteoma
Proteínas
title_short Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
title_full Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
title_fullStr Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
title_full_unstemmed Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
title_sort Ferramenta integrada para anotação de proteínas hipotéticas: estudo de caso utilizando análises proteogenômicas em Trypanosoma rangeli
author Maia, Guilherme Augusto
author_facet Maia, Guilherme Augusto
author_role author
dc.contributor.none.fl_str_mv Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Maia, Guilherme Augusto
dc.contributor.advisor1.fl_str_mv Wagner, Glauber
contributor_str_mv Wagner, Glauber
dc.subject.classification.none.fl_str_mv Biotecnologia
Trypanosoma rangeli
Bioinformática
Genoma
Proteoma
Proteínas
topic Biotecnologia
Trypanosoma rangeli
Bioinformática
Genoma
Proteoma
Proteínas
description Dissertação (mestrado) - Universidade Federal de Santa Catarina, Programa de Pós-Graduação em Biotecnologia e Biociências, Florianópolis, 2019.
publishDate 2019
dc.date.issued.fl_str_mv 2019
dc.date.accessioned.fl_str_mv 2020-10-21T21:17:44Z
dc.date.available.fl_str_mv 2020-10-21T21:17:44Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/215541
dc.identifier.other.none.fl_str_mv 363977
identifier_str_mv 363977
url https://repositorio.ufsc.br/handle/123456789/215541
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 79 p.| ils., gráfs., gráfs.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/215541/-1/PBTC0302-D.pdf
bitstream.checksum.fl_str_mv f49ff188e17f80e206499bc592ddd59c
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766805000518893568