Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web

Detalhes bibliográficos
Autor(a) principal: Araujo, Nicolas da Matta Freire
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da FIOCRUZ (ARCA)
Texto Completo: https://www.arca.fiocruz.br/handle/icict/55145
Resumo: A doença de Chagas é uma doença tropical negligenciada que somente possui tratamento paliativo, logo, deve ser contida por medidas de urbanização e controle vetorial. O protozoário Trypanosoma cruzi, causador da doença, é transmitido por triatomíneos dos gêneros Triatoma, Panstrongylus e Rhodnius. O Rhodnius prolixus é um importante vetor na América Latina, sendo o primeiro triatomíneo a ter seu genoma sequenciado e analisado por um grupo internacional. Entretanto, a versão de montagem do seu genoma mais atual (Hi-C) não possui predição gênica, além de que existem genes preditos exclusivamente em versões anteriores. A técnica Hi-C permite utilizar o mapeamento físico da cromatina para guiar a montagem gerando um genoma de maior qualidade. Logo, se faz necessário uma nova predição gênica na montagem Hi-C juntamente com a conciliação com as predições anteriores, além da disponibilização desses dados em um navegador, para visualização e exploração pela comunidade científica. Portanto, foi feita a predição gênica (P13) da versão mais atual de montagem do genoma utilizando o software AUGUSTUS, que acabou identificando 15.181 transcritos codificadores de proteínas e, alcançou uma completude de 92,7%, sendo a maior dentre as predições de R. prolixus consideradas. Em seguida, os genes antigos passaram por filtros para a remoção de sequências com bases indefinidas, redundância e quimeras, totalizando 13.840 genes codificadores de proteína e 1.505 não-codificadores de proteínas. Os não codificadores foram alinhados contra o genoma Hi-C utilizando tanto o programa Sim4 quanto o Exonerate, destes, apenas 345 genes alinharam em regiões sem predição gênica. Já os codificadores foram utilizados para enriquecer a predição P13 através de um script desenvolvido para fazer a conciliação tanto de genes preditos como de genes de transcriptoma. A conciliação com genes de transcriptoma e com genes preditos antigos resultou na predição P15 com 17.500 proteínas com completude de 93,2% sendo a predição de maior qualidade para R. prolixus. A P15 juntamente com as montagens de genoma, as predições antigas e dados de RNAseq foram disponibilizados no navegador de genomas JBrowse, hospedado em um servidor do Laboratório de Bioinformática do Instituto de Química da UFRJ. Dessa maneira, a disponibilização de todos esses dados navegáveis, poderá fomentar os estudos biológicos e de controle vetorial com o inseto. Além de possibilitar estudos comparativos com espécies de triatomíneos que venham a ocupar seu nicho biológico. Por fim, o script aqui desenvolvido também pode ser usado para a conciliação de genes de outras espécies
id CRUZ_a1b8e30fb3241b82b0d2ac05866b0393
oai_identifier_str oai:www.arca.fiocruz.br:icict/55145
network_acronym_str CRUZ
network_name_str Repositório Institucional da FIOCRUZ (ARCA)
repository_id_str 2135
spelling Araujo, Nicolas da Matta FreireSouza, Marcos Paulo Catanho dePassetti, FabioOliveira, Pedro Lagerblad deMiranda, Antonio Basilio deMajerowicz, DavidMesquita, Rafael Dias2022-10-14T16:35:43Z2022-10-14T16:35:43Z2022ARAUJO, Nicolas da Matta Freire. Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web. 2022. 117 f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2022.https://www.arca.fiocruz.br/handle/icict/55145A doença de Chagas é uma doença tropical negligenciada que somente possui tratamento paliativo, logo, deve ser contida por medidas de urbanização e controle vetorial. O protozoário Trypanosoma cruzi, causador da doença, é transmitido por triatomíneos dos gêneros Triatoma, Panstrongylus e Rhodnius. O Rhodnius prolixus é um importante vetor na América Latina, sendo o primeiro triatomíneo a ter seu genoma sequenciado e analisado por um grupo internacional. Entretanto, a versão de montagem do seu genoma mais atual (Hi-C) não possui predição gênica, além de que existem genes preditos exclusivamente em versões anteriores. A técnica Hi-C permite utilizar o mapeamento físico da cromatina para guiar a montagem gerando um genoma de maior qualidade. Logo, se faz necessário uma nova predição gênica na montagem Hi-C juntamente com a conciliação com as predições anteriores, além da disponibilização desses dados em um navegador, para visualização e exploração pela comunidade científica. Portanto, foi feita a predição gênica (P13) da versão mais atual de montagem do genoma utilizando o software AUGUSTUS, que acabou identificando 15.181 transcritos codificadores de proteínas e, alcançou uma completude de 92,7%, sendo a maior dentre as predições de R. prolixus consideradas. Em seguida, os genes antigos passaram por filtros para a remoção de sequências com bases indefinidas, redundância e quimeras, totalizando 13.840 genes codificadores de proteína e 1.505 não-codificadores de proteínas. Os não codificadores foram alinhados contra o genoma Hi-C utilizando tanto o programa Sim4 quanto o Exonerate, destes, apenas 345 genes alinharam em regiões sem predição gênica. Já os codificadores foram utilizados para enriquecer a predição P13 através de um script desenvolvido para fazer a conciliação tanto de genes preditos como de genes de transcriptoma. A conciliação com genes de transcriptoma e com genes preditos antigos resultou na predição P15 com 17.500 proteínas com completude de 93,2% sendo a predição de maior qualidade para R. prolixus. A P15 juntamente com as montagens de genoma, as predições antigas e dados de RNAseq foram disponibilizados no navegador de genomas JBrowse, hospedado em um servidor do Laboratório de Bioinformática do Instituto de Química da UFRJ. Dessa maneira, a disponibilização de todos esses dados navegáveis, poderá fomentar os estudos biológicos e de controle vetorial com o inseto. Além de possibilitar estudos comparativos com espécies de triatomíneos que venham a ocupar seu nicho biológico. Por fim, o script aqui desenvolvido também pode ser usado para a conciliação de genes de outras espéciesChagas disease is a neglected tropical disease that only has palliative treatment, so it must be contained by urbanization and vector control measures. The protozoan Trypanosoma cruzi, which causes the disease, is transmitted by triatomines of the genera Triatoma, Panstrongylus and Rhodnius. Rhodnius prolixus is an important vector in Latin America, being the first triatomine to have its genome sequenced and analyzed by an international group. However, the most current assembly version of its genome (Hi-C) has no genetic prediction, and there are genes predicted exclusively in previous versions. The Hi-C technique allows the use of physical chromatin mapping to guide assembly, generating a higher quality genome. Therefore, a new genetic prediction in the Hi-C assembly is necessary along with the conciliation with the previous predictions, in addition to the availability of these data in a browser, for visualization and exploration by the scientific community. Therefore, the gene prediction (P13) of the most current version of genome assembly was performed using the AUGUSTUS software, which ended up identifying 15,181 protein-coding transcripts and reached a completeness of 92.7%, being the highest among the predictions of R. prolixus considered. Then, the old genes passed through filters to remove sequences with undefined bases, redundancy and chimeras, totaling 13,840 protein-coding genes and 1,505 non-protein-coding genes. Non-coding were aligned against the Hi-C genome using both the Sim4 and Exonerate programs, of which only 345 genes were aligned in regions without gene prediction. The coding were used to enrich the P13 prediction through a script developed to reconcile both predicted genes and transcriptome genes. Reconciliation with transcriptome genes and old predicted genes resulted in P15 prediction with 17,500 proteins with 93.2% completeness being the highest quality prediction for R. prolixus. P15 along with genome assemblies, old predictions and RNAseq data were made available in the JBrowse genome browser, hosted on a server at the Bioinformatics Laboratory of the UFRJ Chemistry Institute. In this way, the availability of all these navigable data will be able to promote biological studies and vector control with the insect. In addition to enabling comparative studies with triatomine species that come to occupy their biological niche. Finally, the script developed here can also be used to reconcile genes from other speciesFundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.porPredição gênicaRhodnius prolixusDoença de ChagasBioinformáticaChagas diseaseRhodnius prolixusGene predictionComputational biologyRhodniusDoença de ChagasBiologia ComputacionalGenoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2022Instituto Oswaldo CruzFundação Oswaldo CruzMestrado AcadêmicoRio de JaneiroPrograma de Pós-Graduação em Biologia Computacional e Sistemasinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/55145/1/license.txt8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALnicolas_araujo_ioc_mest_2022.pdfapplication/pdf2150667https://www.arca.fiocruz.br/bitstream/icict/55145/2/nicolas_araujo_ioc_mest_2022.pdfe11d27b9a0c5f6a7629eb2b68da9302fMD52icict/551452022-10-14 13:35:44.229oai:www.arca.fiocruz.br:icict/55145Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352022-10-14T16:35:44Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false
dc.title.en_US.fl_str_mv Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
title Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
spellingShingle Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
Araujo, Nicolas da Matta Freire
Predição gênica
Rhodnius prolixus
Doença de Chagas
Bioinformática
Chagas disease
Rhodnius prolixus
Gene prediction
Computational biology
Rhodnius
Doença de Chagas
Biologia Computacional
title_short Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
title_full Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
title_fullStr Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
title_full_unstemmed Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
title_sort Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
author Araujo, Nicolas da Matta Freire
author_facet Araujo, Nicolas da Matta Freire
author_role author
dc.contributor.member.none.fl_str_mv Souza, Marcos Paulo Catanho de
Passetti, Fabio
Oliveira, Pedro Lagerblad de
Miranda, Antonio Basilio de
Majerowicz, David
dc.contributor.author.fl_str_mv Araujo, Nicolas da Matta Freire
dc.contributor.advisor1.fl_str_mv Mesquita, Rafael Dias
contributor_str_mv Mesquita, Rafael Dias
dc.subject.other.en_US.fl_str_mv Predição gênica
Rhodnius prolixus
Doença de Chagas
Bioinformática
topic Predição gênica
Rhodnius prolixus
Doença de Chagas
Bioinformática
Chagas disease
Rhodnius prolixus
Gene prediction
Computational biology
Rhodnius
Doença de Chagas
Biologia Computacional
dc.subject.en.en_US.fl_str_mv Chagas disease
Rhodnius prolixus
Gene prediction
Computational biology
dc.subject.decs.en_US.fl_str_mv Rhodnius
Doença de Chagas
Biologia Computacional
description A doença de Chagas é uma doença tropical negligenciada que somente possui tratamento paliativo, logo, deve ser contida por medidas de urbanização e controle vetorial. O protozoário Trypanosoma cruzi, causador da doença, é transmitido por triatomíneos dos gêneros Triatoma, Panstrongylus e Rhodnius. O Rhodnius prolixus é um importante vetor na América Latina, sendo o primeiro triatomíneo a ter seu genoma sequenciado e analisado por um grupo internacional. Entretanto, a versão de montagem do seu genoma mais atual (Hi-C) não possui predição gênica, além de que existem genes preditos exclusivamente em versões anteriores. A técnica Hi-C permite utilizar o mapeamento físico da cromatina para guiar a montagem gerando um genoma de maior qualidade. Logo, se faz necessário uma nova predição gênica na montagem Hi-C juntamente com a conciliação com as predições anteriores, além da disponibilização desses dados em um navegador, para visualização e exploração pela comunidade científica. Portanto, foi feita a predição gênica (P13) da versão mais atual de montagem do genoma utilizando o software AUGUSTUS, que acabou identificando 15.181 transcritos codificadores de proteínas e, alcançou uma completude de 92,7%, sendo a maior dentre as predições de R. prolixus consideradas. Em seguida, os genes antigos passaram por filtros para a remoção de sequências com bases indefinidas, redundância e quimeras, totalizando 13.840 genes codificadores de proteína e 1.505 não-codificadores de proteínas. Os não codificadores foram alinhados contra o genoma Hi-C utilizando tanto o programa Sim4 quanto o Exonerate, destes, apenas 345 genes alinharam em regiões sem predição gênica. Já os codificadores foram utilizados para enriquecer a predição P13 através de um script desenvolvido para fazer a conciliação tanto de genes preditos como de genes de transcriptoma. A conciliação com genes de transcriptoma e com genes preditos antigos resultou na predição P15 com 17.500 proteínas com completude de 93,2% sendo a predição de maior qualidade para R. prolixus. A P15 juntamente com as montagens de genoma, as predições antigas e dados de RNAseq foram disponibilizados no navegador de genomas JBrowse, hospedado em um servidor do Laboratório de Bioinformática do Instituto de Química da UFRJ. Dessa maneira, a disponibilização de todos esses dados navegáveis, poderá fomentar os estudos biológicos e de controle vetorial com o inseto. Além de possibilitar estudos comparativos com espécies de triatomíneos que venham a ocupar seu nicho biológico. Por fim, o script aqui desenvolvido também pode ser usado para a conciliação de genes de outras espécies
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-10-14T16:35:43Z
dc.date.available.fl_str_mv 2022-10-14T16:35:43Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv ARAUJO, Nicolas da Matta Freire. Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web. 2022. 117 f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2022.
dc.identifier.uri.fl_str_mv https://www.arca.fiocruz.br/handle/icict/55145
identifier_str_mv ARAUJO, Nicolas da Matta Freire. Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web. 2022. 117 f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2022.
url https://www.arca.fiocruz.br/handle/icict/55145
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da FIOCRUZ (ARCA)
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Repositório Institucional da FIOCRUZ (ARCA)
collection Repositório Institucional da FIOCRUZ (ARCA)
bitstream.url.fl_str_mv https://www.arca.fiocruz.br/bitstream/icict/55145/1/license.txt
https://www.arca.fiocruz.br/bitstream/icict/55145/2/nicolas_araujo_ioc_mest_2022.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
e11d27b9a0c5f6a7629eb2b68da9302f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv repositorio.arca@fiocruz.br
_version_ 1798324994581725184