Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da FIOCRUZ (ARCA) |
Texto Completo: | https://www.arca.fiocruz.br/handle/icict/55145 |
Resumo: | A doença de Chagas é uma doença tropical negligenciada que somente possui tratamento paliativo, logo, deve ser contida por medidas de urbanização e controle vetorial. O protozoário Trypanosoma cruzi, causador da doença, é transmitido por triatomíneos dos gêneros Triatoma, Panstrongylus e Rhodnius. O Rhodnius prolixus é um importante vetor na América Latina, sendo o primeiro triatomíneo a ter seu genoma sequenciado e analisado por um grupo internacional. Entretanto, a versão de montagem do seu genoma mais atual (Hi-C) não possui predição gênica, além de que existem genes preditos exclusivamente em versões anteriores. A técnica Hi-C permite utilizar o mapeamento físico da cromatina para guiar a montagem gerando um genoma de maior qualidade. Logo, se faz necessário uma nova predição gênica na montagem Hi-C juntamente com a conciliação com as predições anteriores, além da disponibilização desses dados em um navegador, para visualização e exploração pela comunidade científica. Portanto, foi feita a predição gênica (P13) da versão mais atual de montagem do genoma utilizando o software AUGUSTUS, que acabou identificando 15.181 transcritos codificadores de proteínas e, alcançou uma completude de 92,7%, sendo a maior dentre as predições de R. prolixus consideradas. Em seguida, os genes antigos passaram por filtros para a remoção de sequências com bases indefinidas, redundância e quimeras, totalizando 13.840 genes codificadores de proteína e 1.505 não-codificadores de proteínas. Os não codificadores foram alinhados contra o genoma Hi-C utilizando tanto o programa Sim4 quanto o Exonerate, destes, apenas 345 genes alinharam em regiões sem predição gênica. Já os codificadores foram utilizados para enriquecer a predição P13 através de um script desenvolvido para fazer a conciliação tanto de genes preditos como de genes de transcriptoma. A conciliação com genes de transcriptoma e com genes preditos antigos resultou na predição P15 com 17.500 proteínas com completude de 93,2% sendo a predição de maior qualidade para R. prolixus. A P15 juntamente com as montagens de genoma, as predições antigas e dados de RNAseq foram disponibilizados no navegador de genomas JBrowse, hospedado em um servidor do Laboratório de Bioinformática do Instituto de Química da UFRJ. Dessa maneira, a disponibilização de todos esses dados navegáveis, poderá fomentar os estudos biológicos e de controle vetorial com o inseto. Além de possibilitar estudos comparativos com espécies de triatomíneos que venham a ocupar seu nicho biológico. Por fim, o script aqui desenvolvido também pode ser usado para a conciliação de genes de outras espécies |
id |
CRUZ_a1b8e30fb3241b82b0d2ac05866b0393 |
---|---|
oai_identifier_str |
oai:www.arca.fiocruz.br:icict/55145 |
network_acronym_str |
CRUZ |
network_name_str |
Repositório Institucional da FIOCRUZ (ARCA) |
repository_id_str |
2135 |
spelling |
Araujo, Nicolas da Matta FreireSouza, Marcos Paulo Catanho dePassetti, FabioOliveira, Pedro Lagerblad deMiranda, Antonio Basilio deMajerowicz, DavidMesquita, Rafael Dias2022-10-14T16:35:43Z2022-10-14T16:35:43Z2022ARAUJO, Nicolas da Matta Freire. Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web. 2022. 117 f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2022.https://www.arca.fiocruz.br/handle/icict/55145A doença de Chagas é uma doença tropical negligenciada que somente possui tratamento paliativo, logo, deve ser contida por medidas de urbanização e controle vetorial. O protozoário Trypanosoma cruzi, causador da doença, é transmitido por triatomíneos dos gêneros Triatoma, Panstrongylus e Rhodnius. O Rhodnius prolixus é um importante vetor na América Latina, sendo o primeiro triatomíneo a ter seu genoma sequenciado e analisado por um grupo internacional. Entretanto, a versão de montagem do seu genoma mais atual (Hi-C) não possui predição gênica, além de que existem genes preditos exclusivamente em versões anteriores. A técnica Hi-C permite utilizar o mapeamento físico da cromatina para guiar a montagem gerando um genoma de maior qualidade. Logo, se faz necessário uma nova predição gênica na montagem Hi-C juntamente com a conciliação com as predições anteriores, além da disponibilização desses dados em um navegador, para visualização e exploração pela comunidade científica. Portanto, foi feita a predição gênica (P13) da versão mais atual de montagem do genoma utilizando o software AUGUSTUS, que acabou identificando 15.181 transcritos codificadores de proteínas e, alcançou uma completude de 92,7%, sendo a maior dentre as predições de R. prolixus consideradas. Em seguida, os genes antigos passaram por filtros para a remoção de sequências com bases indefinidas, redundância e quimeras, totalizando 13.840 genes codificadores de proteína e 1.505 não-codificadores de proteínas. Os não codificadores foram alinhados contra o genoma Hi-C utilizando tanto o programa Sim4 quanto o Exonerate, destes, apenas 345 genes alinharam em regiões sem predição gênica. Já os codificadores foram utilizados para enriquecer a predição P13 através de um script desenvolvido para fazer a conciliação tanto de genes preditos como de genes de transcriptoma. A conciliação com genes de transcriptoma e com genes preditos antigos resultou na predição P15 com 17.500 proteínas com completude de 93,2% sendo a predição de maior qualidade para R. prolixus. A P15 juntamente com as montagens de genoma, as predições antigas e dados de RNAseq foram disponibilizados no navegador de genomas JBrowse, hospedado em um servidor do Laboratório de Bioinformática do Instituto de Química da UFRJ. Dessa maneira, a disponibilização de todos esses dados navegáveis, poderá fomentar os estudos biológicos e de controle vetorial com o inseto. Além de possibilitar estudos comparativos com espécies de triatomíneos que venham a ocupar seu nicho biológico. Por fim, o script aqui desenvolvido também pode ser usado para a conciliação de genes de outras espéciesChagas disease is a neglected tropical disease that only has palliative treatment, so it must be contained by urbanization and vector control measures. The protozoan Trypanosoma cruzi, which causes the disease, is transmitted by triatomines of the genera Triatoma, Panstrongylus and Rhodnius. Rhodnius prolixus is an important vector in Latin America, being the first triatomine to have its genome sequenced and analyzed by an international group. However, the most current assembly version of its genome (Hi-C) has no genetic prediction, and there are genes predicted exclusively in previous versions. The Hi-C technique allows the use of physical chromatin mapping to guide assembly, generating a higher quality genome. Therefore, a new genetic prediction in the Hi-C assembly is necessary along with the conciliation with the previous predictions, in addition to the availability of these data in a browser, for visualization and exploration by the scientific community. Therefore, the gene prediction (P13) of the most current version of genome assembly was performed using the AUGUSTUS software, which ended up identifying 15,181 protein-coding transcripts and reached a completeness of 92.7%, being the highest among the predictions of R. prolixus considered. Then, the old genes passed through filters to remove sequences with undefined bases, redundancy and chimeras, totaling 13,840 protein-coding genes and 1,505 non-protein-coding genes. Non-coding were aligned against the Hi-C genome using both the Sim4 and Exonerate programs, of which only 345 genes were aligned in regions without gene prediction. The coding were used to enrich the P13 prediction through a script developed to reconcile both predicted genes and transcriptome genes. Reconciliation with transcriptome genes and old predicted genes resulted in P15 prediction with 17,500 proteins with 93.2% completeness being the highest quality prediction for R. prolixus. P15 along with genome assemblies, old predictions and RNAseq data were made available in the JBrowse genome browser, hosted on a server at the Bioinformatics Laboratory of the UFRJ Chemistry Institute. In this way, the availability of all these navigable data will be able to promote biological studies and vector control with the insect. In addition to enabling comparative studies with triatomine species that come to occupy their biological niche. Finally, the script developed here can also be used to reconcile genes from other speciesFundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, Brasil.porPredição gênicaRhodnius prolixusDoença de ChagasBioinformáticaChagas diseaseRhodnius prolixusGene predictionComputational biologyRhodniusDoença de ChagasBiologia ComputacionalGenoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis2022Instituto Oswaldo CruzFundação Oswaldo CruzMestrado AcadêmicoRio de JaneiroPrograma de Pós-Graduação em Biologia Computacional e Sistemasinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/55145/1/license.txt8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALnicolas_araujo_ioc_mest_2022.pdfapplication/pdf2150667https://www.arca.fiocruz.br/bitstream/icict/55145/2/nicolas_araujo_ioc_mest_2022.pdfe11d27b9a0c5f6a7629eb2b68da9302fMD52icict/551452022-10-14 13:35:44.229oai:www.arca.fiocruz.br:icict/55145Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352022-10-14T16:35:44Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false |
dc.title.en_US.fl_str_mv |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
title |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
spellingShingle |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web Araujo, Nicolas da Matta Freire Predição gênica Rhodnius prolixus Doença de Chagas Bioinformática Chagas disease Rhodnius prolixus Gene prediction Computational biology Rhodnius Doença de Chagas Biologia Computacional |
title_short |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
title_full |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
title_fullStr |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
title_full_unstemmed |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
title_sort |
Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web |
author |
Araujo, Nicolas da Matta Freire |
author_facet |
Araujo, Nicolas da Matta Freire |
author_role |
author |
dc.contributor.member.none.fl_str_mv |
Souza, Marcos Paulo Catanho de Passetti, Fabio Oliveira, Pedro Lagerblad de Miranda, Antonio Basilio de Majerowicz, David |
dc.contributor.author.fl_str_mv |
Araujo, Nicolas da Matta Freire |
dc.contributor.advisor1.fl_str_mv |
Mesquita, Rafael Dias |
contributor_str_mv |
Mesquita, Rafael Dias |
dc.subject.other.en_US.fl_str_mv |
Predição gênica Rhodnius prolixus Doença de Chagas Bioinformática |
topic |
Predição gênica Rhodnius prolixus Doença de Chagas Bioinformática Chagas disease Rhodnius prolixus Gene prediction Computational biology Rhodnius Doença de Chagas Biologia Computacional |
dc.subject.en.en_US.fl_str_mv |
Chagas disease Rhodnius prolixus Gene prediction Computational biology |
dc.subject.decs.en_US.fl_str_mv |
Rhodnius Doença de Chagas Biologia Computacional |
description |
A doença de Chagas é uma doença tropical negligenciada que somente possui tratamento paliativo, logo, deve ser contida por medidas de urbanização e controle vetorial. O protozoário Trypanosoma cruzi, causador da doença, é transmitido por triatomíneos dos gêneros Triatoma, Panstrongylus e Rhodnius. O Rhodnius prolixus é um importante vetor na América Latina, sendo o primeiro triatomíneo a ter seu genoma sequenciado e analisado por um grupo internacional. Entretanto, a versão de montagem do seu genoma mais atual (Hi-C) não possui predição gênica, além de que existem genes preditos exclusivamente em versões anteriores. A técnica Hi-C permite utilizar o mapeamento físico da cromatina para guiar a montagem gerando um genoma de maior qualidade. Logo, se faz necessário uma nova predição gênica na montagem Hi-C juntamente com a conciliação com as predições anteriores, além da disponibilização desses dados em um navegador, para visualização e exploração pela comunidade científica. Portanto, foi feita a predição gênica (P13) da versão mais atual de montagem do genoma utilizando o software AUGUSTUS, que acabou identificando 15.181 transcritos codificadores de proteínas e, alcançou uma completude de 92,7%, sendo a maior dentre as predições de R. prolixus consideradas. Em seguida, os genes antigos passaram por filtros para a remoção de sequências com bases indefinidas, redundância e quimeras, totalizando 13.840 genes codificadores de proteína e 1.505 não-codificadores de proteínas. Os não codificadores foram alinhados contra o genoma Hi-C utilizando tanto o programa Sim4 quanto o Exonerate, destes, apenas 345 genes alinharam em regiões sem predição gênica. Já os codificadores foram utilizados para enriquecer a predição P13 através de um script desenvolvido para fazer a conciliação tanto de genes preditos como de genes de transcriptoma. A conciliação com genes de transcriptoma e com genes preditos antigos resultou na predição P15 com 17.500 proteínas com completude de 93,2% sendo a predição de maior qualidade para R. prolixus. A P15 juntamente com as montagens de genoma, as predições antigas e dados de RNAseq foram disponibilizados no navegador de genomas JBrowse, hospedado em um servidor do Laboratório de Bioinformática do Instituto de Química da UFRJ. Dessa maneira, a disponibilização de todos esses dados navegáveis, poderá fomentar os estudos biológicos e de controle vetorial com o inseto. Além de possibilitar estudos comparativos com espécies de triatomíneos que venham a ocupar seu nicho biológico. Por fim, o script aqui desenvolvido também pode ser usado para a conciliação de genes de outras espécies |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-10-14T16:35:43Z |
dc.date.available.fl_str_mv |
2022-10-14T16:35:43Z |
dc.date.issued.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
ARAUJO, Nicolas da Matta Freire. Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web. 2022. 117 f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2022. |
dc.identifier.uri.fl_str_mv |
https://www.arca.fiocruz.br/handle/icict/55145 |
identifier_str_mv |
ARAUJO, Nicolas da Matta Freire. Genoma de Rhodnius prolixus: predição gênica, conciliação com versões anteriores e disponibilização em navegador web. 2022. 117 f. Dissertação (Mestrado em Biologia Computacional e Sistemas) - Instituto Oswaldo Cruz, Fundação Oswaldo Cruz, Rio de Janeiro, 2022. |
url |
https://www.arca.fiocruz.br/handle/icict/55145 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da FIOCRUZ (ARCA) instname:Fundação Oswaldo Cruz (FIOCRUZ) instacron:FIOCRUZ |
instname_str |
Fundação Oswaldo Cruz (FIOCRUZ) |
instacron_str |
FIOCRUZ |
institution |
FIOCRUZ |
reponame_str |
Repositório Institucional da FIOCRUZ (ARCA) |
collection |
Repositório Institucional da FIOCRUZ (ARCA) |
bitstream.url.fl_str_mv |
https://www.arca.fiocruz.br/bitstream/icict/55145/1/license.txt https://www.arca.fiocruz.br/bitstream/icict/55145/2/nicolas_araujo_ioc_mest_2022.pdf |
bitstream.checksum.fl_str_mv |
8a4605be74aa9ea9d79846c1fba20a33 e11d27b9a0c5f6a7629eb2b68da9302f |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ) |
repository.mail.fl_str_mv |
repositorio.arca@fiocruz.br |
_version_ |
1798324994581725184 |