Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNIFESP |
Texto Completo: | https://hdl.handle.net/11600/72181 |
Resumo: | Objetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas. |
id |
UFSP_ee7ec536c1378f4ce436e8f5aa9c39cc |
---|---|
oai_identifier_str |
oai:repositorio.unifesp.br/:11600/72181 |
network_acronym_str |
UFSP |
network_name_str |
Repositório Institucional da UNIFESP |
repository_id_str |
3465 |
spelling |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírusBioinformáticaArbovirosePipelineZikaDengueFebre amarelaObjetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas. Objective: The aim of this work is to develop a bioinformatics pipeline for the identification and clustering of conserved regions in arbovirus genomes, using Dengue, Zika, and Yellow Fever viruses as biological models. The combined analysis of clustering with motif discovery can help assess conserved regions shared among one or more viruses and specific regions of each virus, aiming to apply the pipeline to co-circulating arboviruses such as DENV, ZIKV, and YFV. Methods: Python language was used to develop the pipeline, which includes the MEME tool for identifying conserved regions in viral genomes and the BLOSUM matrix for clustering genomic sequences, employing 3,000 complete genome sequences covering DENV-1, -2, -3, -4, YFV, and ZIKV arboviruses. These sequences were collected from two repositories, Genbank and the Bioinformatics and Virus Discovery Resource Center. Results: The pipeline identified conserved regions in large genomic datasets, with emphasis on the effectiveness of MEME and the BLOSUM matrix in analyzing viral sequences. To validate the findings, the Immune Epitope Database (IEDB) was used, enriching the understanding of the functional importance of these sequences. The studies addressed 2,000 genomic sequences of DENV in Study 1, properly grouped by the pipeline into 416 DENV-1 sequences, 431 DENV-2 sequences, 489 DENV-3 sequences, and 370 DENV-4 sequences. In Study 2, there were 1,500 genomic sequences of DENV (396), YFV (171), and ZIKV (310), correctly grouped by the tool. The methodology, combined with Python programming, allowed for a detailed analysis of the sequences, identifying conserved regions in NS1, NS3, NS5, PrM, and E proteins. Conclusion: The developed tool provides an alternative in the bioinformatic analysis of arbovirus genomes, offering an efficient and simplified methodology for identifying conserved regions in viral genomes, which contributes to the development of therapeutic and preventive strategies.Universidade Federal de São PauloJanini, Luiz Mário Ramos [UNIFESP]http://lattes.cnpq.br/5713863164263481http://lattes.cnpq.br/5636668555299108Ferreira, João Paulo da Cruz [UNIFESP]2024-10-07T18:28:51Z2024-10-07T18:28:51Z2024-09-23info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion65 f.application/pdfFERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024.https://hdl.handle.net/11600/72181porSão Pauloinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-10-08T04:10:20Zoai:repositorio.unifesp.br/:11600/72181Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-10-08T04:10:20Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false |
dc.title.none.fl_str_mv |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
title |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
spellingShingle |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus Ferreira, João Paulo da Cruz [UNIFESP] Bioinformática Arbovirose Pipeline Zika Dengue Febre amarela |
title_short |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
title_full |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
title_fullStr |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
title_full_unstemmed |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
title_sort |
Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus |
author |
Ferreira, João Paulo da Cruz [UNIFESP] |
author_facet |
Ferreira, João Paulo da Cruz [UNIFESP] |
author_role |
author |
dc.contributor.none.fl_str_mv |
Janini, Luiz Mário Ramos [UNIFESP] http://lattes.cnpq.br/5713863164263481 http://lattes.cnpq.br/5636668555299108 |
dc.contributor.author.fl_str_mv |
Ferreira, João Paulo da Cruz [UNIFESP] |
dc.subject.por.fl_str_mv |
Bioinformática Arbovirose Pipeline Zika Dengue Febre amarela |
topic |
Bioinformática Arbovirose Pipeline Zika Dengue Febre amarela |
description |
Objetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-10-07T18:28:51Z 2024-10-07T18:28:51Z 2024-09-23 |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
FERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024. https://hdl.handle.net/11600/72181 |
identifier_str_mv |
FERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024. |
url |
https://hdl.handle.net/11600/72181 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
65 f. application/pdf |
dc.coverage.none.fl_str_mv |
São Paulo |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP |
instname_str |
Universidade Federal de São Paulo (UNIFESP) |
instacron_str |
UNIFESP |
institution |
UNIFESP |
reponame_str |
Repositório Institucional da UNIFESP |
collection |
Repositório Institucional da UNIFESP |
repository.name.fl_str_mv |
Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP) |
repository.mail.fl_str_mv |
biblioteca.csp@unifesp.br |
_version_ |
1814268428457869312 |