Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus

Detalhes bibliográficos
Autor(a) principal: Ferreira, João Paulo da Cruz [UNIFESP]
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNIFESP
Texto Completo: https://hdl.handle.net/11600/72181
Resumo: Objetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas.
id UFSP_ee7ec536c1378f4ce436e8f5aa9c39cc
oai_identifier_str oai:repositorio.unifesp.br/:11600/72181
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str 3465
spelling Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírusBioinformáticaArbovirosePipelineZikaDengueFebre amarelaObjetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas. Objective: The aim of this work is to develop a bioinformatics pipeline for the identification and clustering of conserved regions in arbovirus genomes, using Dengue, Zika, and Yellow Fever viruses as biological models. The combined analysis of clustering with motif discovery can help assess conserved regions shared among one or more viruses and specific regions of each virus, aiming to apply the pipeline to co-circulating arboviruses such as DENV, ZIKV, and YFV. Methods: Python language was used to develop the pipeline, which includes the MEME tool for identifying conserved regions in viral genomes and the BLOSUM matrix for clustering genomic sequences, employing 3,000 complete genome sequences covering DENV-1, -2, -3, -4, YFV, and ZIKV arboviruses. These sequences were collected from two repositories, Genbank and the Bioinformatics and Virus Discovery Resource Center. Results: The pipeline identified conserved regions in large genomic datasets, with emphasis on the effectiveness of MEME and the BLOSUM matrix in analyzing viral sequences. To validate the findings, the Immune Epitope Database (IEDB) was used, enriching the understanding of the functional importance of these sequences. The studies addressed 2,000 genomic sequences of DENV in Study 1, properly grouped by the pipeline into 416 DENV-1 sequences, 431 DENV-2 sequences, 489 DENV-3 sequences, and 370 DENV-4 sequences. In Study 2, there were 1,500 genomic sequences of DENV (396), YFV (171), and ZIKV (310), correctly grouped by the tool. The methodology, combined with Python programming, allowed for a detailed analysis of the sequences, identifying conserved regions in NS1, NS3, NS5, PrM, and E proteins. Conclusion: The developed tool provides an alternative in the bioinformatic analysis of arbovirus genomes, offering an efficient and simplified methodology for identifying conserved regions in viral genomes, which contributes to the development of therapeutic and preventive strategies.Universidade Federal de São PauloJanini, Luiz Mário Ramos [UNIFESP]http://lattes.cnpq.br/5713863164263481http://lattes.cnpq.br/5636668555299108Ferreira, João Paulo da Cruz [UNIFESP]2024-10-07T18:28:51Z2024-10-07T18:28:51Z2024-09-23info:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/publishedVersion65 f.application/pdfFERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024.https://hdl.handle.net/11600/72181porSão Pauloinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-10-08T04:10:20Zoai:repositorio.unifesp.br/:11600/72181Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-10-08T04:10:20Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
title Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
spellingShingle Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
Ferreira, João Paulo da Cruz [UNIFESP]
Bioinformática
Arbovirose
Pipeline
Zika
Dengue
Febre amarela
title_short Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
title_full Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
title_fullStr Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
title_full_unstemmed Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
title_sort Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus
author Ferreira, João Paulo da Cruz [UNIFESP]
author_facet Ferreira, João Paulo da Cruz [UNIFESP]
author_role author
dc.contributor.none.fl_str_mv Janini, Luiz Mário Ramos [UNIFESP]
http://lattes.cnpq.br/5713863164263481
http://lattes.cnpq.br/5636668555299108
dc.contributor.author.fl_str_mv Ferreira, João Paulo da Cruz [UNIFESP]
dc.subject.por.fl_str_mv Bioinformática
Arbovirose
Pipeline
Zika
Dengue
Febre amarela
topic Bioinformática
Arbovirose
Pipeline
Zika
Dengue
Febre amarela
description Objetivo: A proposta deste trabalho é desenvolver um pipeline de bioinformática para identificação e clusterização de regiões conservadas em genomas de arbovírus, utilizando os arbovírus Dengue, Zika e Febre Amarela como modelos biológicos. A análise combinada da clusterização com a descoberta de motifs pode ajudar a avaliar regiões conservadas compartilhadas entre um ou mais vírus e regiões específicas de cada vírus, visando aplicar o pipeline em arboviroses co-circulantes como é o caso do DENV, ZIKV e YFV. Métodos: Foi utilizada a linguagem Python para desenvolvimento do pipeline, que inclui a ferramenta MEME para identificação das regiões conservadas em genomas virais e a matriz BLOSUM para a clusterização das sequências genômicas, empregando 3.000 sequências de genoma completo abrangendo as arboviroses DENV-1, -2, -3, -4, YFV e ZIKV. Essas sequências foram coletadas de dois repositórios, o Genbank e o Bioinformatics and Virus Discovery Resource Center. Resultados: O pipeline identificou regiões conservadas em grandes conjuntos de dados genômicos, com destaque para a eficácia do MEME e da matriz BLOSUM na análise de sequências virais. Para validar os achados, utilizou-se o Immune Epitope Database (IEDB), enriquecendo a compreensão da importância funcional dessas sequências. Os estudos abordaram 2.000 sequências genômicas do DENV no Estudo 1, sendo devidamente agrupadas pelo pipeline em 416 sequências de DENV-1, 431 de DENV-2, 489 de DENV-3 e 370 de DENV-4. No Estudo 2, foram 1.500 sequências genômicas de DENV (396), YFV (171) e ZIKV (310), agrupadas corretamente pela ferramenta. A metodologia, combinada com a programação em Python, permitiu uma análise detalhada das sequências, identificando, inclusive, regiões conservadas nas proteínas NS1, NS3, NS5, PrM e E. Conclusão: A ferramenta desenvolvida apresenta uma alternativa na análise bioinformática de genoma de arbovírus, oferecendo uma metodologia eficiente e simplificada para a identificação de regiões conservadas em genomas virais, o que contribui para o desenvolvimento de estratégias terapêuticas e preventivas.
publishDate 2024
dc.date.none.fl_str_mv 2024-10-07T18:28:51Z
2024-10-07T18:28:51Z
2024-09-23
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv FERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024.
https://hdl.handle.net/11600/72181
identifier_str_mv FERREIRA, João Paulo. Pipeline de busca baseada em agrupamento para regiões conservadas em arbovírus. 2024. 63 f. Dissertação (Mestrado em Infectologia) - Escola Paulista de Medicina, Universidade Federal de São Paulo (UNIFESP). São Paulo, 2024.
url https://hdl.handle.net/11600/72181
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 65 f.
application/pdf
dc.coverage.none.fl_str_mv São Paulo
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1814268428457869312