ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection

Detalhes bibliográficos
Autor(a) principal: Dezordi, Filipe Zimmer
Data de Publicação: 2022
Outros Autores: Silva Neto, Antonio Marinho da, Campos, Túlio de Lima, Jeronimo, Pedro Miguel Carneiro, Aksenen, Cleber Furtado, Almeida, Suzana Porto, Wallau, Gabriel Luz
Tipo de documento: Artigo
Idioma: eng
Título da fonte: Repositório Institucional da FIOCRUZ (ARCA)
Texto Completo: https://www.arca.fiocruz.br/handle/icict/52429
Resumo: A Rede Genômica Fiocruz é formada por especialistas de todas as unidades da Fundação no país e de institutos parceiros que se empenham diariamente em gerar dados mais robustos sobre o comportamento do SARS-Cov-2 e contribuir para um melhor preparo do país no enfrentamento da pandemia em termos de diagnóstico mais precisos e vacinas eficazes. Saiba mais sobre a Rede Genômica Fiocruz em: http://www.genomahcov.fiocruz.br/
id CRUZ_269e5fdf62523b6fbbc02b800b1de266
oai_identifier_str oai:www.arca.fiocruz.br:icict/52429
network_acronym_str CRUZ
network_name_str Repositório Institucional da FIOCRUZ (ARCA)
repository_id_str 2135
spelling Dezordi, Filipe ZimmerSilva Neto, Antonio Marinho daCampos, Túlio de LimaJeronimo, Pedro Miguel CarneiroAksenen, Cleber FurtadoAlmeida, Suzana PortoWallau, Gabriel Luz2022-04-27T13:27:27Z2022-04-27T13:27:27Z2022DEZORDI, Filipe Zimmer et al. ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variant detection. Viruses, v. 14, n. 217, p. 1-11, 2022.https://www.arca.fiocruz.br/handle/icict/5242910.3390/v14020217A Rede Genômica Fiocruz é formada por especialistas de todas as unidades da Fundação no país e de institutos parceiros que se empenham diariamente em gerar dados mais robustos sobre o comportamento do SARS-Cov-2 e contribuir para um melhor preparo do país no enfrentamento da pandemia em termos de diagnóstico mais precisos e vacinas eficazes. Saiba mais sobre a Rede Genômica Fiocruz em: http://www.genomahcov.fiocruz.br/Com a pandemia do novo coronavírus e o surgimento de variantes com características diferentes, a comunidade científica internacional se colocou diante de um desafio: como estudar o vírus, seu espalhamento e sua evolução em escala mundial? Uma série de ferramentas para análise de diferentes dados relacionados a pandemia vem sendo desenvolvidas para permitir que cientistas de todo o mundo estudem o vírus causador da COVID-19. Dentre os grandes desafios, a análise de dados de sequenciamento de genomas virais obtidos de amostras de pacientes são essenciais na detecção de novas variantes e para a compreensão das mutações relevantes para a saúde pública. Múltiplas ferramentas já foram desenvolvidas para análise de sequências genéticas para a automatização do processo de classificação em linhagens e para a detecção de mutações. Ainda assim, não há uma ferramenta que centralize a análise de qualidade, montagem de genomas e classificação das linhagens, descrição de mutações e a análise intra-hospedeiro de variantes (para detectar quando uma pessoa está infectada com duas ou mais variantes de uma vez). Deste modo, grupos de pesquisa têm de trabalhar de forma descentralizada com diferentes ferramentas para obter e analisar as sequências. Este modo de trabalho baseado em ferramentas dispersas consome tempo e exige que grupos de pesquisa invistam no treinamento para utilização de vários serviços. Além disso, em casos em que um mesmo paciente está infectado com duas ou mais variantes, a separação e a montagem dos genomas não é possível através destas ferramentas. O presente artigo, publicado no periódico internacional Viruses, apresenta uma ferramenta desenvolvida por pesquisadores da Rede Genômica Fiocruz, para centralizar em um único pacote de funcionalidades e análises complexas como as descritas acima, de maneira econômica em termos de tempo despendido, permitindo a emissão de relatórios e tabelas de dados com base nos resultados de sequenciamento. Esta ferramenta, chamada de ViralFlow, automatiza vários processos importantes para a vigilância genômica e oferece uma plataforma para que pesquisadores possam estudar múltiplos aspectos de amostras do SARS-CoV-2 de forma centralizada e ágil.The COVID-19 pandemic is driven by Severe Acute Respiratory Syndrome coronavirus 2 (SARS-CoV-2) that emerged in 2019 and quickly spread worldwide. Genomic surveillance has become the gold standard methodology used to monitor and study this fast-spreading virus and its constantly emerging lineages. The current deluge of SARS-CoV-2 genomic data generated worldwide has put additional pressure on the urgent need for streamlined bioinformatics workflows. Here, we describe a workflow developed by our group to process and analyze large-scale SARS-CoV-2 Illumina amplicon sequencing data. This workflow automates all steps of SARS-CoV-2 reference-based genomic analysis: data processing, genome assembly, PANGO lineage assignment, mutation analysis and the screening of intrahost variants. The pipeline is capable of processing a batch of around 100 samples in less than half an hour on a personal laptop or in less than five minutes on a server with 50 threads. The workflow presented here is available through Docker or Singularity images, allowing for implementation on laptops for small-scale analyses or on high processing capacity servers or clusters. Moreover, the low requirements for memory and CPU cores and the standardized results provided by ViralFlow highlight it as a versatile tool for SARS-CoV-2 genomic analysis.This study was supported by the National Council for Scientific and Technological Development by the productivity research fellowship level 2 for Wallau GL (303902/2019-1) and by the Coordenação de Aperfeiçoamento de Pessoal de Nível Superior-Brasil (CAPES)-Finance Code 001.Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Entomologia e Bioinformática. Recife, PE, Brasil.Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Bioinformática. Recife, PE, Brasil.Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Bioinformática. Recife, PE, Brasil.Fundação Oswaldo Cruz. Fiocruz Ceará. Eusébio, CE, Brasil.Fundação Oswaldo Cruz. Fiocruz Ceará. Eusébio, CE, Brasil.Fundação Oswaldo Cruz. Instituto Aggeu Magalhães. Núcleo de Entomologia e Bioinformática. Recife, PE, Brasil.engMDPICoronavirus InfectionsCOVID-19COVID-19SARS-CoV-2Rede Genômica FiocruzGENOMAHCOVGenomicsSARS-CoV-2VirusesVirus bioinformaticsGenotypingGenomic variantsSoftwareInfecções por CoronavirusCOVID-19ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/articleinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZLICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/52429/1/license.txt8a4605be74aa9ea9d79846c1fba20a33MD51ORIGINALviruses-14-00217.pdfviruses-14-00217.pdfapplication/pdf3046661https://www.arca.fiocruz.br/bitstream/icict/52429/2/viruses-14-00217.pdf577699af6ccc482ccbb201f2fa7e3cc9MD52_AUTORIZACAO_DEPOSITO_ARCA_REDE_GENOMICA.pdf_AUTORIZACAO_DEPOSITO_ARCA_REDE_GENOMICA.pdfapplication/pdf134844https://www.arca.fiocruz.br/bitstream/icict/52429/3/_AUTORIZACAO_DEPOSITO_ARCA_REDE_GENOMICA.pdf28ef5cd96257018f624857e2ce8ab529MD53icict/524292022-07-18 16:00:41.057oai:www.arca.fiocruz.br:icict/52429Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352022-07-18T19:00:41Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false
dc.title.pt_BR.fl_str_mv ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
title ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
spellingShingle ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
Dezordi, Filipe Zimmer
Coronavirus Infections
COVID-19
COVID-19
SARS-CoV-2
Rede Genômica Fiocruz
GENOMAHCOV
Genomics
SARS-CoV-2
Viruses
Virus bioinformatics
Genotyping
Genomic variants
Software
Infecções por Coronavirus
COVID-19
title_short ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
title_full ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
title_fullStr ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
title_full_unstemmed ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
title_sort ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variants detection
author Dezordi, Filipe Zimmer
author_facet Dezordi, Filipe Zimmer
Silva Neto, Antonio Marinho da
Campos, Túlio de Lima
Jeronimo, Pedro Miguel Carneiro
Aksenen, Cleber Furtado
Almeida, Suzana Porto
Wallau, Gabriel Luz
author_role author
author2 Silva Neto, Antonio Marinho da
Campos, Túlio de Lima
Jeronimo, Pedro Miguel Carneiro
Aksenen, Cleber Furtado
Almeida, Suzana Porto
Wallau, Gabriel Luz
author2_role author
author
author
author
author
author
dc.contributor.author.fl_str_mv Dezordi, Filipe Zimmer
Silva Neto, Antonio Marinho da
Campos, Túlio de Lima
Jeronimo, Pedro Miguel Carneiro
Aksenen, Cleber Furtado
Almeida, Suzana Porto
Wallau, Gabriel Luz
dc.subject.mesh.pt_BR.fl_str_mv Coronavirus Infections
COVID-19
topic Coronavirus Infections
COVID-19
COVID-19
SARS-CoV-2
Rede Genômica Fiocruz
GENOMAHCOV
Genomics
SARS-CoV-2
Viruses
Virus bioinformatics
Genotyping
Genomic variants
Software
Infecções por Coronavirus
COVID-19
dc.subject.other.pt_BR.fl_str_mv COVID-19
SARS-CoV-2
Rede Genômica Fiocruz
GENOMAHCOV
dc.subject.en.pt_BR.fl_str_mv Genomics
SARS-CoV-2
Viruses
Virus bioinformatics
Genotyping
Genomic variants
Software
dc.subject.decs.pt_BR.fl_str_mv Infecções por Coronavirus
COVID-19
description A Rede Genômica Fiocruz é formada por especialistas de todas as unidades da Fundação no país e de institutos parceiros que se empenham diariamente em gerar dados mais robustos sobre o comportamento do SARS-Cov-2 e contribuir para um melhor preparo do país no enfrentamento da pandemia em termos de diagnóstico mais precisos e vacinas eficazes. Saiba mais sobre a Rede Genômica Fiocruz em: http://www.genomahcov.fiocruz.br/
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-04-27T13:27:27Z
dc.date.available.fl_str_mv 2022-04-27T13:27:27Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/article
format article
status_str publishedVersion
dc.identifier.citation.fl_str_mv DEZORDI, Filipe Zimmer et al. ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variant detection. Viruses, v. 14, n. 217, p. 1-11, 2022.
dc.identifier.uri.fl_str_mv https://www.arca.fiocruz.br/handle/icict/52429
dc.identifier.doi.none.fl_str_mv 10.3390/v14020217
identifier_str_mv DEZORDI, Filipe Zimmer et al. ViralFlow: a versatile automated workflow for SARS-CoV-2 genome assembly, lineage assignment, mutations and intrahost variant detection. Viruses, v. 14, n. 217, p. 1-11, 2022.
10.3390/v14020217
url https://www.arca.fiocruz.br/handle/icict/52429
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv MDPI
publisher.none.fl_str_mv MDPI
dc.source.none.fl_str_mv reponame:Repositório Institucional da FIOCRUZ (ARCA)
instname:Fundação Oswaldo Cruz (FIOCRUZ)
instacron:FIOCRUZ
instname_str Fundação Oswaldo Cruz (FIOCRUZ)
instacron_str FIOCRUZ
institution FIOCRUZ
reponame_str Repositório Institucional da FIOCRUZ (ARCA)
collection Repositório Institucional da FIOCRUZ (ARCA)
bitstream.url.fl_str_mv https://www.arca.fiocruz.br/bitstream/icict/52429/1/license.txt
https://www.arca.fiocruz.br/bitstream/icict/52429/2/viruses-14-00217.pdf
https://www.arca.fiocruz.br/bitstream/icict/52429/3/_AUTORIZACAO_DEPOSITO_ARCA_REDE_GENOMICA.pdf
bitstream.checksum.fl_str_mv 8a4605be74aa9ea9d79846c1fba20a33
577699af6ccc482ccbb201f2fa7e3cc9
28ef5cd96257018f624857e2ce8ab529
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)
repository.mail.fl_str_mv repositorio.arca@fiocruz.br
_version_ 1798324887225368576