Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas

Detalhes bibliográficos
Autor(a) principal: Morais, Diego Arthur de Azevedo
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/48271
Resumo: A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology.
id UFRN_0a0e0ac0d6c918f3e57d88bcc45b5183
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/48271
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Morais, Diego Arthur de Azevedohttps://orcid.org/0000-0002-7357-3446http://lattes.cnpq.br/0627546477822130https://orcid.org/0000-0002-1688-6155http://lattes.cnpq.br/4065178015615979Dalmolin, Rodrigo Juliani SiqueiraSouza, Jorge Estefano de Santanahttp://lattes.cnpq.br/8058577659019910Lima, Lucymara Fassarella Agnezhttps://orcid.org/0000-0003-0642-3162http://lattes.cnpq.br/1083882171718362Guizelini, DievalMoreira, Fabiano CordeiroDalmolin, Rodrigo Juliani Siqueira2022-06-23T19:53:39Z2022-06-23T19:53:39Z2022-04-14MORAIS, Diego Arthur de Azevedo. Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas. 2022. 86f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/48271A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology.Metagenomics involves the study of the microbial community found in a sample extracted from a given environment. This environment may be a cave wall, a portion of ocean water, the human gut, or any source containing microorganisms of interest. Such studies unravel details about the taxonomic composition and the functions performed by microbial communities. As a complete metagenomic analysis requires different tools for different purposes, the selection and setup of these tools remain challenging. Furthermore, the chosen toolset will affect the accuracy, the formatting, and the functional identifiers reported in the results, impacting the results interpretation and the biological answer obtained. The work presented here aims to propose a pipeline to be used in taxonomic and functional metagenomic analyses. To this end, state-of-the-art tools available in the literature were surveyed, and mock datasets were created to perform benchmarks. As a result, suited tools were selected for each analysis step, and a sensitive and flexible metagenomic analysis pipeline was designed. MEDUSA, an efficient pipeline to conduct comprehensive metagenomic analyses, performs preprocessing, assembly, alignment, taxonomic classification, and functional annotation on shotgun data, supporting user-built dictionaries to transfer annotations to any functional identifier. MEDUSA includes several tools, such as Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, and a novel tool implemented in Python to transfer annotations to BLAST/DIAMOND alignment results. These tools are installed via Conda, and the workflow is managed by Snakemake, easing the setup and execution. Compared with MEGAN 6 Community Edition, MEDUSA correctly identifies more species, especially the less abundant, and is more suited for functional analysis using Gene Ontology identifiers.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICAUFRNBrasilMetagenômicaBioinformáticaClassificação taxonômicaAnotação funcionalFluxo de trabalhoMedusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALMedusafluxotrabalho_Morais_2022.pdfapplication/pdf3142916https://repositorio.ufrn.br/bitstream/123456789/48271/1/Medusafluxotrabalho_Morais_2022.pdfc703e229631e1a21d14e0875d0fa40d2MD51123456789/482712022-06-23 16:54:13.306oai:https://repositorio.ufrn.br:123456789/48271Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-06-23T19:54:13Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
title Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
spellingShingle Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
Morais, Diego Arthur de Azevedo
Metagenômica
Bioinformática
Classificação taxonômica
Anotação funcional
Fluxo de trabalho
title_short Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
title_full Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
title_fullStr Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
title_full_unstemmed Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
title_sort Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
author Morais, Diego Arthur de Azevedo
author_facet Morais, Diego Arthur de Azevedo
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv https://orcid.org/0000-0002-7357-3446
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/0627546477822130
dc.contributor.advisorID.pt_BR.fl_str_mv https://orcid.org/0000-0002-1688-6155
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4065178015615979
dc.contributor.referees1.none.fl_str_mv Souza, Jorge Estefano de Santana
dc.contributor.referees1Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8058577659019910
dc.contributor.referees2.none.fl_str_mv Lima, Lucymara Fassarella Agnez
dc.contributor.referees2ID.pt_BR.fl_str_mv https://orcid.org/0000-0003-0642-3162
dc.contributor.referees2Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/1083882171718362
dc.contributor.referees3.none.fl_str_mv Guizelini, Dieval
dc.contributor.referees4.none.fl_str_mv Moreira, Fabiano Cordeiro
dc.contributor.author.fl_str_mv Morais, Diego Arthur de Azevedo
dc.contributor.advisor-co1.fl_str_mv Dalmolin, Rodrigo Juliani Siqueira
dc.contributor.advisor1.fl_str_mv Dalmolin, Rodrigo Juliani Siqueira
contributor_str_mv Dalmolin, Rodrigo Juliani Siqueira
Dalmolin, Rodrigo Juliani Siqueira
dc.subject.por.fl_str_mv Metagenômica
Bioinformática
Classificação taxonômica
Anotação funcional
Fluxo de trabalho
topic Metagenômica
Bioinformática
Classificação taxonômica
Anotação funcional
Fluxo de trabalho
description A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-06-23T19:53:39Z
dc.date.available.fl_str_mv 2022-06-23T19:53:39Z
dc.date.issued.fl_str_mv 2022-04-14
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv MORAIS, Diego Arthur de Azevedo. Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas. 2022. 86f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/48271
identifier_str_mv MORAIS, Diego Arthur de Azevedo. Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas. 2022. 86f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.
url https://repositorio.ufrn.br/handle/123456789/48271
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/48271/1/Medusafluxotrabalho_Morais_2022.pdf
bitstream.checksum.fl_str_mv c703e229631e1a21d14e0875d0fa40d2
bitstream.checksumAlgorithm.fl_str_mv MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117779775553536