Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/48271 |
Resumo: | A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology. |
id |
UFRN_0a0e0ac0d6c918f3e57d88bcc45b5183 |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/48271 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Morais, Diego Arthur de Azevedohttps://orcid.org/0000-0002-7357-3446http://lattes.cnpq.br/0627546477822130https://orcid.org/0000-0002-1688-6155http://lattes.cnpq.br/4065178015615979Dalmolin, Rodrigo Juliani SiqueiraSouza, Jorge Estefano de Santanahttp://lattes.cnpq.br/8058577659019910Lima, Lucymara Fassarella Agnezhttps://orcid.org/0000-0003-0642-3162http://lattes.cnpq.br/1083882171718362Guizelini, DievalMoreira, Fabiano CordeiroDalmolin, Rodrigo Juliani Siqueira2022-06-23T19:53:39Z2022-06-23T19:53:39Z2022-04-14MORAIS, Diego Arthur de Azevedo. Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas. 2022. 86f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/48271A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology.Metagenomics involves the study of the microbial community found in a sample extracted from a given environment. This environment may be a cave wall, a portion of ocean water, the human gut, or any source containing microorganisms of interest. Such studies unravel details about the taxonomic composition and the functions performed by microbial communities. As a complete metagenomic analysis requires different tools for different purposes, the selection and setup of these tools remain challenging. Furthermore, the chosen toolset will affect the accuracy, the formatting, and the functional identifiers reported in the results, impacting the results interpretation and the biological answer obtained. The work presented here aims to propose a pipeline to be used in taxonomic and functional metagenomic analyses. To this end, state-of-the-art tools available in the literature were surveyed, and mock datasets were created to perform benchmarks. As a result, suited tools were selected for each analysis step, and a sensitive and flexible metagenomic analysis pipeline was designed. MEDUSA, an efficient pipeline to conduct comprehensive metagenomic analyses, performs preprocessing, assembly, alignment, taxonomic classification, and functional annotation on shotgun data, supporting user-built dictionaries to transfer annotations to any functional identifier. MEDUSA includes several tools, such as Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, and a novel tool implemented in Python to transfer annotations to BLAST/DIAMOND alignment results. These tools are installed via Conda, and the workflow is managed by Snakemake, easing the setup and execution. Compared with MEGAN 6 Community Edition, MEDUSA correctly identifies more species, especially the less abundant, and is more suited for functional analysis using Gene Ontology identifiers.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior - CAPESUniversidade Federal do Rio Grande do NortePROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICAUFRNBrasilMetagenômicaBioinformáticaClassificação taxonômicaAnotação funcionalFluxo de trabalhoMedusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNORIGINALMedusafluxotrabalho_Morais_2022.pdfapplication/pdf3142916https://repositorio.ufrn.br/bitstream/123456789/48271/1/Medusafluxotrabalho_Morais_2022.pdfc703e229631e1a21d14e0875d0fa40d2MD51123456789/482712022-06-23 16:54:13.306oai:https://repositorio.ufrn.br:123456789/48271Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2022-06-23T19:54:13Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
title |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
spellingShingle |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas Morais, Diego Arthur de Azevedo Metagenômica Bioinformática Classificação taxonômica Anotação funcional Fluxo de trabalho |
title_short |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
title_full |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
title_fullStr |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
title_full_unstemmed |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
title_sort |
Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas |
author |
Morais, Diego Arthur de Azevedo |
author_facet |
Morais, Diego Arthur de Azevedo |
author_role |
author |
dc.contributor.authorID.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-7357-3446 |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/0627546477822130 |
dc.contributor.advisorID.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-1688-6155 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4065178015615979 |
dc.contributor.referees1.none.fl_str_mv |
Souza, Jorge Estefano de Santana |
dc.contributor.referees1Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8058577659019910 |
dc.contributor.referees2.none.fl_str_mv |
Lima, Lucymara Fassarella Agnez |
dc.contributor.referees2ID.pt_BR.fl_str_mv |
https://orcid.org/0000-0003-0642-3162 |
dc.contributor.referees2Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/1083882171718362 |
dc.contributor.referees3.none.fl_str_mv |
Guizelini, Dieval |
dc.contributor.referees4.none.fl_str_mv |
Moreira, Fabiano Cordeiro |
dc.contributor.author.fl_str_mv |
Morais, Diego Arthur de Azevedo |
dc.contributor.advisor-co1.fl_str_mv |
Dalmolin, Rodrigo Juliani Siqueira |
dc.contributor.advisor1.fl_str_mv |
Dalmolin, Rodrigo Juliani Siqueira |
contributor_str_mv |
Dalmolin, Rodrigo Juliani Siqueira Dalmolin, Rodrigo Juliani Siqueira |
dc.subject.por.fl_str_mv |
Metagenômica Bioinformática Classificação taxonômica Anotação funcional Fluxo de trabalho |
topic |
Metagenômica Bioinformática Classificação taxonômica Anotação funcional Fluxo de trabalho |
description |
A metagenômica envolve o estudo da comunidade microbiana encontrada numa amostra extraída de um determinado ambiente. Este ambiente pode ser a parede de uma caverna, uma porção de água do oceano, o intestino humano, ou qualquer fonte contendo micro-organismos de interesse. Tais estudos revelam detalhes sobre a composição taxonômica e as funções exercidas por comunidades microbianas. Como uma análise metagenômica completa requer diferentes ferramentas para diferentes propósitos, a escolha e instalação destas ferramentas representa um desafio. Além disto, o conjunto de ferramentas escolhido afeta a precisão, formatação, e os identificadores funcionais informados nos resultados, impactando a interpretação dos resultados e as respostas biológicas obtidas. O presente trabalho tem como objetivo propor um fluxo de trabalho a ser usado em análises taxonômicas e funcionais de metagenomas. Para isto, foram pesquisadas ferramentas do estado da arte disponíveis na literatura, e conjuntos de dados simulados foram criados para realizar comparações. Como resultado, ferramentas adequadas para cada etapa de análise foram selecionadas, e um fluxo de trabalho sensível e flexível para análises metagenômicas foi projetado. MEDUSA, um fluxo de trabalho eficiente para execução de análises metagenômicas completas, realiza pré-processamento, montagem, alinhamento, classificação taxonômica, e anotação funcional de dados shotgun, permitindo o uso de dicionários criados pelos usuários para transferir anotações para qualquer identificador funcional. MEDUSA inclui diversas ferramentas, tais como o Fastp, Bowtie2, DIAMOND, Kaiju, MEGAHIT, e uma nova ferramenta implementada em Python para transferir anotações para resultados de alinhamento BLAST/DIAMOND. Estas ferramentas são instaladas via Conda, e o fluxo de trabalho é gerenciado pelo Snakemake, facilitando a instalação e execução. Comparado com o MEGAN 6 Community Edition, MEDUSA identifica corretamente mais espécies, especialmente as menos abundantes, e é mais adequado para análises funcionais usando identificadores do Gene Ontology. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-06-23T19:53:39Z |
dc.date.available.fl_str_mv |
2022-06-23T19:53:39Z |
dc.date.issued.fl_str_mv |
2022-04-14 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
MORAIS, Diego Arthur de Azevedo. Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas. 2022. 86f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/48271 |
identifier_str_mv |
MORAIS, Diego Arthur de Azevedo. Medusa: um fluxo de trabalho para classificação taxonômica e anotação funcional de metagenomas. 2022. 86f. Tese (Doutorado em Bioinformática) - Instituto Metrópole Digital, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
url |
https://repositorio.ufrn.br/handle/123456789/48271 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
PROGRAMA DE PÓS-GRADUAÇÃO EM BIOINFORMÁTICA |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/48271/1/Medusafluxotrabalho_Morais_2022.pdf |
bitstream.checksum.fl_str_mv |
c703e229631e1a21d14e0875d0fa40d2 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117779775553536 |