Desenvolvimento de ferramentas para a análise de metagenomas

Detalhes bibliográficos
Autor(a) principal: Cavalcante, João Vitor Ferreira
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRN
Texto Completo: https://repositorio.ufrn.br/handle/123456789/51278
Resumo: A metagenômica é uma abordagem que envolve o estudo do conteúdo genético total de uma amostra ambiental, podendo o ambiente ser desde uma amostra de solo a uma biópsia humana - em suma, qualquer fonte de microorganismos. Dados metagenômicos podem ser gerados pela metodologia chamada sequenciamento (shotgun) de genoma completo (SGC), que consiste no sequenciamento de todos os fragmentos de DNA obtidos da amostra, independente da presença ou ausência de marcadores. A análise de dados de metagenomas shotgun na bioinformática compreende várias diferentes etapas, contendo tipicamente o pré-processamento das sequências obtidas, a classificação taxonômica dessas sequências, a anotação funcional dos genes presentes e a montagem dessas sequências fragmentadas - as leituras - em sequências contíguas. Para este fim, é selecionado um conjunto de ferramentas computacionais que consigam, a partir do dado bruto, obter resultados interpretáveis e que gerem novas descobertas biológicas. No entanto, a escolha do ferramental ainda é um desafio visto que é um fator de alto impacto na acurácia, na formatação e no tipo de identificador obtido no resultado final - que, consequentemente, influenciará na busca de uma resposta biológica. No trabalho atual, propomos o MEDUSA, um fluxo de trabalho modular abrangendo uma série de ferramentas, capaz de executar o pré-processamento das sequências, a classificação taxonômica, o alinhamento contra um banco de dados referência, a montagem das sequências e a anotação funcional dos genes. O processo de desenvolvimento do MEDUSA envolveu a seleção de ferramentas para cada uma dessas etapas através de comparações de suas performances, ou benchmarks, e também o desenvolvimento em si de novas ferramentas, como o annotate, que realiza a anotação funcional de identificadores obtidos no alinhamento, e o MicroView, que processa resultados da classificação taxonômica, produzindo um relatório interativo com métricas de qualidade e biodiversidade. Através da seleção e do desenvolvimento desse conjunto de ferramentas, buscamos fornecer à metagenômica uma metodologia customizável de fácil configuração e execução que se equipare ou supere as alternativas atuais.
id UFRN_1dc51b4a8511ef6c5c6ad660d2229aef
oai_identifier_str oai:https://repositorio.ufrn.br:123456789/51278
network_acronym_str UFRN
network_name_str Repositório Institucional da UFRN
repository_id_str
spelling Cavalcante, João Vitor Ferreira0000-0001-7513-7376http://lattes.cnpq.br/57146021633085830000-0002-1688-6155http://lattes.cnpq.br/4065178015615979Lima, João Paulo Matos Santoshttps://orcid.org/0000-0002-6113-8834http://lattes.cnpq.br/3289758851760692Souza, Iara Dantas dehttps://orcid.org/0000-0002-2550-6150http://lattes.cnpq.br/8983310940285796Dalmolin, Rodrigo Juliani Siqueira2023-02-14T14:40:45Z2023-02-14T14:40:45Z2022-12-09CAVALCANTE, João Vitor Ferreira. Desenvolvimento de ferramentas para a análise de metagenomas. 2022. 60 f. Trabalho de Conclusão de Curso (Graduação em Biomedicina) – Centro de Biociências, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/51278A metagenômica é uma abordagem que envolve o estudo do conteúdo genético total de uma amostra ambiental, podendo o ambiente ser desde uma amostra de solo a uma biópsia humana - em suma, qualquer fonte de microorganismos. Dados metagenômicos podem ser gerados pela metodologia chamada sequenciamento (shotgun) de genoma completo (SGC), que consiste no sequenciamento de todos os fragmentos de DNA obtidos da amostra, independente da presença ou ausência de marcadores. A análise de dados de metagenomas shotgun na bioinformática compreende várias diferentes etapas, contendo tipicamente o pré-processamento das sequências obtidas, a classificação taxonômica dessas sequências, a anotação funcional dos genes presentes e a montagem dessas sequências fragmentadas - as leituras - em sequências contíguas. Para este fim, é selecionado um conjunto de ferramentas computacionais que consigam, a partir do dado bruto, obter resultados interpretáveis e que gerem novas descobertas biológicas. No entanto, a escolha do ferramental ainda é um desafio visto que é um fator de alto impacto na acurácia, na formatação e no tipo de identificador obtido no resultado final - que, consequentemente, influenciará na busca de uma resposta biológica. No trabalho atual, propomos o MEDUSA, um fluxo de trabalho modular abrangendo uma série de ferramentas, capaz de executar o pré-processamento das sequências, a classificação taxonômica, o alinhamento contra um banco de dados referência, a montagem das sequências e a anotação funcional dos genes. O processo de desenvolvimento do MEDUSA envolveu a seleção de ferramentas para cada uma dessas etapas através de comparações de suas performances, ou benchmarks, e também o desenvolvimento em si de novas ferramentas, como o annotate, que realiza a anotação funcional de identificadores obtidos no alinhamento, e o MicroView, que processa resultados da classificação taxonômica, produzindo um relatório interativo com métricas de qualidade e biodiversidade. Através da seleção e do desenvolvimento desse conjunto de ferramentas, buscamos fornecer à metagenômica uma metodologia customizável de fácil configuração e execução que se equipare ou supere as alternativas atuais.Metagenomics is the study of the total genetic content of an environmental sample, the environment being any from a soil sample to a human biopsy or any source of microorganisms. Metagenomic data can be generated by the whole-genome shotgun (WGS) method, in which all DNA fragments gathered from the sample are sequenced. The process of analyzing shotgun metagenomic data in bioinformatics comprehends many diverse steps, usually consisting of sequence pre-processing, taxonomic classification, functional annotation and assembly of these fragmented sequences - called reads - into contiguous sequences - or contigs. To this end, you must first select a set of tools that can, from the raw data, generate interpretable and insightful results. However, the selection of these tools remains a challenge, especially since it’s an influencing factor in the accuracy, formatting and the type of identifiers present in the final result - which therefore influences the biological discovery itself. In this work, we propose MEDUSA, a modular workflow that comprises a variety of tools, capable of executing read pre-processing, taxonomic classification, sequence alignment against a reference database, read assembly and functional annotation of genes. MEDUSA’s development was realized through a comparison of multiple tools through performance benchmarks and also the development of new tools, those being annotate, that performs functional annotation of alignment hits, and MicroView, which processes taxonomic classification results into an interactive report, containing quality control and biodiversity metrics. Through the selection and development of these tools, we provide to the field of metagenomics a new highly customizable and easy to set up methodology, which equates to or surpasses current alternatives.Universidade Federal do Rio Grande do NorteBiomedicinaUFRNBrasilMetagenômicaSequenciamento shotgunBioinformáticaFluxo de trabalhoClassificação taxonômicaMetagenomicsShotgun sequencingBioinformaticsWorkflowTaxonomic classificationDesenvolvimento de ferramentas para a análise de metagenomasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALDesenvolvimentodeFerramentas_Cavalcante_2022.pdfDesenvolvimentodeFerramentas_Cavalcante_2022.pdfapplication/pdf1046020https://repositorio.ufrn.br/bitstream/123456789/51278/1/DesenvolvimentodeFerramentas_Cavalcante_2022.pdffccf232da8d6785b0f49c7dd58f8cf4fMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repositorio.ufrn.br/bitstream/123456789/51278/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81484https://repositorio.ufrn.br/bitstream/123456789/51278/3/license.txte9597aa2854d128fd968be5edc8a28d9MD53123456789/512782023-02-15 18:36:45.731oai:https://repositorio.ufrn.br:123456789/51278Tk9OLUVYQ0xVU0lWRSBESVNUUklCVVRJT04gTElDRU5TRQoKCkJ5IHNpZ25pbmcgYW5kIGRlbGl2ZXJpbmcgdGhpcyBsaWNlbnNlLCBNci4gKGF1dGhvciBvciBjb3B5cmlnaHQgaG9sZGVyKToKCgphKSBHcmFudHMgdGhlIFVuaXZlcnNpZGFkZSBGZWRlcmFsIFJpbyBHcmFuZGUgZG8gTm9ydGUgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgb2YKcmVwcm9kdWNlLCBjb252ZXJ0IChhcyBkZWZpbmVkIGJlbG93KSwgY29tbXVuaWNhdGUgYW5kIC8gb3IKZGlzdHJpYnV0ZSB0aGUgZGVsaXZlcmVkIGRvY3VtZW50IChpbmNsdWRpbmcgYWJzdHJhY3QgLyBhYnN0cmFjdCkgaW4KZGlnaXRhbCBvciBwcmludGVkIGZvcm1hdCBhbmQgaW4gYW55IG1lZGl1bS4KCmIpIERlY2xhcmVzIHRoYXQgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBpdHMgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQKeW91IGhhdmUgdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gRGVjbGFyZXMKdGhhdCB0aGUgZGVsaXZlcnkgb2YgdGhlIGRvY3VtZW50IGRvZXMgbm90IGluZnJpbmdlLCBhcyBmYXIgYXMgaXQgaXMKdGhlIHJpZ2h0cyBvZiBhbnkgb3RoZXIgcGVyc29uIG9yIGVudGl0eS4KCmMpIElmIHRoZSBkb2N1bWVudCBkZWxpdmVyZWQgY29udGFpbnMgbWF0ZXJpYWwgd2hpY2ggZG9lcyBub3QKcmlnaHRzLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBvYnRhaW5lZCBhdXRob3JpemF0aW9uIGZyb20gdGhlIGhvbGRlciBvZiB0aGUKY29weXJpZ2h0IHRvIGdyYW50IHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCB0aGlzIG1hdGVyaWFsIHdob3NlIHJpZ2h0cyBhcmUgb2YKdGhpcmQgcGFydGllcyBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIHJlY29nbml6ZWQgaW4gdGhlIHRleHQgb3IKY29udGVudCBvZiB0aGUgZG9jdW1lbnQgZGVsaXZlcmVkLgoKSWYgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBiYXNlZCBvbiBmdW5kZWQgb3Igc3VwcG9ydGVkIHdvcmsKYnkgYW5vdGhlciBpbnN0aXR1dGlvbiBvdGhlciB0aGFuIHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBmdWxmaWxsZWQgYW55IG9ibGlnYXRpb25zIHJlcXVpcmVkIGJ5IHRoZSByZXNwZWN0aXZlIGFncmVlbWVudCBvciBhZ3JlZW1lbnQuCgpUaGUgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUmlvIEdyYW5kZSBkbyBOb3J0ZSB3aWxsIGNsZWFybHkgaWRlbnRpZnkgaXRzIG5hbWUgKHMpIGFzIHRoZSBhdXRob3IgKHMpIG9yIGhvbGRlciAocykgb2YgdGhlIGRvY3VtZW50J3MgcmlnaHRzCmRlbGl2ZXJlZCwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGNoYW5nZXMsIG90aGVyIHRoYW4gdGhvc2UgcGVybWl0dGVkIGJ5CnRoaXMgbGljZW5zZQo=Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-02-15T21:36:45Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false
dc.title.pt_BR.fl_str_mv Desenvolvimento de ferramentas para a análise de metagenomas
title Desenvolvimento de ferramentas para a análise de metagenomas
spellingShingle Desenvolvimento de ferramentas para a análise de metagenomas
Cavalcante, João Vitor Ferreira
Metagenômica
Sequenciamento shotgun
Bioinformática
Fluxo de trabalho
Classificação taxonômica
Metagenomics
Shotgun sequencing
Bioinformatics
Workflow
Taxonomic classification
title_short Desenvolvimento de ferramentas para a análise de metagenomas
title_full Desenvolvimento de ferramentas para a análise de metagenomas
title_fullStr Desenvolvimento de ferramentas para a análise de metagenomas
title_full_unstemmed Desenvolvimento de ferramentas para a análise de metagenomas
title_sort Desenvolvimento de ferramentas para a análise de metagenomas
author Cavalcante, João Vitor Ferreira
author_facet Cavalcante, João Vitor Ferreira
author_role author
dc.contributor.authorID.pt_BR.fl_str_mv 0000-0001-7513-7376
dc.contributor.authorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/5714602163308583
dc.contributor.advisorID.pt_BR.fl_str_mv 0000-0002-1688-6155
dc.contributor.advisorLattes.pt_BR.fl_str_mv http://lattes.cnpq.br/4065178015615979
dc.contributor.referees1.none.fl_str_mv Lima, João Paulo Matos Santos
dc.contributor.referees1ID.pt_BR.fl_str_mv https://orcid.org/0000-0002-6113-8834
dc.contributor.referees1Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/3289758851760692
dc.contributor.referees2.none.fl_str_mv Souza, Iara Dantas de
dc.contributor.referees2ID.pt_BR.fl_str_mv https://orcid.org/0000-0002-2550-6150
dc.contributor.referees2Lattes.pt_BR.fl_str_mv http://lattes.cnpq.br/8983310940285796
dc.contributor.author.fl_str_mv Cavalcante, João Vitor Ferreira
dc.contributor.advisor1.fl_str_mv Dalmolin, Rodrigo Juliani Siqueira
contributor_str_mv Dalmolin, Rodrigo Juliani Siqueira
dc.subject.por.fl_str_mv Metagenômica
Sequenciamento shotgun
Bioinformática
Fluxo de trabalho
Classificação taxonômica
Metagenomics
Shotgun sequencing
Bioinformatics
Workflow
Taxonomic classification
topic Metagenômica
Sequenciamento shotgun
Bioinformática
Fluxo de trabalho
Classificação taxonômica
Metagenomics
Shotgun sequencing
Bioinformatics
Workflow
Taxonomic classification
description A metagenômica é uma abordagem que envolve o estudo do conteúdo genético total de uma amostra ambiental, podendo o ambiente ser desde uma amostra de solo a uma biópsia humana - em suma, qualquer fonte de microorganismos. Dados metagenômicos podem ser gerados pela metodologia chamada sequenciamento (shotgun) de genoma completo (SGC), que consiste no sequenciamento de todos os fragmentos de DNA obtidos da amostra, independente da presença ou ausência de marcadores. A análise de dados de metagenomas shotgun na bioinformática compreende várias diferentes etapas, contendo tipicamente o pré-processamento das sequências obtidas, a classificação taxonômica dessas sequências, a anotação funcional dos genes presentes e a montagem dessas sequências fragmentadas - as leituras - em sequências contíguas. Para este fim, é selecionado um conjunto de ferramentas computacionais que consigam, a partir do dado bruto, obter resultados interpretáveis e que gerem novas descobertas biológicas. No entanto, a escolha do ferramental ainda é um desafio visto que é um fator de alto impacto na acurácia, na formatação e no tipo de identificador obtido no resultado final - que, consequentemente, influenciará na busca de uma resposta biológica. No trabalho atual, propomos o MEDUSA, um fluxo de trabalho modular abrangendo uma série de ferramentas, capaz de executar o pré-processamento das sequências, a classificação taxonômica, o alinhamento contra um banco de dados referência, a montagem das sequências e a anotação funcional dos genes. O processo de desenvolvimento do MEDUSA envolveu a seleção de ferramentas para cada uma dessas etapas através de comparações de suas performances, ou benchmarks, e também o desenvolvimento em si de novas ferramentas, como o annotate, que realiza a anotação funcional de identificadores obtidos no alinhamento, e o MicroView, que processa resultados da classificação taxonômica, produzindo um relatório interativo com métricas de qualidade e biodiversidade. Através da seleção e do desenvolvimento desse conjunto de ferramentas, buscamos fornecer à metagenômica uma metodologia customizável de fácil configuração e execução que se equipare ou supere as alternativas atuais.
publishDate 2022
dc.date.issued.fl_str_mv 2022-12-09
dc.date.accessioned.fl_str_mv 2023-02-14T14:40:45Z
dc.date.available.fl_str_mv 2023-02-14T14:40:45Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CAVALCANTE, João Vitor Ferreira. Desenvolvimento de ferramentas para a análise de metagenomas. 2022. 60 f. Trabalho de Conclusão de Curso (Graduação em Biomedicina) – Centro de Biociências, Universidade Federal do Rio Grande do Norte, Natal, 2022.
dc.identifier.uri.fl_str_mv https://repositorio.ufrn.br/handle/123456789/51278
identifier_str_mv CAVALCANTE, João Vitor Ferreira. Desenvolvimento de ferramentas para a análise de metagenomas. 2022. 60 f. Trabalho de Conclusão de Curso (Graduação em Biomedicina) – Centro de Biociências, Universidade Federal do Rio Grande do Norte, Natal, 2022.
url https://repositorio.ufrn.br/handle/123456789/51278
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.publisher.program.fl_str_mv Biomedicina
dc.publisher.initials.fl_str_mv UFRN
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal do Rio Grande do Norte
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRN
instname:Universidade Federal do Rio Grande do Norte (UFRN)
instacron:UFRN
instname_str Universidade Federal do Rio Grande do Norte (UFRN)
instacron_str UFRN
institution UFRN
reponame_str Repositório Institucional da UFRN
collection Repositório Institucional da UFRN
bitstream.url.fl_str_mv https://repositorio.ufrn.br/bitstream/123456789/51278/1/DesenvolvimentodeFerramentas_Cavalcante_2022.pdf
https://repositorio.ufrn.br/bitstream/123456789/51278/2/license_rdf
https://repositorio.ufrn.br/bitstream/123456789/51278/3/license.txt
bitstream.checksum.fl_str_mv fccf232da8d6785b0f49c7dd58f8cf4f
42fd4ad1e89814f5e4a476b409eb708c
e9597aa2854d128fd968be5edc8a28d9
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)
repository.mail.fl_str_mv
_version_ 1802117691678392320