Desenvolvimento de ferramentas para a análise de metagenomas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRN |
Texto Completo: | https://repositorio.ufrn.br/handle/123456789/51278 |
Resumo: | A metagenômica é uma abordagem que envolve o estudo do conteúdo genético total de uma amostra ambiental, podendo o ambiente ser desde uma amostra de solo a uma biópsia humana - em suma, qualquer fonte de microorganismos. Dados metagenômicos podem ser gerados pela metodologia chamada sequenciamento (shotgun) de genoma completo (SGC), que consiste no sequenciamento de todos os fragmentos de DNA obtidos da amostra, independente da presença ou ausência de marcadores. A análise de dados de metagenomas shotgun na bioinformática compreende várias diferentes etapas, contendo tipicamente o pré-processamento das sequências obtidas, a classificação taxonômica dessas sequências, a anotação funcional dos genes presentes e a montagem dessas sequências fragmentadas - as leituras - em sequências contíguas. Para este fim, é selecionado um conjunto de ferramentas computacionais que consigam, a partir do dado bruto, obter resultados interpretáveis e que gerem novas descobertas biológicas. No entanto, a escolha do ferramental ainda é um desafio visto que é um fator de alto impacto na acurácia, na formatação e no tipo de identificador obtido no resultado final - que, consequentemente, influenciará na busca de uma resposta biológica. No trabalho atual, propomos o MEDUSA, um fluxo de trabalho modular abrangendo uma série de ferramentas, capaz de executar o pré-processamento das sequências, a classificação taxonômica, o alinhamento contra um banco de dados referência, a montagem das sequências e a anotação funcional dos genes. O processo de desenvolvimento do MEDUSA envolveu a seleção de ferramentas para cada uma dessas etapas através de comparações de suas performances, ou benchmarks, e também o desenvolvimento em si de novas ferramentas, como o annotate, que realiza a anotação funcional de identificadores obtidos no alinhamento, e o MicroView, que processa resultados da classificação taxonômica, produzindo um relatório interativo com métricas de qualidade e biodiversidade. Através da seleção e do desenvolvimento desse conjunto de ferramentas, buscamos fornecer à metagenômica uma metodologia customizável de fácil configuração e execução que se equipare ou supere as alternativas atuais. |
id |
UFRN_1dc51b4a8511ef6c5c6ad660d2229aef |
---|---|
oai_identifier_str |
oai:https://repositorio.ufrn.br:123456789/51278 |
network_acronym_str |
UFRN |
network_name_str |
Repositório Institucional da UFRN |
repository_id_str |
|
spelling |
Cavalcante, João Vitor Ferreira0000-0001-7513-7376http://lattes.cnpq.br/57146021633085830000-0002-1688-6155http://lattes.cnpq.br/4065178015615979Lima, João Paulo Matos Santoshttps://orcid.org/0000-0002-6113-8834http://lattes.cnpq.br/3289758851760692Souza, Iara Dantas dehttps://orcid.org/0000-0002-2550-6150http://lattes.cnpq.br/8983310940285796Dalmolin, Rodrigo Juliani Siqueira2023-02-14T14:40:45Z2023-02-14T14:40:45Z2022-12-09CAVALCANTE, João Vitor Ferreira. Desenvolvimento de ferramentas para a análise de metagenomas. 2022. 60 f. Trabalho de Conclusão de Curso (Graduação em Biomedicina) – Centro de Biociências, Universidade Federal do Rio Grande do Norte, Natal, 2022.https://repositorio.ufrn.br/handle/123456789/51278A metagenômica é uma abordagem que envolve o estudo do conteúdo genético total de uma amostra ambiental, podendo o ambiente ser desde uma amostra de solo a uma biópsia humana - em suma, qualquer fonte de microorganismos. Dados metagenômicos podem ser gerados pela metodologia chamada sequenciamento (shotgun) de genoma completo (SGC), que consiste no sequenciamento de todos os fragmentos de DNA obtidos da amostra, independente da presença ou ausência de marcadores. A análise de dados de metagenomas shotgun na bioinformática compreende várias diferentes etapas, contendo tipicamente o pré-processamento das sequências obtidas, a classificação taxonômica dessas sequências, a anotação funcional dos genes presentes e a montagem dessas sequências fragmentadas - as leituras - em sequências contíguas. Para este fim, é selecionado um conjunto de ferramentas computacionais que consigam, a partir do dado bruto, obter resultados interpretáveis e que gerem novas descobertas biológicas. No entanto, a escolha do ferramental ainda é um desafio visto que é um fator de alto impacto na acurácia, na formatação e no tipo de identificador obtido no resultado final - que, consequentemente, influenciará na busca de uma resposta biológica. No trabalho atual, propomos o MEDUSA, um fluxo de trabalho modular abrangendo uma série de ferramentas, capaz de executar o pré-processamento das sequências, a classificação taxonômica, o alinhamento contra um banco de dados referência, a montagem das sequências e a anotação funcional dos genes. O processo de desenvolvimento do MEDUSA envolveu a seleção de ferramentas para cada uma dessas etapas através de comparações de suas performances, ou benchmarks, e também o desenvolvimento em si de novas ferramentas, como o annotate, que realiza a anotação funcional de identificadores obtidos no alinhamento, e o MicroView, que processa resultados da classificação taxonômica, produzindo um relatório interativo com métricas de qualidade e biodiversidade. Através da seleção e do desenvolvimento desse conjunto de ferramentas, buscamos fornecer à metagenômica uma metodologia customizável de fácil configuração e execução que se equipare ou supere as alternativas atuais.Metagenomics is the study of the total genetic content of an environmental sample, the environment being any from a soil sample to a human biopsy or any source of microorganisms. Metagenomic data can be generated by the whole-genome shotgun (WGS) method, in which all DNA fragments gathered from the sample are sequenced. The process of analyzing shotgun metagenomic data in bioinformatics comprehends many diverse steps, usually consisting of sequence pre-processing, taxonomic classification, functional annotation and assembly of these fragmented sequences - called reads - into contiguous sequences - or contigs. To this end, you must first select a set of tools that can, from the raw data, generate interpretable and insightful results. However, the selection of these tools remains a challenge, especially since it’s an influencing factor in the accuracy, formatting and the type of identifiers present in the final result - which therefore influences the biological discovery itself. In this work, we propose MEDUSA, a modular workflow that comprises a variety of tools, capable of executing read pre-processing, taxonomic classification, sequence alignment against a reference database, read assembly and functional annotation of genes. MEDUSA’s development was realized through a comparison of multiple tools through performance benchmarks and also the development of new tools, those being annotate, that performs functional annotation of alignment hits, and MicroView, which processes taxonomic classification results into an interactive report, containing quality control and biodiversity metrics. Through the selection and development of these tools, we provide to the field of metagenomics a new highly customizable and easy to set up methodology, which equates to or surpasses current alternatives.Universidade Federal do Rio Grande do NorteBiomedicinaUFRNBrasilMetagenômicaSequenciamento shotgunBioinformáticaFluxo de trabalhoClassificação taxonômicaMetagenomicsShotgun sequencingBioinformaticsWorkflowTaxonomic classificationDesenvolvimento de ferramentas para a análise de metagenomasinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UFRNinstname:Universidade Federal do Rio Grande do Norte (UFRN)instacron:UFRNinfo:eu-repo/semantics/openAccessORIGINALDesenvolvimentodeFerramentas_Cavalcante_2022.pdfDesenvolvimentodeFerramentas_Cavalcante_2022.pdfapplication/pdf1046020https://repositorio.ufrn.br/bitstream/123456789/51278/1/DesenvolvimentodeFerramentas_Cavalcante_2022.pdffccf232da8d6785b0f49c7dd58f8cf4fMD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8701https://repositorio.ufrn.br/bitstream/123456789/51278/2/license_rdf42fd4ad1e89814f5e4a476b409eb708cMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81484https://repositorio.ufrn.br/bitstream/123456789/51278/3/license.txte9597aa2854d128fd968be5edc8a28d9MD53123456789/512782023-02-15 18:36:45.731oai:https://repositorio.ufrn.br:123456789/51278Tk9OLUVYQ0xVU0lWRSBESVNUUklCVVRJT04gTElDRU5TRQoKCkJ5IHNpZ25pbmcgYW5kIGRlbGl2ZXJpbmcgdGhpcyBsaWNlbnNlLCBNci4gKGF1dGhvciBvciBjb3B5cmlnaHQgaG9sZGVyKToKCgphKSBHcmFudHMgdGhlIFVuaXZlcnNpZGFkZSBGZWRlcmFsIFJpbyBHcmFuZGUgZG8gTm9ydGUgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgb2YKcmVwcm9kdWNlLCBjb252ZXJ0IChhcyBkZWZpbmVkIGJlbG93KSwgY29tbXVuaWNhdGUgYW5kIC8gb3IKZGlzdHJpYnV0ZSB0aGUgZGVsaXZlcmVkIGRvY3VtZW50IChpbmNsdWRpbmcgYWJzdHJhY3QgLyBhYnN0cmFjdCkgaW4KZGlnaXRhbCBvciBwcmludGVkIGZvcm1hdCBhbmQgaW4gYW55IG1lZGl1bS4KCmIpIERlY2xhcmVzIHRoYXQgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBpdHMgb3JpZ2luYWwgd29yaywgYW5kIHRoYXQKeW91IGhhdmUgdGhlIHJpZ2h0IHRvIGdyYW50IHRoZSByaWdodHMgY29udGFpbmVkIGluIHRoaXMgbGljZW5zZS4gRGVjbGFyZXMKdGhhdCB0aGUgZGVsaXZlcnkgb2YgdGhlIGRvY3VtZW50IGRvZXMgbm90IGluZnJpbmdlLCBhcyBmYXIgYXMgaXQgaXMKdGhlIHJpZ2h0cyBvZiBhbnkgb3RoZXIgcGVyc29uIG9yIGVudGl0eS4KCmMpIElmIHRoZSBkb2N1bWVudCBkZWxpdmVyZWQgY29udGFpbnMgbWF0ZXJpYWwgd2hpY2ggZG9lcyBub3QKcmlnaHRzLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBvYnRhaW5lZCBhdXRob3JpemF0aW9uIGZyb20gdGhlIGhvbGRlciBvZiB0aGUKY29weXJpZ2h0IHRvIGdyYW50IHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdCB0aGlzIG1hdGVyaWFsIHdob3NlIHJpZ2h0cyBhcmUgb2YKdGhpcmQgcGFydGllcyBpcyBjbGVhcmx5IGlkZW50aWZpZWQgYW5kIHJlY29nbml6ZWQgaW4gdGhlIHRleHQgb3IKY29udGVudCBvZiB0aGUgZG9jdW1lbnQgZGVsaXZlcmVkLgoKSWYgdGhlIGRvY3VtZW50IHN1Ym1pdHRlZCBpcyBiYXNlZCBvbiBmdW5kZWQgb3Igc3VwcG9ydGVkIHdvcmsKYnkgYW5vdGhlciBpbnN0aXR1dGlvbiBvdGhlciB0aGFuIHRoZSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkbyBSaW8gR3JhbmRlIGRvIE5vcnRlLCBkZWNsYXJlcyB0aGF0IGl0IGhhcyBmdWxmaWxsZWQgYW55IG9ibGlnYXRpb25zIHJlcXVpcmVkIGJ5IHRoZSByZXNwZWN0aXZlIGFncmVlbWVudCBvciBhZ3JlZW1lbnQuCgpUaGUgVW5pdmVyc2lkYWRlIEZlZGVyYWwgZG8gUmlvIEdyYW5kZSBkbyBOb3J0ZSB3aWxsIGNsZWFybHkgaWRlbnRpZnkgaXRzIG5hbWUgKHMpIGFzIHRoZSBhdXRob3IgKHMpIG9yIGhvbGRlciAocykgb2YgdGhlIGRvY3VtZW50J3MgcmlnaHRzCmRlbGl2ZXJlZCwgYW5kIHdpbGwgbm90IG1ha2UgYW55IGNoYW5nZXMsIG90aGVyIHRoYW4gdGhvc2UgcGVybWl0dGVkIGJ5CnRoaXMgbGljZW5zZQo=Repositório de PublicaçõesPUBhttp://repositorio.ufrn.br/oai/opendoar:2023-02-15T21:36:45Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN)false |
dc.title.pt_BR.fl_str_mv |
Desenvolvimento de ferramentas para a análise de metagenomas |
title |
Desenvolvimento de ferramentas para a análise de metagenomas |
spellingShingle |
Desenvolvimento de ferramentas para a análise de metagenomas Cavalcante, João Vitor Ferreira Metagenômica Sequenciamento shotgun Bioinformática Fluxo de trabalho Classificação taxonômica Metagenomics Shotgun sequencing Bioinformatics Workflow Taxonomic classification |
title_short |
Desenvolvimento de ferramentas para a análise de metagenomas |
title_full |
Desenvolvimento de ferramentas para a análise de metagenomas |
title_fullStr |
Desenvolvimento de ferramentas para a análise de metagenomas |
title_full_unstemmed |
Desenvolvimento de ferramentas para a análise de metagenomas |
title_sort |
Desenvolvimento de ferramentas para a análise de metagenomas |
author |
Cavalcante, João Vitor Ferreira |
author_facet |
Cavalcante, João Vitor Ferreira |
author_role |
author |
dc.contributor.authorID.pt_BR.fl_str_mv |
0000-0001-7513-7376 |
dc.contributor.authorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/5714602163308583 |
dc.contributor.advisorID.pt_BR.fl_str_mv |
0000-0002-1688-6155 |
dc.contributor.advisorLattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/4065178015615979 |
dc.contributor.referees1.none.fl_str_mv |
Lima, João Paulo Matos Santos |
dc.contributor.referees1ID.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-6113-8834 |
dc.contributor.referees1Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/3289758851760692 |
dc.contributor.referees2.none.fl_str_mv |
Souza, Iara Dantas de |
dc.contributor.referees2ID.pt_BR.fl_str_mv |
https://orcid.org/0000-0002-2550-6150 |
dc.contributor.referees2Lattes.pt_BR.fl_str_mv |
http://lattes.cnpq.br/8983310940285796 |
dc.contributor.author.fl_str_mv |
Cavalcante, João Vitor Ferreira |
dc.contributor.advisor1.fl_str_mv |
Dalmolin, Rodrigo Juliani Siqueira |
contributor_str_mv |
Dalmolin, Rodrigo Juliani Siqueira |
dc.subject.por.fl_str_mv |
Metagenômica Sequenciamento shotgun Bioinformática Fluxo de trabalho Classificação taxonômica Metagenomics Shotgun sequencing Bioinformatics Workflow Taxonomic classification |
topic |
Metagenômica Sequenciamento shotgun Bioinformática Fluxo de trabalho Classificação taxonômica Metagenomics Shotgun sequencing Bioinformatics Workflow Taxonomic classification |
description |
A metagenômica é uma abordagem que envolve o estudo do conteúdo genético total de uma amostra ambiental, podendo o ambiente ser desde uma amostra de solo a uma biópsia humana - em suma, qualquer fonte de microorganismos. Dados metagenômicos podem ser gerados pela metodologia chamada sequenciamento (shotgun) de genoma completo (SGC), que consiste no sequenciamento de todos os fragmentos de DNA obtidos da amostra, independente da presença ou ausência de marcadores. A análise de dados de metagenomas shotgun na bioinformática compreende várias diferentes etapas, contendo tipicamente o pré-processamento das sequências obtidas, a classificação taxonômica dessas sequências, a anotação funcional dos genes presentes e a montagem dessas sequências fragmentadas - as leituras - em sequências contíguas. Para este fim, é selecionado um conjunto de ferramentas computacionais que consigam, a partir do dado bruto, obter resultados interpretáveis e que gerem novas descobertas biológicas. No entanto, a escolha do ferramental ainda é um desafio visto que é um fator de alto impacto na acurácia, na formatação e no tipo de identificador obtido no resultado final - que, consequentemente, influenciará na busca de uma resposta biológica. No trabalho atual, propomos o MEDUSA, um fluxo de trabalho modular abrangendo uma série de ferramentas, capaz de executar o pré-processamento das sequências, a classificação taxonômica, o alinhamento contra um banco de dados referência, a montagem das sequências e a anotação funcional dos genes. O processo de desenvolvimento do MEDUSA envolveu a seleção de ferramentas para cada uma dessas etapas através de comparações de suas performances, ou benchmarks, e também o desenvolvimento em si de novas ferramentas, como o annotate, que realiza a anotação funcional de identificadores obtidos no alinhamento, e o MicroView, que processa resultados da classificação taxonômica, produzindo um relatório interativo com métricas de qualidade e biodiversidade. Através da seleção e do desenvolvimento desse conjunto de ferramentas, buscamos fornecer à metagenômica uma metodologia customizável de fácil configuração e execução que se equipare ou supere as alternativas atuais. |
publishDate |
2022 |
dc.date.issued.fl_str_mv |
2022-12-09 |
dc.date.accessioned.fl_str_mv |
2023-02-14T14:40:45Z |
dc.date.available.fl_str_mv |
2023-02-14T14:40:45Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
CAVALCANTE, João Vitor Ferreira. Desenvolvimento de ferramentas para a análise de metagenomas. 2022. 60 f. Trabalho de Conclusão de Curso (Graduação em Biomedicina) – Centro de Biociências, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufrn.br/handle/123456789/51278 |
identifier_str_mv |
CAVALCANTE, João Vitor Ferreira. Desenvolvimento de ferramentas para a análise de metagenomas. 2022. 60 f. Trabalho de Conclusão de Curso (Graduação em Biomedicina) – Centro de Biociências, Universidade Federal do Rio Grande do Norte, Natal, 2022. |
url |
https://repositorio.ufrn.br/handle/123456789/51278 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.publisher.program.fl_str_mv |
Biomedicina |
dc.publisher.initials.fl_str_mv |
UFRN |
dc.publisher.country.fl_str_mv |
Brasil |
publisher.none.fl_str_mv |
Universidade Federal do Rio Grande do Norte |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRN instname:Universidade Federal do Rio Grande do Norte (UFRN) instacron:UFRN |
instname_str |
Universidade Federal do Rio Grande do Norte (UFRN) |
instacron_str |
UFRN |
institution |
UFRN |
reponame_str |
Repositório Institucional da UFRN |
collection |
Repositório Institucional da UFRN |
bitstream.url.fl_str_mv |
https://repositorio.ufrn.br/bitstream/123456789/51278/1/DesenvolvimentodeFerramentas_Cavalcante_2022.pdf https://repositorio.ufrn.br/bitstream/123456789/51278/2/license_rdf https://repositorio.ufrn.br/bitstream/123456789/51278/3/license.txt |
bitstream.checksum.fl_str_mv |
fccf232da8d6785b0f49c7dd58f8cf4f 42fd4ad1e89814f5e4a476b409eb708c e9597aa2854d128fd968be5edc8a28d9 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRN - Universidade Federal do Rio Grande do Norte (UFRN) |
repository.mail.fl_str_mv |
|
_version_ |
1802117691678392320 |