Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA

Detalhes bibliográficos
Autor(a) principal: Vieira, Luís Miguel Ramos
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/31955
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017
id RCAP_52a37525ca1ee79353c97a89bf9f3aba
oai_identifier_str oai:repositorio.ul.pt:10451/31955
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNAMetagenómicaGene 16S rRNASequenciação de amplicõesSimulação de leiturasTeses de mestrado - 2017Departamento de Biologia AnimalTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017O estudo de fragmentos de DNA obtidos directamente de uma amostra ambiental é designado por metagenómica. A determinação da sequência de bases desses fragmentos pode ser obtida através da sequenciação de todos os fragmentos da amostra (sequenciação shotgun) ou de amplicões de genes marcadores, como por exemplo o gene 16S rRNA. Nos últimos anos, os estudos de metagenómica têm tido um desenvolvimento crescente em resultado da introdução de novas plataformas de sequenciação paralela massiva, que permitem obter várias centenas de gigabases de sequência por ensaio. Apesar do potencial de conhecimento científico que estes estudos vieram permitir, colocaram também novos desafios na análise do grande volume de dados obtido. Assim, a necessidade de análise de dados de sequenciação shotgun ou de amplicões do gene 16S rRNA despoletou o aparecimento de múltiplas ferramentas bioinformáticas que cobrem os diferentes níveis de análise de metagenomas, desde a avaliação da qualidade das leituras de sequenciação até à identificação de novos genes com relevância funcional. No presente trabalho reviram-se mais de uma centena de programas disponíveis no domínio público que podem ser aplicados à análise de dados de sequenciação de metagenomas, incluindo 91 programas que permitem a identificação taxonómica das leituras obtidas na sequenciação. No entanto, é um facto que programas distintos, aplicados ao mesmo conjunto de dados, podem produzir resultados diferentes. De forma a testar e comparar a performance dos programas de classificação taxonómica de leituras do gene 16S rRNA, foi desenvolvido um programa (sim16S) em linguagem Matlab que permite obter leituras simuladas de amplicões deste gene, escolhidos a partir de uma base de dados de sequências de referência usando oligonucleótidos introduzidos pelo utilizador. O sim16S produz outros ficheiros de dados, incluindo o número de leituras atribuídas a cada táxon dos 5 níveis taxonómicos desde o filo até ao género, e um relatório com diversas estatísticas. Neste trabalho, o sim16S foi utilizado para produzir diversos conjuntos de leituras de 2 amplicões do gene 16S rRNA e introduzir substituições de bases, de acordo com um modelo estatístico que simula a distribuição de erros de sequenciação. Com base nestes conjuntos de leituras, foram efectuadas 20 análises de classificação taxonómica em paralelo com os programas QIIME e mothur, que constituem os 2 programas mais citados neste âmbito na literatura científica. A análise de leituras sem erros de sequenciação mostrou que a exactidão da classificação taxonómica decresce em direcção aos níveis taxonómicos inferiores, mesmo utilizando as sequências que deram origem às leituras simuladas como base de dados de referência. A utilização de outras bases de dados nos 2 programas conduziu a um aumento significativo de táxones sem classificação taxonómica completa, em todos os níveis taxonómicos. A presença de 1, 2 ou 4 erros de sequenciação nas leituras não afectou a classificação taxonómica das leituras nos níveis de filo, classe e ordem em ambos os programas, relativamente à classificação das leituras sem erros. No entanto, a exactidão da classificação no mothur, nos restantes níveis taxonómicos, foi afectada na presença de ~1%, ~10% e 100% de leituras com 1 erro de sequenciação por leitura ou ~10% de leituras com 2 ou 4 erros por leitura. Pelo contrário, o QIIME apenas revelou uma exactidão inferior a 99% nos conjuntos de leituras com 100% de leituras com 1 erro, sugerindo que este programa é menos sensível à presença de erros de sequenciação do que o mothur. As análises efectuadas mostraram que o sim16S é uma ferramenta bioinformática útil para testar a performance da classificação taxonómica de diferentes programas existentes no domínio público. Além disso, o sim16S pode facilmente ser adaptado a outros genes procariotas ou eucariotas para os quais estejam disponíveis bases de dados de sequências de referência, podendo assim funcionar como uma ferramenta de âmbito geral no contexto dos estudos de metagenómica.The study of DNA fragments obtained directly from an environmental sample is called metagenomics. Determination of the sequence of bases of these fragments can be achieved by sequencing all fragments in the sample (shotgun sequencing) or amplicons derived from marker genes, such as the 16S rRNA gene. In recent years, metagenomics studies have been growing as a result of the introduction of new massive parallel sequencing platforms, which allow for several hundred gigabases of sequence per assay. Despite the potential of scientific knowledge that these studies allowed, they also posed new difficulties in the analysis of the large volume of data obtained. Thus, the need for analysis of shotgun sequencing or 16S rRNA gene amplicons triggered the emergence of multiple bioinformatics tools covering the different levels of metagenome analysis, ranging from the quality evaluation of sequencing reads to the identification of new genes with functional relevance. In the present work, more than 100 publicly available programs that can be applied to the analysis of metagenome sequencing data were analyzed, including 91 programs that allow taxonomic identification of sequencing reads. However, it is a fact that distinct programs, applied to the same set of data, can produce different results. In order to test and compare the performance of the 16S rRNA gene taxonomic classification tools, a program (sim16S) was developed in Matlab language that allows obtaining simulated reads of gene amplicons, chosen from a database of sequences using oligonucleotides introduced by the user. sim16S produces several data files, including the number of reads assigned to each taxon from the 5 taxonomic levels from phylum to genus, and a report with various statistics. In this work, sim16S was used to produce several sets of reads of 2 amplicons of the 16S rRNA gene, in which base substitutions were introduced according to a statistical model that simulates the distribution of sequencing errors. Based on sim16S datasets, 20 taxonomic classification analyzes were carried out in parallel with QIIME and mothur, which constitute the 2 most cited programs in the scientific literature in this field. Analysis of reads without sequencing errors showed that the accuracy of the taxonomic classification decreases toward the lower taxonomic levels, even using the sequences that gave rise to the simulated reads as a reference sequence database. The use of other databases in the two programs led to a significant increase in incomplete classified taxa at all taxonomic levels. The presence of 1, 2 or 4 sequencing errors in the reads did not affect the taxonomic classification at the phylum, class and order levels in both programs, relative to the classification of error-free reads. However, the accuracy of mothur classification at the remaining taxonomic levels was affected in the presence of ~1%, ~10% and 100% of reads with 1 sequencing error per read or in the presence of ~10% of reads with 2 or 4 errors per read. In contrast, QIIME only showed an accuracy of less than 99% in read sets with 100% of reads with 1 error, suggesting that this program is less sensitive to the presence of sequencing errors than mothur. These studies showed that sim16S is a useful bioinformatics tool to test the accuracy of the taxonomic classification of different programs available in the public domain. In addition, sim16S can easily be adapted to other prokaryotic or eukaryotic genes for which sequence databases are available and can thus function as a general tool in the context of metagenomics studies.Paulo, Octávio, 1963-Repositório da Universidade de LisboaVieira, Luís Miguel Ramos2018-02-23T15:13:33Z201720172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/31955TID:201853485porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:25:49Zoai:repositorio.ul.pt:10451/31955Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:47:17.887340Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
title Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
spellingShingle Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
Vieira, Luís Miguel Ramos
Metagenómica
Gene 16S rRNA
Sequenciação de amplicões
Simulação de leituras
Teses de mestrado - 2017
Departamento de Biologia Animal
title_short Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
title_full Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
title_fullStr Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
title_full_unstemmed Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
title_sort Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
author Vieira, Luís Miguel Ramos
author_facet Vieira, Luís Miguel Ramos
author_role author
dc.contributor.none.fl_str_mv Paulo, Octávio, 1963-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Vieira, Luís Miguel Ramos
dc.subject.por.fl_str_mv Metagenómica
Gene 16S rRNA
Sequenciação de amplicões
Simulação de leituras
Teses de mestrado - 2017
Departamento de Biologia Animal
topic Metagenómica
Gene 16S rRNA
Sequenciação de amplicões
Simulação de leituras
Teses de mestrado - 2017
Departamento de Biologia Animal
description Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017
publishDate 2017
dc.date.none.fl_str_mv 2017
2017
2017-01-01T00:00:00Z
2018-02-23T15:13:33Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/31955
TID:201853485
url http://hdl.handle.net/10451/31955
identifier_str_mv TID:201853485
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134398874910720