Optmizing 16S sequencing analysis pipelines

Detalhes bibliográficos
Autor(a) principal: Viana, Samuel Dias Rosa
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10451/26221
Resumo: Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016
id RCAP_7f06069d26479b40148d28b8783f2cce
oai_identifier_str oai:repositorio.ul.pt:10451/26221
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Optmizing 16S sequencing analysis pipelinesBioinformáticaGene 16SFilogeniaPipelinesPaired-end mergersTeses de mestrado - 2016Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016The 16S rRNA gene is a widely used target for phylogenetic analysis of prokaryote communities. This analysis starts with the sequencing of the 16S rRNA gene of a microbial sample, and includes several steps such as paired-end merging (when the sequencing technique produces paired-end reads), chimera removal, clustering, and sequence database search. The end-product is the phylogeny of the prokaryote taxa in the sample and an estimation of their abundance. The problem is that there are multiple tools available to carry out this analysis, and it is unclear which is the most effective. Namely, there are three analysis pipelines in wide use by the community: mothur, QIIME and USEARCH. These use different paired-end merging algorithms, different clustering algorithms, and different sequence reference databases (Silva, Greengenes, and RDP respectively). Additionally, there are a number of other paired-end mergers available and again, it is unclear which performs better in the context of this analysis. In this study, we start by evaluating each of the seven publicly available paired-end merging algorithms: BBmerge, FastqJoin (QIIME's merger), FLASH, mothur's merger, PANDAseq, PEAR and USEARCH's merger. Then, we assess the effectiveness of each the three analysis pipelines in conjunction with each of the three reference databases, and each of the most promising paired-end mergers. To do this evaluation, we use two sequencing datasets from mock communities, one publicly available and the other produced in-house. We evaluated the paired-end mergers by using BLAST against the known references to compare the number of mismatches before and after merging, and thereby calculate their precision and recall. We evaluated the analysis pipelines by implementing the UniFrac metric (a community standard) in order to measure the similarity between the predicted phylogeny and the real one. We implemented both a qualitative and a quantitative variant of UniFrac. We found that the best mergers were PEAR, FastqJoin and FLASH in terms of balance between precision and recall, whereas mothur was the best in terms of recall, and USEARCH the most correct in terms of the quality scores of the merged sequences. Regarding the analysis pipelines, in terms of qualitative UniFrac, QIIME with Silva as the reference and mothur's merger was the best on the first dataset, and mothur with either Greengenes or RDP and its own merger was the best in the second dataset. In terms of quantative unifrac, mother with Greengenes and its own merger was the best for the first dataset, and USEARCH with SILVA and mothur's merger was the best on the second dataset. We concluded that having a high recall in the merging step is more important than having a high precision for the downstream phylogenetic analysis, as mothur's merger was either the best or tied for thebest in all settings.O gene de rRNA 16S é amplamente usado para a análise filogenética de comunidades de procariotas. Esta análise inicia-se com a sequenciação deste de uma comunidade microbiana, e inclui diversos passos tais como a junção ("merging") de sequências emparelhadas ("paired-end reads") - quando a sequenciação produz este formato - , remoção de quimeras, agrupamento ( "clustering") e comparação com sequências conhecidas guardadas em base de dados. O produto final é a obtenção dos taxa de procariotas presentes na amostra e uma estimativa da sua respectiva abundância. O problema que se coloca é que existem várias ferramentas informáticas ("pipelines") disponíveis para realizar esta análise, e não é claro qual delas a que produz melhor desempenho. Nomeadamente, existem três "pipelines" a serem bastante usadas pela comunidade: mothur, QIIME e USEARCH. Cada uma usa diferentes algoritmos de "merging", "clustering" e bases de dados de 16S (Silva,Greengenes e RDP, respectivamente). Para além disso, existem também vários mergers independentes disponíveis e, uma vez mais, não é claro qual deles apresenta um melhor desempenho no contexto desta análise. Neste trabalho, começámos por avaliar cada um de sete "mergers" disponíveis gratuitamente: BBmerge, FastqJoin (usado pelo QIIME), FLASH, "merger" do mothur, PANDAseq, PEAR e "merger" do USEARCH. Após este passo, é feita uma avaliação a cada uma das três pipelines de análise conjuntamente com cada uma das três bases de dados, e com cada um dos mergers que conseguiram melhor desempenho no passo anterior. Para proceder a esta avaliação, usámos dois conjuntos de dados ("datasets") provenientes de comunidades simuladas ("mock"), um disponível ao público e outro criado internamente. Os mergers foram avaliados efectuando alinhamento contra as referências conhecidas e comparando o número de discordâncias ("mismatches") antes e depois do "merge", usando-os para calcular a sua precisão e sensibilidade ("recall"). Por sua vez, as pipelines de análise foram avaliadas implementando a métrica Unifrac (um "standard" estabelecido) de forma a medir a semelhança entre a filogenia prevista e a real. O Unifrac foi implementado nas suas versões quantitativa e qualitativa. Estabelecemos como melhores mergers o PEAR, FastqJoin e o FLASH devido ao equilíbrio entre a precisão e o "recall", enquanto que o mothur como merger foi o melhor em termos de "recall", sendo o USEARCH o merger que age de forma mais correcta no cálculo dos valores de qualidade das sequências resultantes do merge. Relativamente à pipelines de análise, e em termos de Unifrac qualitativo, o QIIME usando o Silva como referência foi o melhor usando o merger do mothur para o primeiro dataset, sendo o mothur usando Greengenes ou RDP com o seu próprio merger o melhor no segundo dataset. Para o Unifrac quantitativo, o mothur com o Greengenes e o seu próprio merger foi o melhor no primeiro dataset e o USEARCH usando SILVA com o merger do mothur novamente a ser o melhor no segundo dataset. Concluímos que possuir um recall elevado no passo de merge é mais importante do que possuir uma precisão elevada para a análise filogenética subsequente, uma vez que o merger do mothur foi o melhore esteve sempre associado com os melhores desempenhos em todas ascombinações testadas de merger, pipeline e base de dados.Pesquita, Idália Maria Pereira, 1972-Faria, Daniel Pedro de Jesus, 1981-Repositório da Universidade de LisboaViana, Samuel Dias Rosa2017-01-26T10:55:01Z201620162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/26221TID:201616270enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:16:17Zoai:repositorio.ul.pt:10451/26221Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:42:58.609748Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Optmizing 16S sequencing analysis pipelines
title Optmizing 16S sequencing analysis pipelines
spellingShingle Optmizing 16S sequencing analysis pipelines
Viana, Samuel Dias Rosa
Bioinformática
Gene 16S
Filogenia
Pipelines
Paired-end mergers
Teses de mestrado - 2016
Departamento de Informática
title_short Optmizing 16S sequencing analysis pipelines
title_full Optmizing 16S sequencing analysis pipelines
title_fullStr Optmizing 16S sequencing analysis pipelines
title_full_unstemmed Optmizing 16S sequencing analysis pipelines
title_sort Optmizing 16S sequencing analysis pipelines
author Viana, Samuel Dias Rosa
author_facet Viana, Samuel Dias Rosa
author_role author
dc.contributor.none.fl_str_mv Pesquita, Idália Maria Pereira, 1972-
Faria, Daniel Pedro de Jesus, 1981-
Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv Viana, Samuel Dias Rosa
dc.subject.por.fl_str_mv Bioinformática
Gene 16S
Filogenia
Pipelines
Paired-end mergers
Teses de mestrado - 2016
Departamento de Informática
topic Bioinformática
Gene 16S
Filogenia
Pipelines
Paired-end mergers
Teses de mestrado - 2016
Departamento de Informática
description Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016
publishDate 2016
dc.date.none.fl_str_mv 2016
2016
2016-01-01T00:00:00Z
2017-01-26T10:55:01Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10451/26221
TID:201616270
url http://hdl.handle.net/10451/26221
identifier_str_mv TID:201616270
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799134346263658496