Optmizing 16S sequencing analysis pipelines

Viana, Samuel Dias Rosa

Optmizing 16S sequencing analysis pipelines

Detalhes bibliográficos
Autor(a) principal:	Viana, Samuel Dias Rosa
Data de Publicação:	2016
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10451/26221
Resumo:	Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016

Metadados do item

id	RCAP_7f06069d26479b40148d28b8783f2cce
oai_identifier_str	oai:repositorio.ul.pt:10451/26221
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	Optmizing 16S sequencing analysis pipelinesBioinformáticaGene 16SFilogeniaPipelinesPaired-end mergersTeses de mestrado - 2016Departamento de InformáticaTese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016The 16S rRNA gene is a widely used target for phylogenetic analysis of prokaryote communities. This analysis starts with the sequencing of the 16S rRNA gene of a microbial sample, and includes several steps such as paired-end merging (when the sequencing technique produces paired-end reads), chimera removal, clustering, and sequence database search. The end-product is the phylogeny of the prokaryote taxa in the sample and an estimation of their abundance. The problem is that there are multiple tools available to carry out this analysis, and it is unclear which is the most effective. Namely, there are three analysis pipelines in wide use by the community: mothur, QIIME and USEARCH. These use different paired-end merging algorithms, different clustering algorithms, and different sequence reference databases (Silva, Greengenes, and RDP respectively). Additionally, there are a number of other paired-end mergers available and again, it is unclear which performs better in the context of this analysis. In this study, we start by evaluating each of the seven publicly available paired-end merging algorithms: BBmerge, FastqJoin (QIIME's merger), FLASH, mothur's merger, PANDAseq, PEAR and USEARCH's merger. Then, we assess the effectiveness of each the three analysis pipelines in conjunction with each of the three reference databases, and each of the most promising paired-end mergers. To do this evaluation, we use two sequencing datasets from mock communities, one publicly available and the other produced in-house. We evaluated the paired-end mergers by using BLAST against the known references to compare the number of mismatches before and after merging, and thereby calculate their precision and recall. We evaluated the analysis pipelines by implementing the UniFrac metric (a community standard) in order to measure the similarity between the predicted phylogeny and the real one. We implemented both a qualitative and a quantitative variant of UniFrac. We found that the best mergers were PEAR, FastqJoin and FLASH in terms of balance between precision and recall, whereas mothur was the best in terms of recall, and USEARCH the most correct in terms of the quality scores of the merged sequences. Regarding the analysis pipelines, in terms of qualitative UniFrac, QIIME with Silva as the reference and mothur's merger was the best on the first dataset, and mothur with either Greengenes or RDP and its own merger was the best in the second dataset. In terms of quantative unifrac, mother with Greengenes and its own merger was the best for the first dataset, and USEARCH with SILVA and mothur's merger was the best on the second dataset. We concluded that having a high recall in the merging step is more important than having a high precision for the downstream phylogenetic analysis, as mothur's merger was either the best or tied for thebest in all settings.O gene de rRNA 16S é amplamente usado para a análise filogenética de comunidades de procariotas. Esta análise inicia-se com a sequenciação deste de uma comunidade microbiana, e inclui diversos passos tais como a junção ("merging") de sequências emparelhadas ("paired-end reads") - quando a sequenciação produz este formato - , remoção de quimeras, agrupamento ( "clustering") e comparação com sequências conhecidas guardadas em base de dados. O produto final é a obtenção dos taxa de procariotas presentes na amostra e uma estimativa da sua respectiva abundância. O problema que se coloca é que existem várias ferramentas informáticas ("pipelines") disponíveis para realizar esta análise, e não é claro qual delas a que produz melhor desempenho. Nomeadamente, existem três "pipelines" a serem bastante usadas pela comunidade: mothur, QIIME e USEARCH. Cada uma usa diferentes algoritmos de "merging", "clustering" e bases de dados de 16S (Silva,Greengenes e RDP, respectivamente). Para além disso, existem também vários mergers independentes disponíveis e, uma vez mais, não é claro qual deles apresenta um melhor desempenho no contexto desta análise. Neste trabalho, começámos por avaliar cada um de sete "mergers" disponíveis gratuitamente: BBmerge, FastqJoin (usado pelo QIIME), FLASH, "merger" do mothur, PANDAseq, PEAR e "merger" do USEARCH. Após este passo, é feita uma avaliação a cada uma das três pipelines de análise conjuntamente com cada uma das três bases de dados, e com cada um dos mergers que conseguiram melhor desempenho no passo anterior. Para proceder a esta avaliação, usámos dois conjuntos de dados ("datasets") provenientes de comunidades simuladas ("mock"), um disponível ao público e outro criado internamente. Os mergers foram avaliados efectuando alinhamento contra as referências conhecidas e comparando o número de discordâncias ("mismatches") antes e depois do "merge", usando-os para calcular a sua precisão e sensibilidade ("recall"). Por sua vez, as pipelines de análise foram avaliadas implementando a métrica Unifrac (um "standard" estabelecido) de forma a medir a semelhança entre a filogenia prevista e a real. O Unifrac foi implementado nas suas versões quantitativa e qualitativa. Estabelecemos como melhores mergers o PEAR, FastqJoin e o FLASH devido ao equilíbrio entre a precisão e o "recall", enquanto que o mothur como merger foi o melhor em termos de "recall", sendo o USEARCH o merger que age de forma mais correcta no cálculo dos valores de qualidade das sequências resultantes do merge. Relativamente à pipelines de análise, e em termos de Unifrac qualitativo, o QIIME usando o Silva como referência foi o melhor usando o merger do mothur para o primeiro dataset, sendo o mothur usando Greengenes ou RDP com o seu próprio merger o melhor no segundo dataset. Para o Unifrac quantitativo, o mothur com o Greengenes e o seu próprio merger foi o melhor no primeiro dataset e o USEARCH usando SILVA com o merger do mothur novamente a ser o melhor no segundo dataset. Concluímos que possuir um recall elevado no passo de merge é mais importante do que possuir uma precisão elevada para a análise filogenética subsequente, uma vez que o merger do mothur foi o melhore esteve sempre associado com os melhores desempenhos em todas ascombinações testadas de merger, pipeline e base de dados.Pesquita, Idália Maria Pereira, 1972-Faria, Daniel Pedro de Jesus, 1981-Repositório da Universidade de LisboaViana, Samuel Dias Rosa2017-01-26T10:55:01Z201620162016-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10451/26221TID:201616270enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-08T16:16:17Zoai:repositorio.ul.pt:10451/26221Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T21:42:58.609748Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	Optmizing 16S sequencing analysis pipelines
title	Optmizing 16S sequencing analysis pipelines
spellingShingle	Optmizing 16S sequencing analysis pipelines Viana, Samuel Dias Rosa Bioinformática Gene 16S Filogenia Pipelines Paired-end mergers Teses de mestrado - 2016 Departamento de Informática
title_short	Optmizing 16S sequencing analysis pipelines
title_full	Optmizing 16S sequencing analysis pipelines
title_fullStr	Optmizing 16S sequencing analysis pipelines
title_full_unstemmed	Optmizing 16S sequencing analysis pipelines
title_sort	Optmizing 16S sequencing analysis pipelines
author	Viana, Samuel Dias Rosa
author_facet	Viana, Samuel Dias Rosa
author_role	author
dc.contributor.none.fl_str_mv	Pesquita, Idália Maria Pereira, 1972- Faria, Daniel Pedro de Jesus, 1981- Repositório da Universidade de Lisboa
dc.contributor.author.fl_str_mv	Viana, Samuel Dias Rosa
dc.subject.por.fl_str_mv	Bioinformática Gene 16S Filogenia Pipelines Paired-end mergers Teses de mestrado - 2016 Departamento de Informática
topic	Bioinformática Gene 16S Filogenia Pipelines Paired-end mergers Teses de mestrado - 2016 Departamento de Informática
description	Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2016
publishDate	2016
dc.date.none.fl_str_mv	2016 2016 2016-01-01T00:00:00Z 2017-01-26T10:55:01Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10451/26221 TID:201616270
url	http://hdl.handle.net/10451/26221
identifier_str_mv	TID:201616270
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799134346263658496

Optmizing 16S sequencing analysis pipelines

Registros relacionados