Implementation and comparison of variant calling in exome sequencing data with clinical applications

Detalhes bibliográficos
Autor(a) principal: Moreno, Marta Carolina Cabral
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/79843
Resumo: Dissertação de mestrado em Bioinformatics
id RCAP_3c385c7b780a865c0a9a2aede594b097
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/79843
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Implementation and comparison of variant calling in exome sequencing data with clinical applicationsEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em BioinformaticsVariant calling pipelines have been developed to help identify where and how the nu cleotide bases of a genome sequence differ from its respective reference sequence. Broadly, variant calling pipelines comprise short read aligners, which align reads against a reference genome, and variant callers, which search for variants on the aligned sequences. Differ ent read aligner and variant calling combinations have varying degrees of capability for capturing variants (recall) while reducing the amount of noise they produce (precision). Therefore, in recent years there has been an effort in comparing the performance of variant calling pipelines, although findings are far from concordant. Furthermore, some studies have postulated that the choice of sequencing technology may play a role even when all other conditions—sample, short read aligner, variant caller—remain the same. This study aims to benchmark the performance of several variant calling pipelines on ex ome data sets obtained from two sequencing technologies, Illumina and Ion Torrent. To that end, variants detected in sequences obtained from a well-characterized sample, NA12878, were compared against a set of high-confidence variant calls developed for this sample using recently proposed benchmarking best practices as a basis. This standardized framework for variant calling benchmarking replaces direct variant comparisons and Venn diagrams with more sophisticated methods. We report several in formative and well-defined performance measures (precision, recall, F1 score) and present Precision-Recall curves, which are helpful for assessing pipeline performance in a visual way. Following best practices we evaluate results at the genotype match level, reporting matches only when variants are observed in the same number of alleles. The combined performance of 13 pipelines comprising three short read aligners (Bowtie 2, BWA-MEM, and TMap) and four variant callers (BCFtools, Freebayes, HaplotypeCaller, VarScan 2, and Torrent Variant Caller), was assessed on four sequencing data sets. Our results suggest that globally variant detection appears to be independent of choice of read aligner. Overall, SNP detection performance is good for both technologies, its F1 scores averaging between 87.4% for Illumina and 84.4% for Ion Torrent. BCFtools pipelines offer the best or runner-up results for the two technologies. VarScan 2 also performs similarly well on Illumina data sets. In contrast, for indel detection, performance is very poor for Ion Torrent, with an average of 5.6% F1 score as compared to 63.1% F1 score on Illumina. The low precision levels reflected on the F1 scores reveal that there is still a long way towards improvement of indel detection, a type of variant with high impact in gene inactivation.Pipelines para deteção de variantes têm sido desenvolvidas para identificar diferenças entre sequência genómicas e sequências de referência. Genericamente, as pipelines para deteção de variantes são constituídas por mapeadores, que localizam short rends num genoma de referência, e detetores de variantes, que procuram encontrar variantes nas sequências pre-viamente mapeadas. Diferentes combinações de mapeadores e detetores de variantes pos-suem diferente capacidade na deteção de variantes (recall) e redução de ruído nos resultados (precision). Consequentemente, nos últimos anos tem-se comparado o desempenho destas pipelines, apesar destes achados ainda não serem concordantes. Ademais, alguns estudos postularam que a escolha de tecnologia de sequenciação poderá influenciar os resultados mesmo quando as demais condições amostra, mapeador, detetor de variantes—são iguais. Este estudo tem como objetivo avaliar o desempenho de pipelines para deteção de vari-antes quando aplicadas a conjuntos de dados exómicos sequenciados por duas tecnologias, 'ilumina e lon Torrent. Deste modo, as variantes detetadas em sequências obtidas a partir de uma amostra altamente caracterizada (NAl2878) foram comparadas com as presentes num conjunto de variantes de elevada confiança desenvolvido especificamente para esta amostra com base numa série de recomendações recentemente propostas. A avaliação padronizada de desempenho substitui a comparação direta de variantes e diagramas de Venn por métodos mais sofisticados. Neste trabalho descrevemos medidas estatísticas informativas (precision, rendi, e Fi score) e apresentamos curvas Precision-Recall que permitem visualizar o desemepenho das pipelines. Seguindo as recomendações, os re-sultados são avaliados ao nível do emparelhamento genómico, no qual duas variantes são consideradas iguais apenas se forem observadas no mesmo número de alelos. O desem-penho combinado de 13 pipelines constituídas por três mapeadores (Bowtie z, BWA-MEM, e TMap) e quatro detetores de variantes (BCFtools, Freebayes, HaplotypeCaller, VarScan 2, e Torrent Variant Caller) foi então avaliado em quatro conjuntos de dados de sequenciação. Os nossos resultados sugerem que, no geral, a deteção de variantes é independente da escolha de mapeador. Globalmente, o desempenho na deteção de SNPs é satisfatório para ambas as tecnologias, com Fi scores méddios de 874% para Ilumina e 84.4% para lon Tor-rent. A ferramenta 13CFTools apresenta dos melhores resultados para ambas as tecnologia, e a ferramenta VarScan 2 tem bom desempenho em dados Illumina. Por outro lado, na deteção de indels, o desempenho é muito fraco para lon Torrent, com Fi score médio de 5.6% em oposição a um Fi score médio de 63.1% para ilumina. Os baixos níveis de precision refletidos nos Fi scores revelam que os resultados de deteção de indels, um tipo de variante com elevado impacto na inativação de genes, carecem de grandes melhorias.Ferreira, Pedro G.Rocha, MiguelUniversidade do MinhoMoreno, Marta Carolina Cabral2018-12-112018-12-11T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/79843eng203008715info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-12-09T01:21:04Zoai:repositorium.sdum.uminho.pt:1822/79843Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:51:33.636460Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Implementation and comparison of variant calling in exome sequencing data with clinical applications
title Implementation and comparison of variant calling in exome sequencing data with clinical applications
spellingShingle Implementation and comparison of variant calling in exome sequencing data with clinical applications
Moreno, Marta Carolina Cabral
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Implementation and comparison of variant calling in exome sequencing data with clinical applications
title_full Implementation and comparison of variant calling in exome sequencing data with clinical applications
title_fullStr Implementation and comparison of variant calling in exome sequencing data with clinical applications
title_full_unstemmed Implementation and comparison of variant calling in exome sequencing data with clinical applications
title_sort Implementation and comparison of variant calling in exome sequencing data with clinical applications
author Moreno, Marta Carolina Cabral
author_facet Moreno, Marta Carolina Cabral
author_role author
dc.contributor.none.fl_str_mv Ferreira, Pedro G.
Rocha, Miguel
Universidade do Minho
dc.contributor.author.fl_str_mv Moreno, Marta Carolina Cabral
dc.subject.por.fl_str_mv Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Bioinformatics
publishDate 2018
dc.date.none.fl_str_mv 2018-12-11
2018-12-11T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/79843
url https://hdl.handle.net/1822/79843
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv 203008715
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133104319758336