Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista

Detalhes bibliográficos
Autor(a) principal: Gastaldi, Vinicius Daguano
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/5/5142/tde-08112019-113046/
Resumo: O sequenciamento completo do exoma (SCE) cobre a porção codificadora de proteínas do genoma, a qual representa apenas 1% do mesmo, mas que estima-se conter 85% das mutações causadoras de doenças em distúrbios mendelianos. Nos últimos anos, o SCE tem contribuído para melhor caracterizar a complexa arquitetura genética de alguns distúrbios do neurodesenvolvimento através da detecção de variantes raras, ajudando a descrever as características da variação genética que contribuem para a variabilidade fenotípica hereditária. Neste estudo, hipotetizamos que uma composição de variantes raras poderia agrupar probandos com Transtorno do Espectro Autista (TEA) refletindo sua variabilidade fenotípica, incluindo o QI (quoeficiente de inteligência) e outras medidas relacionadas ao TEA. Para testar essa hipótese, usamos análise composicional em conjunto com análise de agrupamentos hierárquica para estratificar probandos através dos seguintes tipos de variantes: de novo missense, de novo Likely Gene Disrupting (LGD - provavelmente gene disruptivas), missense herdada e LGD herdada. Utilizamos como amostra um conjunto de dados de 2313 probandos com TEA provenientes da Simons Simplex Collection, um dos projetos principais da Iniciativa de Pesquisa em Autismo da Fundação Simons. A análise composicional acoplada a inferência bayesiana tradicional com uma priori bimodal resultou em seis agrupamentos onde o principal fator de agrupamento foi a falta de tipos de variação, mas sem diferença estatisticamente significativa no QI entre os agrupamentos. Uma comparação da distribuição cumulativa dos escores dos fenótipos usando um teste Kolmogorov-Smirnov de dois lados de amostra única revelou diferenças significativas para quatro agrupamentos em várias subescalas das escalas ABC, ADI-R, CBCL e Vineland II. Esses resultados indicam que ter uma proporção maior das variações mais prejudiciais não se correlaciona diretamente com os piores fenótipos. A presença ou ausência de tipos de variação não explica os fenótipos, o que pode indicar que o achatamento de dados resultante da abordagem bimodal pode esconder relações importantes entre composição e fenótipos. Por essa razão, usamos uma segunda abordagem com a adição de uma priori uniforme antes da análise composicional. Os 29 agrupamentos estratificados nessa abordagem apresentaram uma visão composicional mais fina e com maior variabilidade. Observamos que indivíduos com de novo LGD e de novo missense apresentam tendência de QI mais baixo, contudo, a associação entre a composição de variantes e o QI não é direta. Isso também foi observado na comparação da distribuição cumulativa dos escores fenotípicos. Existem diferenças significativas para todas as escalas e para 88% das subescalas para a maior parte dos agrupamentos, no entanto, isto não é suficiente para identificar uma associação clara entre composição e fenótipos. Nossos resultados mostram que a análise composicional dos dados de SCE é capaz de estratificar aglomerados estáveis de probandos com TEA com diferentes composições de variantes e de fenótipos. Concluímos que a análise composicional estratificou agrupamentos promissores quanto à relação composição-fenótipo e, ao aprimorar essa abordagem, pode ser possível entender melhor a arquitetura genética do TEA e de outras doenças complexas
id USP_a5246e9f900c9a191354a306ccca6e9d
oai_identifier_str oai:teses.usp.br:tde-08112019-113046
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autistaCompositional analysis of whole-exome sequencing data of autism spectrum disorder probandsAnálise por conglomeradosAutism spectrum disorderBiologia computacionalCluster analysisComputational biologyGenéticaGeneticsPsiquiatriaPsychiatrySequenciamento completo do exomaTranstorno do espectro autistaWhole exome sequencingO sequenciamento completo do exoma (SCE) cobre a porção codificadora de proteínas do genoma, a qual representa apenas 1% do mesmo, mas que estima-se conter 85% das mutações causadoras de doenças em distúrbios mendelianos. Nos últimos anos, o SCE tem contribuído para melhor caracterizar a complexa arquitetura genética de alguns distúrbios do neurodesenvolvimento através da detecção de variantes raras, ajudando a descrever as características da variação genética que contribuem para a variabilidade fenotípica hereditária. Neste estudo, hipotetizamos que uma composição de variantes raras poderia agrupar probandos com Transtorno do Espectro Autista (TEA) refletindo sua variabilidade fenotípica, incluindo o QI (quoeficiente de inteligência) e outras medidas relacionadas ao TEA. Para testar essa hipótese, usamos análise composicional em conjunto com análise de agrupamentos hierárquica para estratificar probandos através dos seguintes tipos de variantes: de novo missense, de novo Likely Gene Disrupting (LGD - provavelmente gene disruptivas), missense herdada e LGD herdada. Utilizamos como amostra um conjunto de dados de 2313 probandos com TEA provenientes da Simons Simplex Collection, um dos projetos principais da Iniciativa de Pesquisa em Autismo da Fundação Simons. A análise composicional acoplada a inferência bayesiana tradicional com uma priori bimodal resultou em seis agrupamentos onde o principal fator de agrupamento foi a falta de tipos de variação, mas sem diferença estatisticamente significativa no QI entre os agrupamentos. Uma comparação da distribuição cumulativa dos escores dos fenótipos usando um teste Kolmogorov-Smirnov de dois lados de amostra única revelou diferenças significativas para quatro agrupamentos em várias subescalas das escalas ABC, ADI-R, CBCL e Vineland II. Esses resultados indicam que ter uma proporção maior das variações mais prejudiciais não se correlaciona diretamente com os piores fenótipos. A presença ou ausência de tipos de variação não explica os fenótipos, o que pode indicar que o achatamento de dados resultante da abordagem bimodal pode esconder relações importantes entre composição e fenótipos. Por essa razão, usamos uma segunda abordagem com a adição de uma priori uniforme antes da análise composicional. Os 29 agrupamentos estratificados nessa abordagem apresentaram uma visão composicional mais fina e com maior variabilidade. Observamos que indivíduos com de novo LGD e de novo missense apresentam tendência de QI mais baixo, contudo, a associação entre a composição de variantes e o QI não é direta. Isso também foi observado na comparação da distribuição cumulativa dos escores fenotípicos. Existem diferenças significativas para todas as escalas e para 88% das subescalas para a maior parte dos agrupamentos, no entanto, isto não é suficiente para identificar uma associação clara entre composição e fenótipos. Nossos resultados mostram que a análise composicional dos dados de SCE é capaz de estratificar aglomerados estáveis de probandos com TEA com diferentes composições de variantes e de fenótipos. Concluímos que a análise composicional estratificou agrupamentos promissores quanto à relação composição-fenótipo e, ao aprimorar essa abordagem, pode ser possível entender melhor a arquitetura genética do TEA e de outras doenças complexasWhole-exome sequencing (WES) covers the protein coding portion of the genome, which accounts for only 1% of its length, but is estimated to contain 85% of the disease-causing mutations in Mendelian disorders. In recent years, WES has been contributing to better characterize the complex genetic architecture of some neurodevelopmental disorders through the detection of rare variants, helping to describe the characteristics of genetic variation that contribute to heritable phenotypic variability. In this study, we hypothesized that a composition of rare variants could group Autism Spectrum Disorder (ASD) probands reflecting their phenotypic variability, including IQ (intelligence quotient) and other ASD related measurements. To test this hypothesis, we used compositional analysis and hierarchical clustering to stratify probands using the following variant types: de novo missense, de novo Likely Gene Disrupting (LGD), inherited missense, and inherited LGD. Our sample consisted of a dataset containing WES and phenotype data from over 2300 ASD probands from the Simons Simplex Collection, a core project and source of the Simons Foundation Autism Research Initiative. Compositional analysis coupled to traditional Bayesian inference with a bimodal prior resulted in six clusters where the main grouping factor was the lack of variation types, but with no statistically significant difference in IQ between the clusters. A comparison of the cumulative distribution of the scores of the phenotypes using a one-sample two-sided Kolmogorov-Smirnov test revealed significant differences for four clusters in a number of subscales of the ABC, ADI-R, CBCL and Vineland II scales. These results indicate that having a higher proportion of the most damaging variations does not directly correlates to having the worst phenotypes. The presence or absence of types of variation does not explain the phenotypes, what might indicate that the data flattening resulting from the bimodal approach might hide important relationships between composition and phenotypes. For this reason, we used a second approach with the addition of a uniform prior before the compositional analysis. The 29 stratified clusters in this approach had a finer compositional view with more variability. We observed that individuals with de novo LGD and de novo missense tend to have lower IQ, however, the variant composition and IQ association is not straightforward. This was also observed in the comparison of cumulative distribution of phenotype scores. Even though there are significant differences for all scales and 88% of the subscales for a majority of the clusters, they were not sufficient to identify a clear association between composition and phenotypes. Our results show that compositional analysis of WES data is able to stratify stable clusters of ASD probands with different variant compositions and phenotypes. We conclude that the compositional analysis produced promising clusters regarding composition-phenotypes relationship and, by improving this approach, it may be possible to better understand the architecture of ASD and of other complex diseasesBiblioteca Digitais de Teses e Dissertações da USPBrentani, Helena PaulaGastaldi, Vinicius Daguano2019-08-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/5/5142/tde-08112019-113046/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2019-11-28T21:06:02Zoai:teses.usp.br:tde-08112019-113046Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212019-11-28T21:06:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
Compositional analysis of whole-exome sequencing data of autism spectrum disorder probands
title Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
spellingShingle Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
Gastaldi, Vinicius Daguano
Análise por conglomerados
Autism spectrum disorder
Biologia computacional
Cluster analysis
Computational biology
Genética
Genetics
Psiquiatria
Psychiatry
Sequenciamento completo do exoma
Transtorno do espectro autista
Whole exome sequencing
title_short Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
title_full Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
title_fullStr Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
title_full_unstemmed Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
title_sort Análise composicional de sequenciamento completo do exoma de probandos do transtorno do espectro autista
author Gastaldi, Vinicius Daguano
author_facet Gastaldi, Vinicius Daguano
author_role author
dc.contributor.none.fl_str_mv Brentani, Helena Paula
dc.contributor.author.fl_str_mv Gastaldi, Vinicius Daguano
dc.subject.por.fl_str_mv Análise por conglomerados
Autism spectrum disorder
Biologia computacional
Cluster analysis
Computational biology
Genética
Genetics
Psiquiatria
Psychiatry
Sequenciamento completo do exoma
Transtorno do espectro autista
Whole exome sequencing
topic Análise por conglomerados
Autism spectrum disorder
Biologia computacional
Cluster analysis
Computational biology
Genética
Genetics
Psiquiatria
Psychiatry
Sequenciamento completo do exoma
Transtorno do espectro autista
Whole exome sequencing
description O sequenciamento completo do exoma (SCE) cobre a porção codificadora de proteínas do genoma, a qual representa apenas 1% do mesmo, mas que estima-se conter 85% das mutações causadoras de doenças em distúrbios mendelianos. Nos últimos anos, o SCE tem contribuído para melhor caracterizar a complexa arquitetura genética de alguns distúrbios do neurodesenvolvimento através da detecção de variantes raras, ajudando a descrever as características da variação genética que contribuem para a variabilidade fenotípica hereditária. Neste estudo, hipotetizamos que uma composição de variantes raras poderia agrupar probandos com Transtorno do Espectro Autista (TEA) refletindo sua variabilidade fenotípica, incluindo o QI (quoeficiente de inteligência) e outras medidas relacionadas ao TEA. Para testar essa hipótese, usamos análise composicional em conjunto com análise de agrupamentos hierárquica para estratificar probandos através dos seguintes tipos de variantes: de novo missense, de novo Likely Gene Disrupting (LGD - provavelmente gene disruptivas), missense herdada e LGD herdada. Utilizamos como amostra um conjunto de dados de 2313 probandos com TEA provenientes da Simons Simplex Collection, um dos projetos principais da Iniciativa de Pesquisa em Autismo da Fundação Simons. A análise composicional acoplada a inferência bayesiana tradicional com uma priori bimodal resultou em seis agrupamentos onde o principal fator de agrupamento foi a falta de tipos de variação, mas sem diferença estatisticamente significativa no QI entre os agrupamentos. Uma comparação da distribuição cumulativa dos escores dos fenótipos usando um teste Kolmogorov-Smirnov de dois lados de amostra única revelou diferenças significativas para quatro agrupamentos em várias subescalas das escalas ABC, ADI-R, CBCL e Vineland II. Esses resultados indicam que ter uma proporção maior das variações mais prejudiciais não se correlaciona diretamente com os piores fenótipos. A presença ou ausência de tipos de variação não explica os fenótipos, o que pode indicar que o achatamento de dados resultante da abordagem bimodal pode esconder relações importantes entre composição e fenótipos. Por essa razão, usamos uma segunda abordagem com a adição de uma priori uniforme antes da análise composicional. Os 29 agrupamentos estratificados nessa abordagem apresentaram uma visão composicional mais fina e com maior variabilidade. Observamos que indivíduos com de novo LGD e de novo missense apresentam tendência de QI mais baixo, contudo, a associação entre a composição de variantes e o QI não é direta. Isso também foi observado na comparação da distribuição cumulativa dos escores fenotípicos. Existem diferenças significativas para todas as escalas e para 88% das subescalas para a maior parte dos agrupamentos, no entanto, isto não é suficiente para identificar uma associação clara entre composição e fenótipos. Nossos resultados mostram que a análise composicional dos dados de SCE é capaz de estratificar aglomerados estáveis de probandos com TEA com diferentes composições de variantes e de fenótipos. Concluímos que a análise composicional estratificou agrupamentos promissores quanto à relação composição-fenótipo e, ao aprimorar essa abordagem, pode ser possível entender melhor a arquitetura genética do TEA e de outras doenças complexas
publishDate 2019
dc.date.none.fl_str_mv 2019-08-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/5/5142/tde-08112019-113046/
url http://www.teses.usp.br/teses/disponiveis/5/5142/tde-08112019-113046/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090528667500544