Estudos de simetria na associação genética usando dados de trios

Detalhes bibliográficos
Autor(a) principal: Batista, Maria Jacqueline
Data de Publicação: 2011
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45133/tde-20082012-101909/
Resumo: O grande desafio da Epidemiologia Genética, atualmente, é identificar, em um espaço de variáveis preditoras de alta dimensão e esparso, fatores de risco genéticos para doenças complexas. Um delineamento amostral útil nestes estudos é coletar dados de trios, que são pequenos núcleos familiares (pai e mãe, livres da doença, e filho afetado) e, em cada indivíduo, obter dados do genótipo de marcadores moleculares, sendo a plataforma de marcadores do tipo SNPs (do inglês, Single Nucleotide Polymorphism), com cerca de 1 milhão de variáveis preditoras genéticas, a mais adotada. Neste trabalho é proposto um procedimento em múltiplos estágios para identificar SNPs associados com a doença em dados de trios. A primeira etapa do procedimento é baseada em uma série de análises unilocos (para cada variável preditora), usando um teste de simetria em tabelas de contingência 2 x 2 (conhecido, em Genética, como teste TDT, do inglês, Transmission Disequilibrium Test). Em um segundo estágio da análise, os resultados destes testes são usados para construir uma estatística de somas acumuladas padronizadas (CUSUM) que permite a seleção de conjuntos de SNPs (isto é, conjuntos de variáveis preditoras), possivelmente associados com a doença. Como um terceiro passo da análise, nas regiões selecionadas no passo dois, são realizadas análises de simetria via testes exatos considerando tabelas 2 x 2 e 4 x 4 (pares de SNPs). A formulação do TDT em termos de testes de simetria é uma inovação na área de Genética e facilita a extensão do caso uniloco para o multilocos. A contribuição deste trabalho reside ainda na formulação exata do teste que é útil em situações de amostras pequenas que ocorrem com frequência em dados de trios. Neste caso inferências parciais foram realizadas a partir de decomposições apropriadas da função de verossimilhança. A modelagem do problema em termos do modelo logístico permitiu concluir que não é necessário corrigir a associação para o efeito de covariáveis avaliadas nos pais. O procedimento é implementado usando recursos dos aplicativos PLINK e R. A aplicação é realizada utilizando dados de 71 trios da população brasileira, em que os indivíduos caso (filhos) foram definidos em termos da ocorrência de uma cardiopatia e, em cada um dos 213 indivíduos, estão disponíveis dados genéticos de uma plataforma de SNPs.
id USP_bb46bf6f8a36cb1cfe618b30a7a655c1
oai_identifier_str oai:teses.usp.br:tde-20082012-101909
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Estudos de simetria na associação genética usando dados de triosSymmetry studies in the genetic association using data from triosAnálise multilocosDados de triosData triosEstudos de simetriaGenetic mappingMapeamento genéticoMultiloci analysisSymmetry studiesTest TDT.Teste TDT.O grande desafio da Epidemiologia Genética, atualmente, é identificar, em um espaço de variáveis preditoras de alta dimensão e esparso, fatores de risco genéticos para doenças complexas. Um delineamento amostral útil nestes estudos é coletar dados de trios, que são pequenos núcleos familiares (pai e mãe, livres da doença, e filho afetado) e, em cada indivíduo, obter dados do genótipo de marcadores moleculares, sendo a plataforma de marcadores do tipo SNPs (do inglês, Single Nucleotide Polymorphism), com cerca de 1 milhão de variáveis preditoras genéticas, a mais adotada. Neste trabalho é proposto um procedimento em múltiplos estágios para identificar SNPs associados com a doença em dados de trios. A primeira etapa do procedimento é baseada em uma série de análises unilocos (para cada variável preditora), usando um teste de simetria em tabelas de contingência 2 x 2 (conhecido, em Genética, como teste TDT, do inglês, Transmission Disequilibrium Test). Em um segundo estágio da análise, os resultados destes testes são usados para construir uma estatística de somas acumuladas padronizadas (CUSUM) que permite a seleção de conjuntos de SNPs (isto é, conjuntos de variáveis preditoras), possivelmente associados com a doença. Como um terceiro passo da análise, nas regiões selecionadas no passo dois, são realizadas análises de simetria via testes exatos considerando tabelas 2 x 2 e 4 x 4 (pares de SNPs). A formulação do TDT em termos de testes de simetria é uma inovação na área de Genética e facilita a extensão do caso uniloco para o multilocos. A contribuição deste trabalho reside ainda na formulação exata do teste que é útil em situações de amostras pequenas que ocorrem com frequência em dados de trios. Neste caso inferências parciais foram realizadas a partir de decomposições apropriadas da função de verossimilhança. A modelagem do problema em termos do modelo logístico permitiu concluir que não é necessário corrigir a associação para o efeito de covariáveis avaliadas nos pais. O procedimento é implementado usando recursos dos aplicativos PLINK e R. A aplicação é realizada utilizando dados de 71 trios da população brasileira, em que os indivíduos caso (filhos) foram definidos em termos da ocorrência de uma cardiopatia e, em cada um dos 213 indivíduos, estão disponíveis dados genéticos de uma plataforma de SNPs.Currently, the great challenge of Genetic Epidemiology is to identify, in a high dimensional and sparse space of predictor variables, genetic risk factors for complex diseases. A useful sampling design in these studies is to collect data from trios, which are small nuclear families (father and mother, free from disease, and affected child), and obtain genotypic information from each individual. The molecular markers platform most commonly used for this purpose is of SNPs (Single Nucleotide Polymorphisms), with about 1 million genetic predictor variables. This work proposes a multi-stage procedure to identify SNPs associated with disease using data from trios. The first step of the procedure is based on a series of single locus analysis (for each predictor variable) using a test for symmetry in 2 x 2 contingency tables (known in genetics as TDT (Transmission Disequilibrium Test). In a second stage of the analysis, the results of these tests are used to construct a standard statistic of the cumulative sums (CUSUM), which allows the selection of sets of adjacent SNPs (ie, sets of predictor variables), possibly associated with the disease. As a third step of the analysis, in the regions selected in step two, are performed an extended analysis of symmetry considering 4 x 4 contingency tables. The TDT formulation in terms of symmetry tests is an innovation in the genetics area and facilitates the extension of the single locus analysis to the multiloci case. The contribution of this work lies in the exact formulation of the symmetry test for square contingency tables that is useful in situations of small sample sizes that often occur in data from trios. In this case, partial inferences were performed from appropriate decompositions of the likelihood function. The structural modeling of the problem in terms of logistic model allowed us to conclude that there is no need to adjust the association for data from parents, but only for the effect of covariates evaluated in each parental haplotype. The procedure is implemented using resources of the R statistical environment and Plink. The application is performed using real data from 71 trios of the Southeast Brazilian population, in which affected child was defined in terms of the occurrence of one congenital heart disease, and in each of the 213 individuals, genomic data were collected using Affymetrix SNP 6.0 platform.Biblioteca Digitais de Teses e Dissertações da USPSoler, Julia Maria PavanBatista, Maria Jacqueline2011-12-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45133/tde-20082012-101909/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-15T22:36:02Zoai:teses.usp.br:tde-20082012-101909Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-15T22:36:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Estudos de simetria na associação genética usando dados de trios
Symmetry studies in the genetic association using data from trios
title Estudos de simetria na associação genética usando dados de trios
spellingShingle Estudos de simetria na associação genética usando dados de trios
Batista, Maria Jacqueline
Análise multilocos
Dados de trios
Data trios
Estudos de simetria
Genetic mapping
Mapeamento genético
Multiloci analysis
Symmetry studies
Test TDT.
Teste TDT.
title_short Estudos de simetria na associação genética usando dados de trios
title_full Estudos de simetria na associação genética usando dados de trios
title_fullStr Estudos de simetria na associação genética usando dados de trios
title_full_unstemmed Estudos de simetria na associação genética usando dados de trios
title_sort Estudos de simetria na associação genética usando dados de trios
author Batista, Maria Jacqueline
author_facet Batista, Maria Jacqueline
author_role author
dc.contributor.none.fl_str_mv Soler, Julia Maria Pavan
dc.contributor.author.fl_str_mv Batista, Maria Jacqueline
dc.subject.por.fl_str_mv Análise multilocos
Dados de trios
Data trios
Estudos de simetria
Genetic mapping
Mapeamento genético
Multiloci analysis
Symmetry studies
Test TDT.
Teste TDT.
topic Análise multilocos
Dados de trios
Data trios
Estudos de simetria
Genetic mapping
Mapeamento genético
Multiloci analysis
Symmetry studies
Test TDT.
Teste TDT.
description O grande desafio da Epidemiologia Genética, atualmente, é identificar, em um espaço de variáveis preditoras de alta dimensão e esparso, fatores de risco genéticos para doenças complexas. Um delineamento amostral útil nestes estudos é coletar dados de trios, que são pequenos núcleos familiares (pai e mãe, livres da doença, e filho afetado) e, em cada indivíduo, obter dados do genótipo de marcadores moleculares, sendo a plataforma de marcadores do tipo SNPs (do inglês, Single Nucleotide Polymorphism), com cerca de 1 milhão de variáveis preditoras genéticas, a mais adotada. Neste trabalho é proposto um procedimento em múltiplos estágios para identificar SNPs associados com a doença em dados de trios. A primeira etapa do procedimento é baseada em uma série de análises unilocos (para cada variável preditora), usando um teste de simetria em tabelas de contingência 2 x 2 (conhecido, em Genética, como teste TDT, do inglês, Transmission Disequilibrium Test). Em um segundo estágio da análise, os resultados destes testes são usados para construir uma estatística de somas acumuladas padronizadas (CUSUM) que permite a seleção de conjuntos de SNPs (isto é, conjuntos de variáveis preditoras), possivelmente associados com a doença. Como um terceiro passo da análise, nas regiões selecionadas no passo dois, são realizadas análises de simetria via testes exatos considerando tabelas 2 x 2 e 4 x 4 (pares de SNPs). A formulação do TDT em termos de testes de simetria é uma inovação na área de Genética e facilita a extensão do caso uniloco para o multilocos. A contribuição deste trabalho reside ainda na formulação exata do teste que é útil em situações de amostras pequenas que ocorrem com frequência em dados de trios. Neste caso inferências parciais foram realizadas a partir de decomposições apropriadas da função de verossimilhança. A modelagem do problema em termos do modelo logístico permitiu concluir que não é necessário corrigir a associação para o efeito de covariáveis avaliadas nos pais. O procedimento é implementado usando recursos dos aplicativos PLINK e R. A aplicação é realizada utilizando dados de 71 trios da população brasileira, em que os indivíduos caso (filhos) foram definidos em termos da ocorrência de uma cardiopatia e, em cada um dos 213 indivíduos, estão disponíveis dados genéticos de uma plataforma de SNPs.
publishDate 2011
dc.date.none.fl_str_mv 2011-12-02
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45133/tde-20082012-101909/
url http://www.teses.usp.br/teses/disponiveis/45/45133/tde-20082012-101909/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809090896922148864