Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/ |
Resumo: | Conhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar. |
id |
USP_494f77d309249f318015ea218b5b50a1 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-26052023-143008 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos MarkovianosHuman genomic dependence structure in correlated data: an approach combining generalized mixed models and Markov random fieldsCampo MarkovianoDados de famíliaFamily dataGeneralized Linear Mixed ModelsMarkov Random FieldModelo Linear Generalizado MistoConhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.Knowing the inherited genetic mix and its implications both in complex traits (phenotypes) and in hereditary diseases is essential to the understanding of our ancestral history and in guiding medical treatments. The way that blocks of genetic material are structured in the genome and how they are transmitted can be analyzed by inferring a dependency structure among chromosomal portions. The aim of this work is to propose a statistical methodology to estimate the dependency structure among molecular markers of the human genome, taking into account the structure of the data, that is, whether the sample consists of independent individuals or whether there are kinship relations between them. When the samples consist of sets of individuals with kinship (family data), it is more likely they can share large portions of genetic material. Thus, obtaining regions of dependence inside the genome using family data, imposes an additional challenge, regarding the case of independent individuals, since it must be considered that this dependence may be due to the relationship among individuals in the sample. In this work, we used molecular markers from SNP(Single Nucleotide Polymorphism)-Array platforms, which present high density throughout the entire genome and are considered informative of the human genetic variability. Each SNP marker is quantified according to the number of target alleles they carry (0, 1, or 2), thus describing, in each locus, a random variable with Binomial distribution in two trials. The oriented genomic segment can be represented by a sequence of these random variables. The proposed methodology combines the flexibility of Generalized Linear Mixed Models (GLMM) to accommodate the family dependency among individuals (kinship matrix), with Markov random fields, to find the context (neighborhood) necessary to determine the state of the SNP. This approach incorporates the two dimensions of dependency involved: among individuals and among markers, coherently with biological reality. Compared to Generalized Linear Modeling (without considering the dependence among individuals), it is possible to infer how much of the genomes dependency structure is due to the family effect. An index is proposed to quantify the familial influence on each genomic portion. The algorithm was implemented in the R language and applied in simulation studies and data from Brazilian families, allowing the mapping of family influence along each chromosome, as well as in some gene regions associated with diseases with a hereditary component. Particularly, the HLA region (Human Leukocyte Antigen) was characterized, in terms of the blocks obtained, regarding its homogeneity, conservation, and familial influence.Biblioteca Digitais de Teses e Dissertações da USPSoler, Julia Maria PavanFernandes, Francisco José de Almeida2023-03-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-16T22:26:02Zoai:teses.usp.br:tde-26052023-143008Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-16T22:26:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos Human genomic dependence structure in correlated data: an approach combining generalized mixed models and Markov random fields |
title |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos |
spellingShingle |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos Fernandes, Francisco José de Almeida Campo Markoviano Dados de família Family data Generalized Linear Mixed Models Markov Random Field Modelo Linear Generalizado Misto |
title_short |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos |
title_full |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos |
title_fullStr |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos |
title_full_unstemmed |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos |
title_sort |
Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos |
author |
Fernandes, Francisco José de Almeida |
author_facet |
Fernandes, Francisco José de Almeida |
author_role |
author |
dc.contributor.none.fl_str_mv |
Soler, Julia Maria Pavan |
dc.contributor.author.fl_str_mv |
Fernandes, Francisco José de Almeida |
dc.subject.por.fl_str_mv |
Campo Markoviano Dados de família Family data Generalized Linear Mixed Models Markov Random Field Modelo Linear Generalizado Misto |
topic |
Campo Markoviano Dados de família Family data Generalized Linear Mixed Models Markov Random Field Modelo Linear Generalizado Misto |
description |
Conhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar. |
publishDate |
2023 |
dc.date.none.fl_str_mv |
2023-03-29 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/ |
url |
https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257392998252544 |