Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos

Detalhes bibliográficos
Autor(a) principal: Fernandes, Francisco José de Almeida
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/
Resumo: Conhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.
id USP_494f77d309249f318015ea218b5b50a1
oai_identifier_str oai:teses.usp.br:tde-26052023-143008
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos MarkovianosHuman genomic dependence structure in correlated data: an approach combining generalized mixed models and Markov random fieldsCampo MarkovianoDados de famíliaFamily dataGeneralized Linear Mixed ModelsMarkov Random FieldModelo Linear Generalizado MistoConhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.Knowing the inherited genetic mix and its implications both in complex traits (phenotypes) and in hereditary diseases is essential to the understanding of our ancestral history and in guiding medical treatments. The way that blocks of genetic material are structured in the genome and how they are transmitted can be analyzed by inferring a dependency structure among chromosomal portions. The aim of this work is to propose a statistical methodology to estimate the dependency structure among molecular markers of the human genome, taking into account the structure of the data, that is, whether the sample consists of independent individuals or whether there are kinship relations between them. When the samples consist of sets of individuals with kinship (family data), it is more likely they can share large portions of genetic material. Thus, obtaining regions of dependence inside the genome using family data, imposes an additional challenge, regarding the case of independent individuals, since it must be considered that this dependence may be due to the relationship among individuals in the sample. In this work, we used molecular markers from SNP(Single Nucleotide Polymorphism)-Array platforms, which present high density throughout the entire genome and are considered informative of the human genetic variability. Each SNP marker is quantified according to the number of target alleles they carry (0, 1, or 2), thus describing, in each locus, a random variable with Binomial distribution in two trials. The oriented genomic segment can be represented by a sequence of these random variables. The proposed methodology combines the flexibility of Generalized Linear Mixed Models (GLMM) to accommodate the family dependency among individuals (kinship matrix), with Markov random fields, to find the context (neighborhood) necessary to determine the state of the SNP. This approach incorporates the two dimensions of dependency involved: among individuals and among markers, coherently with biological reality. Compared to Generalized Linear Modeling (without considering the dependence among individuals), it is possible to infer how much of the genomes dependency structure is due to the family effect. An index is proposed to quantify the familial influence on each genomic portion. The algorithm was implemented in the R language and applied in simulation studies and data from Brazilian families, allowing the mapping of family influence along each chromosome, as well as in some gene regions associated with diseases with a hereditary component. Particularly, the HLA region (Human Leukocyte Antigen) was characterized, in terms of the blocks obtained, regarding its homogeneity, conservation, and familial influence.Biblioteca Digitais de Teses e Dissertações da USPSoler, Julia Maria PavanFernandes, Francisco José de Almeida2023-03-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-16T22:26:02Zoai:teses.usp.br:tde-26052023-143008Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-16T22:26:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
Human genomic dependence structure in correlated data: an approach combining generalized mixed models and Markov random fields
title Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
spellingShingle Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
Fernandes, Francisco José de Almeida
Campo Markoviano
Dados de família
Family data
Generalized Linear Mixed Models
Markov Random Field
Modelo Linear Generalizado Misto
title_short Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_full Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_fullStr Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_full_unstemmed Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_sort Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
author Fernandes, Francisco José de Almeida
author_facet Fernandes, Francisco José de Almeida
author_role author
dc.contributor.none.fl_str_mv Soler, Julia Maria Pavan
dc.contributor.author.fl_str_mv Fernandes, Francisco José de Almeida
dc.subject.por.fl_str_mv Campo Markoviano
Dados de família
Family data
Generalized Linear Mixed Models
Markov Random Field
Modelo Linear Generalizado Misto
topic Campo Markoviano
Dados de família
Family data
Generalized Linear Mixed Models
Markov Random Field
Modelo Linear Generalizado Misto
description Conhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.
publishDate 2023
dc.date.none.fl_str_mv 2023-03-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/
url https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815257392998252544