Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos

Fernandes, Francisco José de Almeida

Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos

Detalhes bibliográficos
Autor(a) principal:	Fernandes, Francisco José de Almeida
Data de Publicação:	2023
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Biblioteca Digital de Teses e Dissertações da USP
Texto Completo:	https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/
Resumo:	Conhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.

Metadados do item

id	USP_494f77d309249f318015ea218b5b50a1
oai_identifier_str	oai:teses.usp.br:tde-26052023-143008
network_acronym_str	USP
network_name_str	Biblioteca Digital de Teses e Dissertações da USP
repository_id_str	2721
spelling	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos MarkovianosHuman genomic dependence structure in correlated data: an approach combining generalized mixed models and Markov random fieldsCampo MarkovianoDados de famíliaFamily dataGeneralized Linear Mixed ModelsMarkov Random FieldModelo Linear Generalizado MistoConhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.Knowing the inherited genetic mix and its implications both in complex traits (phenotypes) and in hereditary diseases is essential to the understanding of our ancestral history and in guiding medical treatments. The way that blocks of genetic material are structured in the genome and how they are transmitted can be analyzed by inferring a dependency structure among chromosomal portions. The aim of this work is to propose a statistical methodology to estimate the dependency structure among molecular markers of the human genome, taking into account the structure of the data, that is, whether the sample consists of independent individuals or whether there are kinship relations between them. When the samples consist of sets of individuals with kinship (family data), it is more likely they can share large portions of genetic material. Thus, obtaining regions of dependence inside the genome using family data, imposes an additional challenge, regarding the case of independent individuals, since it must be considered that this dependence may be due to the relationship among individuals in the sample. In this work, we used molecular markers from SNP(Single Nucleotide Polymorphism)-Array platforms, which present high density throughout the entire genome and are considered informative of the human genetic variability. Each SNP marker is quantified according to the number of target alleles they carry (0, 1, or 2), thus describing, in each locus, a random variable with Binomial distribution in two trials. The oriented genomic segment can be represented by a sequence of these random variables. The proposed methodology combines the flexibility of Generalized Linear Mixed Models (GLMM) to accommodate the family dependency among individuals (kinship matrix), with Markov random fields, to find the context (neighborhood) necessary to determine the state of the SNP. This approach incorporates the two dimensions of dependency involved: among individuals and among markers, coherently with biological reality. Compared to Generalized Linear Modeling (without considering the dependence among individuals), it is possible to infer how much of the genomes dependency structure is due to the family effect. An index is proposed to quantify the familial influence on each genomic portion. The algorithm was implemented in the R language and applied in simulation studies and data from Brazilian families, allowing the mapping of family influence along each chromosome, as well as in some gene regions associated with diseases with a hereditary component. Particularly, the HLA region (Human Leukocyte Antigen) was characterized, in terms of the blocks obtained, regarding its homogeneity, conservation, and familial influence.Biblioteca Digitais de Teses e Dissertações da USPSoler, Julia Maria PavanFernandes, Francisco José de Almeida2023-03-29info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-16T22:26:02Zoai:teses.usp.br:tde-26052023-143008Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.bropendoar:27212024-08-16T22:26:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos Human genomic dependence structure in correlated data: an approach combining generalized mixed models and Markov random fields
title	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
spellingShingle	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos Fernandes, Francisco José de Almeida Campo Markoviano Dados de família Family data Generalized Linear Mixed Models Markov Random Field Modelo Linear Generalizado Misto
title_short	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_full	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_fullStr	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_full_unstemmed	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
title_sort	Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos
author	Fernandes, Francisco José de Almeida
author_facet	Fernandes, Francisco José de Almeida
author_role	author
dc.contributor.none.fl_str_mv	Soler, Julia Maria Pavan
dc.contributor.author.fl_str_mv	Fernandes, Francisco José de Almeida
dc.subject.por.fl_str_mv	Campo Markoviano Dados de família Family data Generalized Linear Mixed Models Markov Random Field Modelo Linear Generalizado Misto
topic	Campo Markoviano Dados de família Family data Generalized Linear Mixed Models Markov Random Field Modelo Linear Generalizado Misto
description	Conhecer a mistura genética herdada e suas implicações, tanto nas características gerais (fenótipos) quanto nas eventuais doenças hereditárias, é fundamental para compreender nossa história ancestral bem como nortear tratamentos médicos. A forma como os blocos de material genético estão estruturados no genoma e como são transmitidos é específico a populações e pode ser analisado através do levantamento de uma estrutura de dependência entre porções cromossômicas. O objetivo deste trabalho é propor uma metodologia estatística para estimar a estrutura de dependência entre marcadores moleculares do genoma humano levando em conta a estrutura dos dados, isto é, se a amostra consiste de indivíduos independentes ou se há relações de parentesco entre eles. Quando a amostra é formada por conjuntos de indivíduos com relação de parentesco (dados de famílias), é mais provável que eles compartilhem entre si grandes porções de material genético. Deste modo, obter regiões de dependência dentro do genoma usando dados de família, impõe um desafio adicional, relativamente ao caso de indivíduos independentes, uma vez que deve-se levar em conta que a dependência genômica pode trazer informação do parentesco entre os indivíduos da amostra. Neste trabalho, utilizamos dados de marcadores moleculares de plataformas SNP-array (do inglês Single Nucleotide Polimorphism) que, por sua grande densidade ao longo de todo o genoma, são considerados uma amostragem informativa da variabilidade genética humana. Cada marcador SNP é quantificado de acordo com o número de alelos alvo que carregam, podendo ser 0, 1 ou 2 alelos, descrevendo assim, em cada loco, uma variável aleatória com distribuição Binomial em dois ensaios independentes. O segmento genômico orientado, pode ser representado por uma sequência dessas variáveis aleatórias. A metodologia proposta combina a flexibilidade de Modelos Lineares Generalizados Mistos (MLGM), para acomodar na estimação a dependência familiar entre indivíduos (matriz de parentesco), com a abordagem de campos Markovianos (univariados), para encontrar o contexto (vizinhança) necessário para determinar o estado dos SNPs no genoma. Esta alternativa incorpora as duas dimensões de dependência envolvidas no problema que estamos tratando, isto é, entre indivíduos na amostra e entre marcadores no genoma, coerentemente à realidade biológica. Estabelecendo uma comparação da modelagem via MLGM e sob o modelo linear generalizado (sem considerar a dependência entre os indivíduos), é possível inferir o quanto da estrutura de dependência do genoma deve-se ao efeito de família. Um índice é proposto para quantificar a influência familiar em cada porção genômica. O algoritmo foi implementado na linguagem R e aplicado em estudos de simulação e a dados de famílias brasileiras, permitindo mapear a influência familiar ao longo de cada cromossomo, bem como em algumas regiões gênicas associadas a doenças com componente hereditário. Em particular, a região HLA (do inglês Human Leukocyte Antigen) foi caracterizada, em termos dos blocos obtidos, quanto à sua homogeneidade, conservação e influência familiar.
publishDate	2023
dc.date.none.fl_str_mv	2023-03-29
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/
url	https://www.teses.usp.br/teses/disponiveis/45/45133/tde-26052023-143008/
dc.language.iso.fl_str_mv	por
language	por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv	Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess
rights_invalid_str_mv	Liberar o conteúdo para acesso público.
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv	Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv	reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP
instname_str	Universidade de São Paulo (USP)
instacron_str	USP
institution	USP
reponame_str	Biblioteca Digital de Teses e Dissertações da USP
collection	Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv	Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv	virginia@if.usp.br\|\| atendimento@aguia.usp.br\|\|virginia@if.usp.br
_version_	1809091097602818048

Estrutura de dependência do genoma humano usando modelos com correlação entre indivíduos: uma abordagem combinando modelos mistos generalizados e campos Markovianos

Registros relacionados