Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs

Detalhes bibliográficos
Autor(a) principal: Fernandes, Francisco José de Almeida
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: http://www.teses.usp.br/teses/disponiveis/45/45133/tde-23032016-134721/
Resumo: A identificação de regiões cromossômicas, ou blocos de dependência dentro do genoma humano, que são transmitidas em conjunto para seus descendentes (haplótipos) tem sido um desafio e alvo de várias iniciativas de pesquisa, muitas delas utilizando dados de plataformas de marcadores moleculares do tipo SNP (Single Nucleotide Polymorphisms - SNPs), com alta densidade dentro do DNA humano. Este trabalho faz uso de uma modelagem estocástica de campos Markovianos de alcance variável, em uma amostra estratificada de diferentes populações, para encontrar blocos de SNPs, independentes entre si, estruturando assim o genoma em regiões ilhadas de dependência. Foram utilizados dados públicos de SNPs de diferentes populações mundiais (projeto HapMap), além de uma amostra da população brasileira. As regiões de dependência configuram janelas de influência as quais foram usadas para caracterizar as diferentes populações de acordo com sua ancestralidade e os resultados obtidos mostraram que as janelas da população brasileira têm, em média, tamanho maior, evidenciando a sua história recente de miscigenação. É também proposta uma otimização da função de verossimilhança do problema para obter as janelas de consenso maximais de todas as populações. Dada uma determinada janela de consenso, uma medida de distância apropriada para variáveis categóricas, é adotada para medir sua homogeneidade/heterogeneidade. Janelas homogêneas foram identificadas na região HLA (Human Leukocyte Antigen) do genoma, a qual está associada à resposta imunológica. O tamanho médio dessas janelas foi maior do que a média encontrada no restante do cromossomo, confirmando a alta dependência existente nesta região, considerada como bastante conservada na evolução humana. Finalmente, considerando a distribuição dos SNPs entre as populações nas janelas mais heterogêneas, a Análise de Correspondência foi aplicada na construção de um classificador capaz de determinar o percentual relativo de ancestralidade de um indivíduo, o qual, submetido à validação, obteve uma eficiência de 90% de acerto da população originária.
id USP_f50d36be6ce88ad8237989a98810950d
oai_identifier_str oai:teses.usp.br:tde-23032016-134721
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPsCharacterization of the human genome dependence structure using Markov random fields: populations worldwide study and SNP dataAdmixtureAncestralidadeAncestryBlocos de SNPsCampos markovianos de alcance variávelHapMapHapMapMiscigenaçãoSNP blocksVariable range Markov random fieldsA identificação de regiões cromossômicas, ou blocos de dependência dentro do genoma humano, que são transmitidas em conjunto para seus descendentes (haplótipos) tem sido um desafio e alvo de várias iniciativas de pesquisa, muitas delas utilizando dados de plataformas de marcadores moleculares do tipo SNP (Single Nucleotide Polymorphisms - SNPs), com alta densidade dentro do DNA humano. Este trabalho faz uso de uma modelagem estocástica de campos Markovianos de alcance variável, em uma amostra estratificada de diferentes populações, para encontrar blocos de SNPs, independentes entre si, estruturando assim o genoma em regiões ilhadas de dependência. Foram utilizados dados públicos de SNPs de diferentes populações mundiais (projeto HapMap), além de uma amostra da população brasileira. As regiões de dependência configuram janelas de influência as quais foram usadas para caracterizar as diferentes populações de acordo com sua ancestralidade e os resultados obtidos mostraram que as janelas da população brasileira têm, em média, tamanho maior, evidenciando a sua história recente de miscigenação. É também proposta uma otimização da função de verossimilhança do problema para obter as janelas de consenso maximais de todas as populações. Dada uma determinada janela de consenso, uma medida de distância apropriada para variáveis categóricas, é adotada para medir sua homogeneidade/heterogeneidade. Janelas homogêneas foram identificadas na região HLA (Human Leukocyte Antigen) do genoma, a qual está associada à resposta imunológica. O tamanho médio dessas janelas foi maior do que a média encontrada no restante do cromossomo, confirmando a alta dependência existente nesta região, considerada como bastante conservada na evolução humana. Finalmente, considerando a distribuição dos SNPs entre as populações nas janelas mais heterogêneas, a Análise de Correspondência foi aplicada na construção de um classificador capaz de determinar o percentual relativo de ancestralidade de um indivíduo, o qual, submetido à validação, obteve uma eficiência de 90% de acerto da população originária.The identification of chromosome regions, or dependency blocks in the human genome, that are transmitted together to offspring (haploids) has been a challenge and object of several research initiatives, many of them using platforms of molecular markers such as SNP (Single Nucleotide Polymorphisms), with high density inside the human DNA. This work makes use of a stochastic modeling of Markov random fields, in a stratified sample of different populations, to find SNPs blocks, independent of each other, thus structuring the genome in stranded regions of dependency. Public data from different worldwide populations were used (HapMap project), beyond a Brazilian population. The dependence regions constitute windows of influence which were used to characterize the different populations according of their ancestry and the results showed that the Brazilian populations windows have, on average, a bigger size, showing their recent history of admixture. It is also proposed an optimization of likelihood function of the problem for the maximal windows of consensus from all populations. Given a particular window of consensus, a distance measure appropriated to categorical variables, it is adopted to evaluate its homogeneity/heterogeneity. Homogeneous windows were identified within region of genome called HLA (Human Leukocyte Antigen), which is associated with the immune response. The average size of these windows was bigger than the average found in the rest of the chromosome, confirming the high dependence verified in this region, considered highly conserved in the human evolution. Finally, considering the distribution of the SNPs among the populations in the most heterogeneous windows, the Correspondence Analysis was applied to build a classifier able to determine, for a given individual, the ancestry proportion from each population considered, which, submitted to a validation, obtained a 90% accuracy of the original population.Biblioteca Digitais de Teses e Dissertações da USPSoler, Julia Maria PavanFernandes, Francisco José de Almeida2016-02-01info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://www.teses.usp.br/teses/disponiveis/45/45133/tde-23032016-134721/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-08-16T20:00:02Zoai:teses.usp.br:tde-23032016-134721Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-08-16T20:00:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
Characterization of the human genome dependence structure using Markov random fields: populations worldwide study and SNP data
title Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
spellingShingle Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
Fernandes, Francisco José de Almeida
Admixture
Ancestralidade
Ancestry
Blocos de SNPs
Campos markovianos de alcance variável
HapMap
HapMap
Miscigenação
SNP blocks
Variable range Markov random fields
title_short Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
title_full Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
title_fullStr Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
title_full_unstemmed Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
title_sort Caracterização da estrutura de dependência do genoma humano usando campos markovianos: estudo de populações mundiais e dados de SNPs
author Fernandes, Francisco José de Almeida
author_facet Fernandes, Francisco José de Almeida
author_role author
dc.contributor.none.fl_str_mv Soler, Julia Maria Pavan
dc.contributor.author.fl_str_mv Fernandes, Francisco José de Almeida
dc.subject.por.fl_str_mv Admixture
Ancestralidade
Ancestry
Blocos de SNPs
Campos markovianos de alcance variável
HapMap
HapMap
Miscigenação
SNP blocks
Variable range Markov random fields
topic Admixture
Ancestralidade
Ancestry
Blocos de SNPs
Campos markovianos de alcance variável
HapMap
HapMap
Miscigenação
SNP blocks
Variable range Markov random fields
description A identificação de regiões cromossômicas, ou blocos de dependência dentro do genoma humano, que são transmitidas em conjunto para seus descendentes (haplótipos) tem sido um desafio e alvo de várias iniciativas de pesquisa, muitas delas utilizando dados de plataformas de marcadores moleculares do tipo SNP (Single Nucleotide Polymorphisms - SNPs), com alta densidade dentro do DNA humano. Este trabalho faz uso de uma modelagem estocástica de campos Markovianos de alcance variável, em uma amostra estratificada de diferentes populações, para encontrar blocos de SNPs, independentes entre si, estruturando assim o genoma em regiões ilhadas de dependência. Foram utilizados dados públicos de SNPs de diferentes populações mundiais (projeto HapMap), além de uma amostra da população brasileira. As regiões de dependência configuram janelas de influência as quais foram usadas para caracterizar as diferentes populações de acordo com sua ancestralidade e os resultados obtidos mostraram que as janelas da população brasileira têm, em média, tamanho maior, evidenciando a sua história recente de miscigenação. É também proposta uma otimização da função de verossimilhança do problema para obter as janelas de consenso maximais de todas as populações. Dada uma determinada janela de consenso, uma medida de distância apropriada para variáveis categóricas, é adotada para medir sua homogeneidade/heterogeneidade. Janelas homogêneas foram identificadas na região HLA (Human Leukocyte Antigen) do genoma, a qual está associada à resposta imunológica. O tamanho médio dessas janelas foi maior do que a média encontrada no restante do cromossomo, confirmando a alta dependência existente nesta região, considerada como bastante conservada na evolução humana. Finalmente, considerando a distribuição dos SNPs entre as populações nas janelas mais heterogêneas, a Análise de Correspondência foi aplicada na construção de um classificador capaz de determinar o percentual relativo de ancestralidade de um indivíduo, o qual, submetido à validação, obteve uma eficiência de 90% de acerto da população originária.
publishDate 2016
dc.date.none.fl_str_mv 2016-02-01
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://www.teses.usp.br/teses/disponiveis/45/45133/tde-23032016-134721/
url http://www.teses.usp.br/teses/disponiveis/45/45133/tde-23032016-134721/
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1809091008936280064