Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/17/17135/tde-13052024-144922/ |
Resumo: | Os microhaplótipos (MHs) são blocos de 2 ou mais SNPs presentes em um segmento de DNA de tamanho entre 200 e 300 pb. O interesse crescente no uso de MHs é devido à presença de alelos múltiplos, que resulta em maior informatividade que os SNPs individualmente, e menor taxa de mutação que os STRs. Portanto, MHs tornam as estimativas da genética de populações, forense e clínica mais precisas. Visando estimar a ancestralidade da população brasileira pela primeira vez a partir de MHs, elaboramos um pipeline e desenvolvemos um script para seleção de MHs altamente informativos em larga escala, a partir de dados genômicos. Partimos de um dataset incluindo 522 indivíduos do Sudeste do Brasil, mesclados aos dados dos bancos públicos (SGDP, HGDP e 1000 Genome Project), totalizando 4081 indivíduos genotipados em quase 1 milhão de SNPs a partir dos quais selecionamos um conjunto de mais de 120 mil MHs, amplamente distribuídos entre os 22 cromossomos autossômicos. Os marcadores, tanto MHs quanto SNPs, tiveram sua informatividade estimada e foram separados em subconjuntos de marcadores mais informativos para serem utilizados nas estimativas de ancestralidade. Os resultados foram comparados entre si e às estimativas referentes ao conjunto completo de marcadores demonstrando maior eficiência dos MHs para essa finalidade e maior proximidade de resultados dos subconjuntos de MHs em relação ao conjunto completo. Desenvolvemos também uma abordagem para estimar o que chamamos de informatividade cluster específica, no caso informatividade nativa americana, demonstrando maior acurácia na estimativa da proporção de ancestralidade desse grupo sub-representado em bancos de dados públicos. |
id |
USP_4feeeda12b2a8d6f7bdc61a7d51eeabd |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-13052024-144922 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileiraLarge-scale selection of microhaplotype for ancestry inference in the Brazilian populationAncestralidadeAncestryBrazilian populationInformativenessInformatividadeMicroarrayMicroarrayMicrohaplótiposMicrohaplotypesNative AmericansNativo americanosPopulação brasileiraOs microhaplótipos (MHs) são blocos de 2 ou mais SNPs presentes em um segmento de DNA de tamanho entre 200 e 300 pb. O interesse crescente no uso de MHs é devido à presença de alelos múltiplos, que resulta em maior informatividade que os SNPs individualmente, e menor taxa de mutação que os STRs. Portanto, MHs tornam as estimativas da genética de populações, forense e clínica mais precisas. Visando estimar a ancestralidade da população brasileira pela primeira vez a partir de MHs, elaboramos um pipeline e desenvolvemos um script para seleção de MHs altamente informativos em larga escala, a partir de dados genômicos. Partimos de um dataset incluindo 522 indivíduos do Sudeste do Brasil, mesclados aos dados dos bancos públicos (SGDP, HGDP e 1000 Genome Project), totalizando 4081 indivíduos genotipados em quase 1 milhão de SNPs a partir dos quais selecionamos um conjunto de mais de 120 mil MHs, amplamente distribuídos entre os 22 cromossomos autossômicos. Os marcadores, tanto MHs quanto SNPs, tiveram sua informatividade estimada e foram separados em subconjuntos de marcadores mais informativos para serem utilizados nas estimativas de ancestralidade. Os resultados foram comparados entre si e às estimativas referentes ao conjunto completo de marcadores demonstrando maior eficiência dos MHs para essa finalidade e maior proximidade de resultados dos subconjuntos de MHs em relação ao conjunto completo. Desenvolvemos também uma abordagem para estimar o que chamamos de informatividade cluster específica, no caso informatividade nativa americana, demonstrando maior acurácia na estimativa da proporção de ancestralidade desse grupo sub-representado em bancos de dados públicos.Microhaplotypes (MHs) are blocks of 2 or more SNPs present in a DNA segment of up to 300 bp. The growing interest in the use of MHs is due to the presence of multiple alleles, which results in higher informativeness than individual SNPs, and lower mutation rate than STRs. Therefore, MHs make estimates of population, forensic, and clinical genetics more accurate. To estimate the ancestry of the Brazilian population for the first time from MHs, we developed a pipeline and developed a script for the selection of highly informative MHs on a large scale, based on genomic data. We started from a dataset including 522 individuals from the Southeast of Brazil, merged with data from public databases (SGDP, HGDP and 1000 Genome Project), totaling 4081 individuals genotyped in almost 1 million SNPs from which we selected a set of more than 120 thousand MHs, widely distributed among the 22 autosomal chromosomes. The markers, both MHs and SNPs, had their informativeness estimated and were separated into subsets of the most informative markers to be used in ancestry estimates. The results were compared with each other and with the estimates for the complete set of markers, demonstrating greater efficiency of MHs for this purpose and greater proximity of results of MH subsets in relation to the complete set. We also developed an approach to estimate what we call specific cluster informativity, in this case Native American informativeness, demonstrating greater accuracy in estimating the proportion of ancestry of this underrepresented group in public databases.Biblioteca Digitais de Teses e Dissertações da USPSimões, Aguinaldo LuizRodrigues, Maria Luisa de Barros2024-02-28info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/17/17135/tde-13052024-144922/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPReter o conteúdo por motivos de patente, publicação e/ou direitos autoriais.info:eu-repo/semantics/openAccesspor2024-06-26T17:59:03Zoai:teses.usp.br:tde-13052024-144922Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-06-26T17:59:03Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira Large-scale selection of microhaplotype for ancestry inference in the Brazilian population |
title |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira |
spellingShingle |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira Rodrigues, Maria Luisa de Barros Ancestralidade Ancestry Brazilian population Informativeness Informatividade Microarray Microarray Microhaplótipos Microhaplotypes Native Americans Nativo americanos População brasileira |
title_short |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira |
title_full |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira |
title_fullStr |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira |
title_full_unstemmed |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira |
title_sort |
Seleção de microhaplótipos em larga escala para inferência de ancestralidade na população brasileira |
author |
Rodrigues, Maria Luisa de Barros |
author_facet |
Rodrigues, Maria Luisa de Barros |
author_role |
author |
dc.contributor.none.fl_str_mv |
Simões, Aguinaldo Luiz |
dc.contributor.author.fl_str_mv |
Rodrigues, Maria Luisa de Barros |
dc.subject.por.fl_str_mv |
Ancestralidade Ancestry Brazilian population Informativeness Informatividade Microarray Microarray Microhaplótipos Microhaplotypes Native Americans Nativo americanos População brasileira |
topic |
Ancestralidade Ancestry Brazilian population Informativeness Informatividade Microarray Microarray Microhaplótipos Microhaplotypes Native Americans Nativo americanos População brasileira |
description |
Os microhaplótipos (MHs) são blocos de 2 ou mais SNPs presentes em um segmento de DNA de tamanho entre 200 e 300 pb. O interesse crescente no uso de MHs é devido à presença de alelos múltiplos, que resulta em maior informatividade que os SNPs individualmente, e menor taxa de mutação que os STRs. Portanto, MHs tornam as estimativas da genética de populações, forense e clínica mais precisas. Visando estimar a ancestralidade da população brasileira pela primeira vez a partir de MHs, elaboramos um pipeline e desenvolvemos um script para seleção de MHs altamente informativos em larga escala, a partir de dados genômicos. Partimos de um dataset incluindo 522 indivíduos do Sudeste do Brasil, mesclados aos dados dos bancos públicos (SGDP, HGDP e 1000 Genome Project), totalizando 4081 indivíduos genotipados em quase 1 milhão de SNPs a partir dos quais selecionamos um conjunto de mais de 120 mil MHs, amplamente distribuídos entre os 22 cromossomos autossômicos. Os marcadores, tanto MHs quanto SNPs, tiveram sua informatividade estimada e foram separados em subconjuntos de marcadores mais informativos para serem utilizados nas estimativas de ancestralidade. Os resultados foram comparados entre si e às estimativas referentes ao conjunto completo de marcadores demonstrando maior eficiência dos MHs para essa finalidade e maior proximidade de resultados dos subconjuntos de MHs em relação ao conjunto completo. Desenvolvemos também uma abordagem para estimar o que chamamos de informatividade cluster específica, no caso informatividade nativa americana, demonstrando maior acurácia na estimativa da proporção de ancestralidade desse grupo sub-representado em bancos de dados públicos. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-02-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/17/17135/tde-13052024-144922/ |
url |
https://www.teses.usp.br/teses/disponiveis/17/17135/tde-13052024-144922/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Reter o conteúdo por motivos de patente, publicação e/ou direitos autoriais. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815256935056801792 |