Análise da ancestralidades genética da população de São Paulo
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17072024-053428/ |
Resumo: | Os avanços da Biotecnologia possibilitaram a análise de milhares de marcadores genéticos, fornecendo informações importantes sobre ancestralidade e saúde. No contexto da ancestralidade genética, testes de DNA são importantes para identificar as origens de uma população e proporcionar aos indivíduos um maior conhecimento sobre seus antepassados. O Brasil é reconhecido por sua vasta diversidade étnica, com contribuições europeias, africanas, indígenas, asiáticas, entre outras. Essa diversidade étnica apresenta desafios na inferência da ancestralidade. Neste contexto, a aplicação de técnicas de bioinformática é importante para a análise de dados genéticos e a elaboração de modelos para inferir a ancestralidade. Tendo isso em mente, o objetivo deste projeto foi analisar a ancestralidade global de indivíduos da população de São Paulo utilizando técnicas de aprendizado de máquina. Para esta finalidade, buscou-se bancos genéticos públicos contendo dados de diferentes populações. Os dados foram processados e estruturados para serem aplicados em modelos não supervisionados e supervisionados. Neste projeto, foram implementados modelos supervisionados em Python com base na Estimativa de Máxima Verossimilhança. Os modelos criados também foram combinados usando abordagens de previsão em conjunto, que combinam os resultados de diferentes modelos. A capacidade dos modelos em inferir a ancestralidade de 23 grupos populacionais foi avaliada com validação cruzada estratificada e amostras simuladas. A raiz do erro quadrático médio (RMSE) foi calculada entre as proporções inferidas e esperadas de ancestralidade com amostras simuladas. O modelo com menor valor médio de RMSE teve uma média de precisão e sensibilidade na validação de 96,0% e 94,3%, respectivamente. Este modelo foi usado para inferir a ancestralidade de 411 indivíduos de São Paulo. Considerando apenas os grupos continentais com maiores proporções, foi inferida, em média 77,5% de ancestralidade europeia, 10,3% africana, 7,4% nativa americana e 4,1% de leste asiática. As análises realizadas neste projeto exemplificam a eficácia da combinação de mais de um modelo na inferência de ancestralidade genética, assim como o uso de técnicas de aprendizado de máquina como ferramenta para compreender a diversidade de populações complexas, como a de São Paulo. |
id |
USP_f9a00a16fbb3f3f0b23b24bf1c3a0474 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-17072024-053428 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
Análise da ancestralidades genética da população de São PauloGenetic ancestry analysis of the population of São PauloAncestralidadeAncestryAprendizado de máquinaBioinformáticaBioinformaticsGenéticaGeneticsMachine learningOs avanços da Biotecnologia possibilitaram a análise de milhares de marcadores genéticos, fornecendo informações importantes sobre ancestralidade e saúde. No contexto da ancestralidade genética, testes de DNA são importantes para identificar as origens de uma população e proporcionar aos indivíduos um maior conhecimento sobre seus antepassados. O Brasil é reconhecido por sua vasta diversidade étnica, com contribuições europeias, africanas, indígenas, asiáticas, entre outras. Essa diversidade étnica apresenta desafios na inferência da ancestralidade. Neste contexto, a aplicação de técnicas de bioinformática é importante para a análise de dados genéticos e a elaboração de modelos para inferir a ancestralidade. Tendo isso em mente, o objetivo deste projeto foi analisar a ancestralidade global de indivíduos da população de São Paulo utilizando técnicas de aprendizado de máquina. Para esta finalidade, buscou-se bancos genéticos públicos contendo dados de diferentes populações. Os dados foram processados e estruturados para serem aplicados em modelos não supervisionados e supervisionados. Neste projeto, foram implementados modelos supervisionados em Python com base na Estimativa de Máxima Verossimilhança. Os modelos criados também foram combinados usando abordagens de previsão em conjunto, que combinam os resultados de diferentes modelos. A capacidade dos modelos em inferir a ancestralidade de 23 grupos populacionais foi avaliada com validação cruzada estratificada e amostras simuladas. A raiz do erro quadrático médio (RMSE) foi calculada entre as proporções inferidas e esperadas de ancestralidade com amostras simuladas. O modelo com menor valor médio de RMSE teve uma média de precisão e sensibilidade na validação de 96,0% e 94,3%, respectivamente. Este modelo foi usado para inferir a ancestralidade de 411 indivíduos de São Paulo. Considerando apenas os grupos continentais com maiores proporções, foi inferida, em média 77,5% de ancestralidade europeia, 10,3% africana, 7,4% nativa americana e 4,1% de leste asiática. As análises realizadas neste projeto exemplificam a eficácia da combinação de mais de um modelo na inferência de ancestralidade genética, assim como o uso de técnicas de aprendizado de máquina como ferramenta para compreender a diversidade de populações complexas, como a de São Paulo.Advances in biotechnology have enabled the analysis of thousands of genetic markers, providing important information about ancestry and health. In the context of genetic ancestry, DNA tests are important for identifying the origins of a population and providing individuals with better knowledge about their ancestors. Brazil is known for its vast ethnic diversity, with contributions from European, African, Native American, Asian, and other populations. This ethnic diversity represents a challenge in inferring ancestry. In this context, the development and application of bioinformatics techniques are important for genetic data analysis and the development of models to infer ancestry. With these in mind, the goal of this project was to analyze the genetic ancestry of individuals from the São Paulo population using machine learning models. For this purpose, public genetic databases with diverse populations were selected. The data were processed and structured to be applied with unsupervised and supervised models. In this project, supervised models were implemented in Python based on Maximum Likelihood Estimation. The developed models were also combined into ensemble models. The ability of the model to infer the ancestry of 23 population groups was evaluated using stratified cross validation, and simulated samples. The root mean squared error (RMSE) was calculated between the predicted and expected proportions of ancestry using the simulated samples. The model with the lowest value of mean RMSE had an average precision, and sensitivity of 96.0% and 94.3%, respectively. This model was used to infer ancestry of 411 individuals from São Paulo. Considering only continental groups with the highest proportions, it was inferred an average of 77.5% for European ancestry, 10.3% for African ancestry, 7.4% for Native American ancestry and 4.1% for East Asian ancestry. The analyses conducted in this project exemplify the effectiveness of the combination of models in inferring genetic ancestry, as well as the use of machine learning models as a tool to better comprehend the diversity of complex population, such as the population of São Paulo.Biblioteca Digitais de Teses e Dissertações da USPMatioli, Sergio RussoAmemiya, Raphael Bruno2024-06-11info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/95/95131/tde-17072024-053428/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2024-07-23T17:31:02Zoai:teses.usp.br:tde-17072024-053428Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212024-07-23T17:31:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
Análise da ancestralidades genética da população de São Paulo Genetic ancestry analysis of the population of São Paulo |
title |
Análise da ancestralidades genética da população de São Paulo |
spellingShingle |
Análise da ancestralidades genética da população de São Paulo Amemiya, Raphael Bruno Ancestralidade Ancestry Aprendizado de máquina Bioinformática Bioinformatics Genética Genetics Machine learning |
title_short |
Análise da ancestralidades genética da população de São Paulo |
title_full |
Análise da ancestralidades genética da população de São Paulo |
title_fullStr |
Análise da ancestralidades genética da população de São Paulo |
title_full_unstemmed |
Análise da ancestralidades genética da população de São Paulo |
title_sort |
Análise da ancestralidades genética da população de São Paulo |
author |
Amemiya, Raphael Bruno |
author_facet |
Amemiya, Raphael Bruno |
author_role |
author |
dc.contributor.none.fl_str_mv |
Matioli, Sergio Russo |
dc.contributor.author.fl_str_mv |
Amemiya, Raphael Bruno |
dc.subject.por.fl_str_mv |
Ancestralidade Ancestry Aprendizado de máquina Bioinformática Bioinformatics Genética Genetics Machine learning |
topic |
Ancestralidade Ancestry Aprendizado de máquina Bioinformática Bioinformatics Genética Genetics Machine learning |
description |
Os avanços da Biotecnologia possibilitaram a análise de milhares de marcadores genéticos, fornecendo informações importantes sobre ancestralidade e saúde. No contexto da ancestralidade genética, testes de DNA são importantes para identificar as origens de uma população e proporcionar aos indivíduos um maior conhecimento sobre seus antepassados. O Brasil é reconhecido por sua vasta diversidade étnica, com contribuições europeias, africanas, indígenas, asiáticas, entre outras. Essa diversidade étnica apresenta desafios na inferência da ancestralidade. Neste contexto, a aplicação de técnicas de bioinformática é importante para a análise de dados genéticos e a elaboração de modelos para inferir a ancestralidade. Tendo isso em mente, o objetivo deste projeto foi analisar a ancestralidade global de indivíduos da população de São Paulo utilizando técnicas de aprendizado de máquina. Para esta finalidade, buscou-se bancos genéticos públicos contendo dados de diferentes populações. Os dados foram processados e estruturados para serem aplicados em modelos não supervisionados e supervisionados. Neste projeto, foram implementados modelos supervisionados em Python com base na Estimativa de Máxima Verossimilhança. Os modelos criados também foram combinados usando abordagens de previsão em conjunto, que combinam os resultados de diferentes modelos. A capacidade dos modelos em inferir a ancestralidade de 23 grupos populacionais foi avaliada com validação cruzada estratificada e amostras simuladas. A raiz do erro quadrático médio (RMSE) foi calculada entre as proporções inferidas e esperadas de ancestralidade com amostras simuladas. O modelo com menor valor médio de RMSE teve uma média de precisão e sensibilidade na validação de 96,0% e 94,3%, respectivamente. Este modelo foi usado para inferir a ancestralidade de 411 indivíduos de São Paulo. Considerando apenas os grupos continentais com maiores proporções, foi inferida, em média 77,5% de ancestralidade europeia, 10,3% africana, 7,4% nativa americana e 4,1% de leste asiática. As análises realizadas neste projeto exemplificam a eficácia da combinação de mais de um modelo na inferência de ancestralidade genética, assim como o uso de técnicas de aprendizado de máquina como ferramenta para compreender a diversidade de populações complexas, como a de São Paulo. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-06-11 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17072024-053428/ |
url |
https://www.teses.usp.br/teses/disponiveis/95/95131/tde-17072024-053428/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1815257043965050880 |