Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/258025 |
Resumo: | Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos. |
id |
UFRGS-2_98d1fcc9ce17e7ffd3439dfda23f30bd |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/258025 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Castro, Daniel Matos deRecamonde-Mendoza, Mariana2023-05-13T03:27:02Z2023http://hdl.handle.net/10183/258025001168621Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.This work aims to investigate the impact of racial bias in omics data on the performance of predictive models with machine learning (ML) algorithms. We aim to analyze how the imbalance between racial groups in datasets obtained from public databases, such as The Cancer Genome Atlas (TCGA), can lead to bias in models for the selection of causal genes and prediction of survival in cancer in a harmful way for minority groups. To achieve this objective, we conducted two experiments. The first involved the selection of causal genes from transcriptome data using the Cox proportional hazards model, while the second dealt with training an ML model for survival analysis using the Random Survival Forest algorithm. For both experiments, the instances of each dataset obtained from the TCGA were segregated into three subgroups: all (complete set), major (instances with the most prevalent race in the dataset) and textitminor (instances with a different race than the majority). Our results indicate that the dominance of the majority group over the overall result found in the identification of causal genes may be related to the size of the datasets involved in the majority and minority groups (that is, the absolute number of instances available for statistical and computational analysis ) and not necessarily to genetic differences between subgroups. Furthermore, the study found that the impact of racial disparity on the performance of the survival analysis model varies depending on the data set. We also evaluated the application of a major and minor balancing strategy through random subsampling, which did not prove to be effective in obtaining a more balanced predictive performance between the two subgroups. We conclude that future work is needed to investigate more sophisticated strategies for balancing datasets, as well as to analyze the effect of imbalance between racial groups with other types of omic data. Finally, it is essential to further study the potential for racial bias in genomic data to more clearly determine the contribution that the limited sample size and racial disparity make to the lower predictive performances observed for minority groups in models of ML trained with the omic data.application/pdfporAprendizado de máquinaModelos preditivosAlgoritmosTCGARacial biasSurvival analysisViés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncerRacial bias or small sample size? Investigating the impact of racial disparity on genomic data in cancer survival analysis info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001168621.pdf.txt001168621.pdf.txtExtracted Texttext/plain92539http://www.lume.ufrgs.br/bitstream/10183/258025/2/001168621.pdf.txt739fedd2983743522ebe6998dd1589d7MD52ORIGINAL001168621.pdfTexto completoapplication/pdf922693http://www.lume.ufrgs.br/bitstream/10183/258025/1/001168621.pdfb67b1d420ff960964c92abe080e2d57eMD5110183/2580252023-05-14 03:24:09.082074oai:www.lume.ufrgs.br:10183/258025Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-05-14T06:24:09Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
dc.title.alternative.en.fl_str_mv |
Racial bias or small sample size? Investigating the impact of racial disparity on genomic data in cancer survival analysis |
title |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
spellingShingle |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer Castro, Daniel Matos de Aprendizado de máquina Modelos preditivos Algoritmos TCGA Racial bias Survival analysis |
title_short |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
title_full |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
title_fullStr |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
title_full_unstemmed |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
title_sort |
Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer |
author |
Castro, Daniel Matos de |
author_facet |
Castro, Daniel Matos de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Castro, Daniel Matos de |
dc.contributor.advisor1.fl_str_mv |
Recamonde-Mendoza, Mariana |
contributor_str_mv |
Recamonde-Mendoza, Mariana |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Modelos preditivos Algoritmos |
topic |
Aprendizado de máquina Modelos preditivos Algoritmos TCGA Racial bias Survival analysis |
dc.subject.eng.fl_str_mv |
TCGA Racial bias Survival analysis |
description |
Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-05-13T03:27:02Z |
dc.date.issued.fl_str_mv |
2023 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/258025 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001168621 |
url |
http://hdl.handle.net/10183/258025 |
identifier_str_mv |
001168621 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/258025/2/001168621.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/258025/1/001168621.pdf |
bitstream.checksum.fl_str_mv |
739fedd2983743522ebe6998dd1589d7 b67b1d420ff960964c92abe080e2d57e |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
|
_version_ |
1815447338658824192 |