Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer

Detalhes bibliográficos
Autor(a) principal: Castro, Daniel Matos de
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/258025
Resumo: Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.
id UFRGS-2_98d1fcc9ce17e7ffd3439dfda23f30bd
oai_identifier_str oai:www.lume.ufrgs.br:10183/258025
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Castro, Daniel Matos deRecamonde-Mendoza, Mariana2023-05-13T03:27:02Z2023http://hdl.handle.net/10183/258025001168621Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.This work aims to investigate the impact of racial bias in omics data on the performance of predictive models with machine learning (ML) algorithms. We aim to analyze how the imbalance between racial groups in datasets obtained from public databases, such as The Cancer Genome Atlas (TCGA), can lead to bias in models for the selection of causal genes and prediction of survival in cancer in a harmful way for minority groups. To achieve this objective, we conducted two experiments. The first involved the selection of causal genes from transcriptome data using the Cox proportional hazards model, while the second dealt with training an ML model for survival analysis using the Random Survival Forest algorithm. For both experiments, the instances of each dataset obtained from the TCGA were segregated into three subgroups: all (complete set), major (instances with the most prevalent race in the dataset) and textitminor (instances with a different race than the majority). Our results indicate that the dominance of the majority group over the overall result found in the identification of causal genes may be related to the size of the datasets involved in the majority and minority groups (that is, the absolute number of instances available for statistical and computational analysis ) and not necessarily to genetic differences between subgroups. Furthermore, the study found that the impact of racial disparity on the performance of the survival analysis model varies depending on the data set. We also evaluated the application of a major and minor balancing strategy through random subsampling, which did not prove to be effective in obtaining a more balanced predictive performance between the two subgroups. We conclude that future work is needed to investigate more sophisticated strategies for balancing datasets, as well as to analyze the effect of imbalance between racial groups with other types of omic data. Finally, it is essential to further study the potential for racial bias in genomic data to more clearly determine the contribution that the limited sample size and racial disparity make to the lower predictive performances observed for minority groups in models of ML trained with the omic data.application/pdfporAprendizado de máquinaModelos preditivosAlgoritmosTCGARacial biasSurvival analysisViés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncerRacial bias or small sample size? Investigating the impact of racial disparity on genomic data in cancer survival analysis info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001168621.pdf.txt001168621.pdf.txtExtracted Texttext/plain92539http://www.lume.ufrgs.br/bitstream/10183/258025/2/001168621.pdf.txt739fedd2983743522ebe6998dd1589d7MD52ORIGINAL001168621.pdfTexto completoapplication/pdf922693http://www.lume.ufrgs.br/bitstream/10183/258025/1/001168621.pdfb67b1d420ff960964c92abe080e2d57eMD5110183/2580252023-05-14 03:24:09.082074oai:www.lume.ufrgs.br:10183/258025Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-05-14T06:24:09Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
dc.title.alternative.en.fl_str_mv Racial bias or small sample size? Investigating the impact of racial disparity on genomic data in cancer survival analysis
title Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
spellingShingle Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
Castro, Daniel Matos de
Aprendizado de máquina
Modelos preditivos
Algoritmos
TCGA
Racial bias
Survival analysis
title_short Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_full Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_fullStr Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_full_unstemmed Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_sort Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
author Castro, Daniel Matos de
author_facet Castro, Daniel Matos de
author_role author
dc.contributor.author.fl_str_mv Castro, Daniel Matos de
dc.contributor.advisor1.fl_str_mv Recamonde-Mendoza, Mariana
contributor_str_mv Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv Aprendizado de máquina
Modelos preditivos
Algoritmos
topic Aprendizado de máquina
Modelos preditivos
Algoritmos
TCGA
Racial bias
Survival analysis
dc.subject.eng.fl_str_mv TCGA
Racial bias
Survival analysis
description Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-05-13T03:27:02Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/258025
dc.identifier.nrb.pt_BR.fl_str_mv 001168621
url http://hdl.handle.net/10183/258025
identifier_str_mv 001168621
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/258025/2/001168621.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/258025/1/001168621.pdf
bitstream.checksum.fl_str_mv 739fedd2983743522ebe6998dd1589d7
b67b1d420ff960964c92abe080e2d57e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224659091324928