Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer

Castro, Daniel Matos de

Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer

Detalhes bibliográficos
Autor(a) principal:	Castro, Daniel Matos de
Data de Publicação:	2023
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/258025
Resumo:	Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.

Metadados do item

id	UFRGS-2_98d1fcc9ce17e7ffd3439dfda23f30bd
oai_identifier_str	oai:www.lume.ufrgs.br:10183/258025
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Castro, Daniel Matos deRecamonde-Mendoza, Mariana2023-05-13T03:27:02Z2023http://hdl.handle.net/10183/258025001168621Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.This work aims to investigate the impact of racial bias in omics data on the performance of predictive models with machine learning (ML) algorithms. We aim to analyze how the imbalance between racial groups in datasets obtained from public databases, such as The Cancer Genome Atlas (TCGA), can lead to bias in models for the selection of causal genes and prediction of survival in cancer in a harmful way for minority groups. To achieve this objective, we conducted two experiments. The first involved the selection of causal genes from transcriptome data using the Cox proportional hazards model, while the second dealt with training an ML model for survival analysis using the Random Survival Forest algorithm. For both experiments, the instances of each dataset obtained from the TCGA were segregated into three subgroups: all (complete set), major (instances with the most prevalent race in the dataset) and textitminor (instances with a different race than the majority). Our results indicate that the dominance of the majority group over the overall result found in the identification of causal genes may be related to the size of the datasets involved in the majority and minority groups (that is, the absolute number of instances available for statistical and computational analysis ) and not necessarily to genetic differences between subgroups. Furthermore, the study found that the impact of racial disparity on the performance of the survival analysis model varies depending on the data set. We also evaluated the application of a major and minor balancing strategy through random subsampling, which did not prove to be effective in obtaining a more balanced predictive performance between the two subgroups. We conclude that future work is needed to investigate more sophisticated strategies for balancing datasets, as well as to analyze the effect of imbalance between racial groups with other types of omic data. Finally, it is essential to further study the potential for racial bias in genomic data to more clearly determine the contribution that the limited sample size and racial disparity make to the lower predictive performances observed for minority groups in models of ML trained with the omic data.application/pdfporAprendizado de máquinaModelos preditivosAlgoritmosTCGARacial biasSurvival analysisViés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncerRacial bias or small sample size? Investigating the impact of racial disparity on genomic data in cancer survival analysis info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001168621.pdf.txt001168621.pdf.txtExtracted Texttext/plain92539http://www.lume.ufrgs.br/bitstream/10183/258025/2/001168621.pdf.txt739fedd2983743522ebe6998dd1589d7MD52ORIGINAL001168621.pdfTexto completoapplication/pdf922693http://www.lume.ufrgs.br/bitstream/10183/258025/1/001168621.pdfb67b1d420ff960964c92abe080e2d57eMD5110183/2580252023-05-14 03:24:09.082074oai:www.lume.ufrgs.br:10183/258025Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-05-14T06:24:09Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
dc.title.alternative.en.fl_str_mv	Racial bias or small sample size? Investigating the impact of racial disparity on genomic data in cancer survival analysis
title	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
spellingShingle	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer Castro, Daniel Matos de Aprendizado de máquina Modelos preditivos Algoritmos TCGA Racial bias Survival analysis
title_short	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_full	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_fullStr	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_full_unstemmed	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
title_sort	Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer
author	Castro, Daniel Matos de
author_facet	Castro, Daniel Matos de
author_role	author
dc.contributor.author.fl_str_mv	Castro, Daniel Matos de
dc.contributor.advisor1.fl_str_mv	Recamonde-Mendoza, Mariana
contributor_str_mv	Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv	Aprendizado de máquina Modelos preditivos Algoritmos
topic	Aprendizado de máquina Modelos preditivos Algoritmos TCGA Racial bias Survival analysis
dc.subject.eng.fl_str_mv	TCGA Racial bias Survival analysis
description	Este trabalho tem como objetivo investigar o impacto do viés racial nos dados ômicos sobre o desempenho de modelos preditivos com algoritmos de aprendizado de máquina (AM). Visamos analisar como o desbalanceamento entre grupos raciais nos conjuntos de dados obtidos em bancos de dados públicos, como o The Cancer Genoma Atlas (TCGA), pode levar a enviesar modelos de seleção de genes causais e de predição de sobrevida em câncer, de forma prejudicial para os grupos minoritários. Para alcançar este objetivo, foram conduzidos dois experimentos. O primeiro envolveu a seleção de genes causais a partir de dados de transcriptoma utilizando o modelo de riscos proporcionais de Cox, en quanto o segundo tratou do treinamento de um modelo de AM para análise de sobrevida, utilizando o algoritmo Random Survival Forest. Para ambos os experimentos, as instân cias de cada conjunto de dados obtido do TCGA foram segregadas em três subgrupos: all (conjunto completo), major (instâncias com a raça mais prevalente no conjunto de dados) e minor (instâncias com raça diferente da majoritária). Os nossos resultados indicam que a dominância do grupo majoritário sobre o resultado geral constatada na identificação de genes causais pode estar relacionada ao tamanho dos conjuntos de dados envolvidos nos grupos majoritário e minoritário (isto é, número absoluto de instâncias disponíveis para as análises estatísticas e computacionais) e não necessariamente a diferenças genéticas entre os subgrupos. Além disso, o estudo constatou que o impacto da disparidade ra cial no desempenho do modelo de análise de sobrevida varia dependendo do conjunto de dados. Avaliamos também a aplicação de uma estratégia de balanceamento de major e minor através de subamostragem aleatória, o que não se mostrou eficaz para a obtenção de um desempenho preditivo mais equilibrado entre os dois subgrupos. Concluímos que trabalhos futuros se fazem necessários para investigar estratégias mais sofisticadas para balancear conjuntos de dados, bem como para analisar o efeito do desbalanceamento entre grupos raciais com outros tipos de dados ômicos. Por fim, é de suma importância apro fundar o estudo sobre o potencial de viés racial nos dados genômicos, a fim de determinar mais claramente a contribuição que cabe ao limitado tamanho amostral e à disparidade racial nos desempenhos preditivos mais baixos observados para os grupos minoritários em modelos de AM treinados com os dados ômicos.
publishDate	2023
dc.date.accessioned.fl_str_mv	2023-05-13T03:27:02Z
dc.date.issued.fl_str_mv	2023
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/258025
dc.identifier.nrb.pt_BR.fl_str_mv	001168621
url	http://hdl.handle.net/10183/258025
identifier_str_mv	001168621
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/258025/2/001168621.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/258025/1/001168621.pdf
bitstream.checksum.fl_str_mv	739fedd2983743522ebe6998dd1589d7 b67b1d420ff960964c92abe080e2d57e
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1815447338658824192

Viés racial ou pequeno tamanho amostral? Investigando o impacto de disparidade racial em dados genômicos na análise de sobrevida em câncer

Registros relacionados