Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model

Detalhes bibliográficos
Autor(a) principal: Andrades, Renan Soares de
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/261761
Resumo: Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa.
id URGS_7a76e13fae5447d546cc5c0593414f75
oai_identifier_str oai:www.lume.ufrgs.br:10183/261761
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Andrades, Renan Soares deRecamonde-Mendoza, Mariana2023-07-05T03:46:42Z2023http://hdl.handle.net/10183/261761001172481Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa.Identifying cancer driver genes (CDGs) is crucial for improving the understanding of cancer biology and developing effective diagnostic and treatment strategies. However, accurately identifying CDGs from a vast array of somatic mutations remains a challenge despite the substantial amount of genomic data available. Recent developments in graph based machine learning (ML) methods, such as Graph Neural Networks (GNNs), have made them powerful tools for analyzing protein-protein interaction (PPI) networks and performing predictions at the node level of biological networks. However, the use of GNNs for identifying candidate CDGs is still underexplored. This study aims to explore the predictive power of GNNs and develop a practical approach for predicting CDGs by integrating PPI networks and multi-omics data across several cancer types. We investigate data-centric and algorithmic decisions involved in model training to understand the poten tial of GNNs for this prediction task and to identify a robust methodology for classifying genes as cancer-causing or neutral in 16 types of cancer. Three primary decision levels are addressed: (i) node feature definition, (ii) class imbalance mitigation, and (iii) choice of the learning algorithm. We extensively analyze different GNN models trained through a semi-supervised approach, using six different PPI networks and four types of omics data: single nucleotide variant, copy number variation, DNA methylation, and gene expression. These models are contrasted with the performance achieved by traditional ML algorithms using regular structured data for model development. Following the experimental com parative analysis, we explore ensemble learning strategies and hyperparameter tuning to improve the predictive power of the top-performing model. Our results demonstrate that GNNs outperform traditional ML approaches in predicting CDGs, and that adding node centrality measures as node features improves learning outcomes even for graph-based learning methods. We also highlight the significant contribution of ensemble learning methodologies in improving performance metrics by aggregating predictions of models trained on multiple PPI networks. Finally, using the proposed approach, we provide pre dictions for unlabeled genes regarding their potential role as CDGs. Overall, this study provides relevant insights into using GNNs to predict CDGs and highlights Graph Con volutional Networks as an effective algorithm for this task.application/pdfengAprendizado de máquinaBioinformáticaGrafosRede neural de grafoCancer driver genesPrediction modelGraph-based learningPrediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based modelPredição de genes causadores de câncer com Graph Neural Networks : uma análise comparativa e um modelo baseado em Graph Convolutional Networks info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001172481.pdf.txt001172481.pdf.txtExtracted Texttext/plain357739http://www.lume.ufrgs.br/bitstream/10183/261761/2/001172481.pdf.txtb20f895c37b1c8c526fc4937ce7acf54MD52ORIGINAL001172481.pdfTexto completo (inglês)application/pdf11796909http://www.lume.ufrgs.br/bitstream/10183/261761/1/001172481.pdf7913e57cd4fbc828a1b0ebab91cbb89eMD5110183/2617612023-07-06 03:51:30.429939oai:www.lume.ufrgs.br:10183/261761Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532023-07-06T06:51:30Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
dc.title.alternative.pt.fl_str_mv Predição de genes causadores de câncer com Graph Neural Networks : uma análise comparativa e um modelo baseado em Graph Convolutional Networks
title Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
spellingShingle Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
Andrades, Renan Soares de
Aprendizado de máquina
Bioinformática
Grafos
Rede neural de grafo
Cancer driver genes
Prediction model
Graph-based learning
title_short Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
title_full Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
title_fullStr Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
title_full_unstemmed Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
title_sort Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
author Andrades, Renan Soares de
author_facet Andrades, Renan Soares de
author_role author
dc.contributor.author.fl_str_mv Andrades, Renan Soares de
dc.contributor.advisor1.fl_str_mv Recamonde-Mendoza, Mariana
contributor_str_mv Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv Aprendizado de máquina
Bioinformática
Grafos
Rede neural de grafo
topic Aprendizado de máquina
Bioinformática
Grafos
Rede neural de grafo
Cancer driver genes
Prediction model
Graph-based learning
dc.subject.eng.fl_str_mv Cancer driver genes
Prediction model
Graph-based learning
description Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-07-05T03:46:42Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/261761
dc.identifier.nrb.pt_BR.fl_str_mv 001172481
url http://hdl.handle.net/10183/261761
identifier_str_mv 001172481
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/261761/2/001172481.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/261761/1/001172481.pdf
bitstream.checksum.fl_str_mv b20f895c37b1c8c526fc4937ce7acf54
7913e57cd4fbc828a1b0ebab91cbb89e
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085621601927168