Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/261761 |
Resumo: | Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa. |
id |
URGS_7a76e13fae5447d546cc5c0593414f75 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/261761 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Andrades, Renan Soares deRecamonde-Mendoza, Mariana2023-07-05T03:46:42Z2023http://hdl.handle.net/10183/261761001172481Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa.Identifying cancer driver genes (CDGs) is crucial for improving the understanding of cancer biology and developing effective diagnostic and treatment strategies. However, accurately identifying CDGs from a vast array of somatic mutations remains a challenge despite the substantial amount of genomic data available. Recent developments in graph based machine learning (ML) methods, such as Graph Neural Networks (GNNs), have made them powerful tools for analyzing protein-protein interaction (PPI) networks and performing predictions at the node level of biological networks. However, the use of GNNs for identifying candidate CDGs is still underexplored. This study aims to explore the predictive power of GNNs and develop a practical approach for predicting CDGs by integrating PPI networks and multi-omics data across several cancer types. We investigate data-centric and algorithmic decisions involved in model training to understand the poten tial of GNNs for this prediction task and to identify a robust methodology for classifying genes as cancer-causing or neutral in 16 types of cancer. Three primary decision levels are addressed: (i) node feature definition, (ii) class imbalance mitigation, and (iii) choice of the learning algorithm. We extensively analyze different GNN models trained through a semi-supervised approach, using six different PPI networks and four types of omics data: single nucleotide variant, copy number variation, DNA methylation, and gene expression. These models are contrasted with the performance achieved by traditional ML algorithms using regular structured data for model development. Following the experimental com parative analysis, we explore ensemble learning strategies and hyperparameter tuning to improve the predictive power of the top-performing model. Our results demonstrate that GNNs outperform traditional ML approaches in predicting CDGs, and that adding node centrality measures as node features improves learning outcomes even for graph-based learning methods. We also highlight the significant contribution of ensemble learning methodologies in improving performance metrics by aggregating predictions of models trained on multiple PPI networks. Finally, using the proposed approach, we provide pre dictions for unlabeled genes regarding their potential role as CDGs. Overall, this study provides relevant insights into using GNNs to predict CDGs and highlights Graph Con volutional Networks as an effective algorithm for this task.application/pdfengAprendizado de máquinaBioinformáticaGrafosRede neural de grafoCancer driver genesPrediction modelGraph-based learningPrediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based modelPredição de genes causadores de câncer com Graph Neural Networks : uma análise comparativa e um modelo baseado em Graph Convolutional Networks info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2023mestradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001172481.pdf.txt001172481.pdf.txtExtracted Texttext/plain357739http://www.lume.ufrgs.br/bitstream/10183/261761/2/001172481.pdf.txtb20f895c37b1c8c526fc4937ce7acf54MD52ORIGINAL001172481.pdfTexto completo (inglês)application/pdf11796909http://www.lume.ufrgs.br/bitstream/10183/261761/1/001172481.pdf7913e57cd4fbc828a1b0ebab91cbb89eMD5110183/2617612023-07-06 03:51:30.429939oai:www.lume.ufrgs.br:10183/261761Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532023-07-06T06:51:30Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
dc.title.alternative.pt.fl_str_mv |
Predição de genes causadores de câncer com Graph Neural Networks : uma análise comparativa e um modelo baseado em Graph Convolutional Networks |
title |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
spellingShingle |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model Andrades, Renan Soares de Aprendizado de máquina Bioinformática Grafos Rede neural de grafo Cancer driver genes Prediction model Graph-based learning |
title_short |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
title_full |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
title_fullStr |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
title_full_unstemmed |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
title_sort |
Prediction of cancer driver genes with graph neural networks : a comparative analysis and a graph convolutional network-based model |
author |
Andrades, Renan Soares de |
author_facet |
Andrades, Renan Soares de |
author_role |
author |
dc.contributor.author.fl_str_mv |
Andrades, Renan Soares de |
dc.contributor.advisor1.fl_str_mv |
Recamonde-Mendoza, Mariana |
contributor_str_mv |
Recamonde-Mendoza, Mariana |
dc.subject.por.fl_str_mv |
Aprendizado de máquina Bioinformática Grafos Rede neural de grafo |
topic |
Aprendizado de máquina Bioinformática Grafos Rede neural de grafo Cancer driver genes Prediction model Graph-based learning |
dc.subject.eng.fl_str_mv |
Cancer driver genes Prediction model Graph-based learning |
description |
Identificar os genes causadores de câncer (CDGs, de cancer driver genes) é crucial para melhor compreender a biologia do câncer e desenvolver estratégias eficazes de diagnós tico e tratamento. No entanto, a identificação precisa de CDGs a partir de uma vasta gama de mutações somáticas continua sendo um desafio, apesar da quantidade substancial de dados genômicos disponíveis. Desenvolvimentos recentes em métodos de aprendizado de máquina (AM) baseados em grafos, como Graph Neural Networks (GNNs), tornaram-se ferramentas poderosas para analisar redes de interação proteína-proteína (PPI) e realizar previsões em nível de nós. No entanto, o uso de GNNs para identificar CDGs candidatos ainda é pouco explorado. Este estudo visa explorar o poder preditivo de GNNs no con texto de predição de CDGs, desenvolvendo uma abordagem prática baseada na integração de redes PPI e dados multi-ômicos em vários tipos de câncer. Investigamos decisões cen tradas em dados e algorítmicas envolvidas no treinamento de modelos para entender o po tencial de GNNs para essa tarefa de predição e para identificar uma metodologia robusta para classificar genes como CDGs ou neutros em 16 tipos de câncer. Três níveis primários de decisão são abordados: (i) definição de atributos do nó, (ii) mitigação do desequilíbrio de classes e (iii) escolha do algoritmo de aprendizado. Analisamos extensivamente di ferentes modelos de GNNs treinados por meio de uma abordagem semi-supervisionada, usando seis redes PPI diferentes e quatro tipos de dados ômicos: variantes de nucleotí deos únicos, variação do número de cópias, metilação do DNA e expressão gênica. Esses modelos são comparados com o desempenho alcançado pelos algoritmos tradicionais de AM, treinados sobre dados estruturados regulares. Após a análise comparativa experi mental, exploramos estratégias de aprendizado ensemble e ajuste de hiperparâmetros para melhorar o poder preditivo do modelo de melhor desempenho. Nossos resultados de monstram que as GNNs superam as abordagens tradicionais de AM na previsão de CDGs e que a adição de medidas de centralidade de nós como atributos dos nós no grafo melhora os resultados de aprendizado, mesmo para métodos de aprendizado baseados em grafos. Também destacamos a contribuição significativa das metodologias de aprendizado ensem ble na melhoria das métricas de desempenho, agregando previsões de modelos treinados em várias redes PPI. Finalmente, usando a abordagem proposta, fornecemos previsões para genes não marcados em relação ao seu papel potencial como CDGs. No geral, este estudo fornece informações relevantes sobre o uso de GNNs para prever CDGs e destaca as Redes Convolucionais de Grafos como um algoritmo eficaz para esta tarefa. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-07-05T03:46:42Z |
dc.date.issued.fl_str_mv |
2023 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/261761 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001172481 |
url |
http://hdl.handle.net/10183/261761 |
identifier_str_mv |
001172481 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/261761/2/001172481.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/261761/1/001172481.pdf |
bitstream.checksum.fl_str_mv |
b20f895c37b1c8c526fc4937ce7acf54 7913e57cd4fbc828a1b0ebab91cbb89e |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085621601927168 |