Assessing the applicability of graph neural networks for cancer staging using sample similarity networks

Detalhes bibliográficos
Autor(a) principal: Colombelli, Felipe
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/251789
Resumo: O estadiamento tumoral é uma tarefa de classificação desafiante na qual, dadas as características das amostras, a estratégia empregada deve as categorizar em tipicamente um dos quatro estágios tumorais. À medida em que mais dados biológicos públicos se tornaram disponíveis, tal tarefa começou a receber mais atenção da comunidade científica, dando origem a questões como a integração e a forma de utilizar estas variadas fontes de informação. Devido à complexidade da tarefa de classificação, o emprego de modelos de aprendizado de máquina acurados tem a possibilidade de ajudar significativamente nas práticas clínicas relacionadas, uma vez que a informação do estágio tumoral é crucial para a adoção de um tratamento bem sucedido do paciente. Em particular, estratégias de aprendizado profundo podem ser muito úteis, visto que têm sido aplicadas com sucesso numa vasta gama de tarefas de classificação igualmente difíceis. Tendo isso em mente, o nosso estudo se propõe a investigar a aplicabilidade de uma abordagem de modelagem de dados baseada em redes de similaridade de amostras para lidar com esta informação de múltiplas fontes, deslocando a representação do problema para um problema de classificação de nós em um grafo. Os algoritmos Graph Attention Network e Graph Convolutional Network são aplicados para classificar as amostras e o seu desempenho é comparado com um algoritmo mais tradicional, o Multilayer Perceptron. A nossa hipótese principal, apoiada por estudos semelhantes, é que, ao introduzir algo como a correlação das amostras como me dida de similaridade, aquelas de mesma classe tenderão a estar altamente correlacionadas e a formar uma conexão na rede, auxiliando, assim, na tarefa de classificação de nós que tipicamente assume que a vizinhança influencia nas características de um nó. Além disso, com tal representação de problema, é possível também alcançar uma maior flexibilidade no que diz respeito à modelagem dos dados, permitindo inclusive a utilização de técni cas de aprendizado semi-supervisionado. Após a análise dos resultados, não observamos quaisquer ganhos significativos de desempenho ao utilizar a estratégia baseada em redes se comparada com o algoritmo tradicional Multilayer Perceptron.
id UFRGS-2_a74f0abb5c7ea2e4c9df109b1f150a9e
oai_identifier_str oai:www.lume.ufrgs.br:10183/251789
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Colombelli, FelipeRecamonde-Mendoza, Mariana2022-11-25T04:46:34Z2022http://hdl.handle.net/10183/251789001153941O estadiamento tumoral é uma tarefa de classificação desafiante na qual, dadas as características das amostras, a estratégia empregada deve as categorizar em tipicamente um dos quatro estágios tumorais. À medida em que mais dados biológicos públicos se tornaram disponíveis, tal tarefa começou a receber mais atenção da comunidade científica, dando origem a questões como a integração e a forma de utilizar estas variadas fontes de informação. Devido à complexidade da tarefa de classificação, o emprego de modelos de aprendizado de máquina acurados tem a possibilidade de ajudar significativamente nas práticas clínicas relacionadas, uma vez que a informação do estágio tumoral é crucial para a adoção de um tratamento bem sucedido do paciente. Em particular, estratégias de aprendizado profundo podem ser muito úteis, visto que têm sido aplicadas com sucesso numa vasta gama de tarefas de classificação igualmente difíceis. Tendo isso em mente, o nosso estudo se propõe a investigar a aplicabilidade de uma abordagem de modelagem de dados baseada em redes de similaridade de amostras para lidar com esta informação de múltiplas fontes, deslocando a representação do problema para um problema de classificação de nós em um grafo. Os algoritmos Graph Attention Network e Graph Convolutional Network são aplicados para classificar as amostras e o seu desempenho é comparado com um algoritmo mais tradicional, o Multilayer Perceptron. A nossa hipótese principal, apoiada por estudos semelhantes, é que, ao introduzir algo como a correlação das amostras como me dida de similaridade, aquelas de mesma classe tenderão a estar altamente correlacionadas e a formar uma conexão na rede, auxiliando, assim, na tarefa de classificação de nós que tipicamente assume que a vizinhança influencia nas características de um nó. Além disso, com tal representação de problema, é possível também alcançar uma maior flexibilidade no que diz respeito à modelagem dos dados, permitindo inclusive a utilização de técni cas de aprendizado semi-supervisionado. Após a análise dos resultados, não observamos quaisquer ganhos significativos de desempenho ao utilizar a estratégia baseada em redes se comparada com o algoritmo tradicional Multilayer Perceptron.Cancer staging is a challenging classification task in which, given the samples’ charac teristics, the employed strategy needs to categorize them into typically one out of four stages. As more public biological data becomes available, such task starts receiving more attention from the scientific community, and questions like the integration and how to use these varied sources of information emerge. Because of the classification task’s com plexity, employing accurate machine learning models could significantly help in related clinical practices since the cancer stage information is crucial for adopting a successful patient’s treatment. In particular, deep learning strategies can be very useful as they have been successfully applied in a wide range of similarly difficult classification tasks. With that in mind, our study proposes to investigate the applicability of a data modeling ap proach based on sample similarity networks to deal with this multi-sourced information, shifting the problem’s representation to a node classification problem. The Graph Atten tion Network and Graph Convolutional Network algorithms are applied for classifying the samples and their performance is compared to a more traditional Multilayer Percep tron algorithm. Our main hypothesis, supported by similar studies, is that, by introducing something like the samples’ correlation as a measure of similarity, the ones with the same class will tend to be highly correlated and form a connection in the network, thus, help ing in the node classification task that typically assumes the neighborhood influences in a node’s characteristics. Additionally, with such problem representation, we can also achieve greater flexibility regarding the data modeling, allowing even semi-supervised learning techniques to be used. After analyzing the results, we observed no significant performance gains by using the network-based strategy compared to the Multilayer Per ceptron algorithm.application/pdfporEstadiamento de tumoresAprendizado de máquinaModelagem de dadosAlgoritmosCancer stagingMulti-omicsSimilarity networksGraph neural networksAssessing the applicability of graph neural networks for cancer staging using sample similarity networksAvaliando a aplicabilidade de graph neural networks para estadiamento tumoral utilizando redes de similaridade de amostras info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2022Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001153941.pdf.txt001153941.pdf.txtExtracted Texttext/plain183199http://www.lume.ufrgs.br/bitstream/10183/251789/2/001153941.pdf.txt899420b2ea65774f37980eb656002106MD52ORIGINAL001153941.pdfTexto completo (inglês)application/pdf8127050http://www.lume.ufrgs.br/bitstream/10183/251789/1/001153941.pdfe88bac106caa85276834e44b86975b10MD5110183/2517892022-11-26 06:01:13.495908oai:www.lume.ufrgs.br:10183/251789Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-11-26T08:01:13Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
dc.title.alternative.pt.fl_str_mv Avaliando a aplicabilidade de graph neural networks para estadiamento tumoral utilizando redes de similaridade de amostras
title Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
spellingShingle Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
Colombelli, Felipe
Estadiamento de tumores
Aprendizado de máquina
Modelagem de dados
Algoritmos
Cancer staging
Multi-omics
Similarity networks
Graph neural networks
title_short Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
title_full Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
title_fullStr Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
title_full_unstemmed Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
title_sort Assessing the applicability of graph neural networks for cancer staging using sample similarity networks
author Colombelli, Felipe
author_facet Colombelli, Felipe
author_role author
dc.contributor.author.fl_str_mv Colombelli, Felipe
dc.contributor.advisor1.fl_str_mv Recamonde-Mendoza, Mariana
contributor_str_mv Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv Estadiamento de tumores
Aprendizado de máquina
Modelagem de dados
Algoritmos
topic Estadiamento de tumores
Aprendizado de máquina
Modelagem de dados
Algoritmos
Cancer staging
Multi-omics
Similarity networks
Graph neural networks
dc.subject.eng.fl_str_mv Cancer staging
Multi-omics
Similarity networks
Graph neural networks
description O estadiamento tumoral é uma tarefa de classificação desafiante na qual, dadas as características das amostras, a estratégia empregada deve as categorizar em tipicamente um dos quatro estágios tumorais. À medida em que mais dados biológicos públicos se tornaram disponíveis, tal tarefa começou a receber mais atenção da comunidade científica, dando origem a questões como a integração e a forma de utilizar estas variadas fontes de informação. Devido à complexidade da tarefa de classificação, o emprego de modelos de aprendizado de máquina acurados tem a possibilidade de ajudar significativamente nas práticas clínicas relacionadas, uma vez que a informação do estágio tumoral é crucial para a adoção de um tratamento bem sucedido do paciente. Em particular, estratégias de aprendizado profundo podem ser muito úteis, visto que têm sido aplicadas com sucesso numa vasta gama de tarefas de classificação igualmente difíceis. Tendo isso em mente, o nosso estudo se propõe a investigar a aplicabilidade de uma abordagem de modelagem de dados baseada em redes de similaridade de amostras para lidar com esta informação de múltiplas fontes, deslocando a representação do problema para um problema de classificação de nós em um grafo. Os algoritmos Graph Attention Network e Graph Convolutional Network são aplicados para classificar as amostras e o seu desempenho é comparado com um algoritmo mais tradicional, o Multilayer Perceptron. A nossa hipótese principal, apoiada por estudos semelhantes, é que, ao introduzir algo como a correlação das amostras como me dida de similaridade, aquelas de mesma classe tenderão a estar altamente correlacionadas e a formar uma conexão na rede, auxiliando, assim, na tarefa de classificação de nós que tipicamente assume que a vizinhança influencia nas características de um nó. Além disso, com tal representação de problema, é possível também alcançar uma maior flexibilidade no que diz respeito à modelagem dos dados, permitindo inclusive a utilização de técni cas de aprendizado semi-supervisionado. Após a análise dos resultados, não observamos quaisquer ganhos significativos de desempenho ao utilizar a estratégia baseada em redes se comparada com o algoritmo tradicional Multilayer Perceptron.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-11-25T04:46:34Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/251789
dc.identifier.nrb.pt_BR.fl_str_mv 001153941
url http://hdl.handle.net/10183/251789
identifier_str_mv 001153941
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/251789/2/001153941.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/251789/1/001153941.pdf
bitstream.checksum.fl_str_mv 899420b2ea65774f37980eb656002106
e88bac106caa85276834e44b86975b10
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447323591835648