Use of embedding concatenation and ensemble to improve node classification on graphs

Mello, Ana Paula Carolino de Oliveira

Use of embedding concatenation and ensemble to improve node classification on graphs

Detalhes bibliográficos
Autor(a) principal:	Mello, Ana Paula Carolino de Oliveira
Data de Publicação:	2021
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	eng
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/223181
Resumo:	Inteligência artifical (IA) é uma ferramenta poderosa que pode ser usada em diferentes áreas para resolver vários tipos de problemas, e seu uso vem aumentando a cada ano. Porém, algoritmos tradicionais de aprendizado de máquina (AM) possuem uma limitação específica: o formato de entrada dos dados. Como eles esperam que a entrada esteja na forma de vetores e matrizes, dados que são melhor representados por um grafo não podem ser facilmente utilizados para treinar modelos de AM, mesmo quando podem ser a melhor alternativa para pesquisadores. Esse obstáculo inspirou a criação de um conjunto de algoritmos para um processo chamado embedding, que mapeia dados de um grafo em um espaço vetorial, permitindo que esses dados sejam passados para modelos de AM com facilidade. Embeddings, no entanto, não geram uma representação perfeita, já que existe uma relação inversa inerente ao processo. Os algoritmos precisam escolher preservar uma de duas características de um grafo: comunidade (a vizinhança de cada nodo) ou estrutura (o papel que cada nodo tem na estrutura do grafo). Eles precisam focar em um aspecto em detrimento do outro, ou precisam tentar balanceá-los na representação, resultando em uma preservação pior de ambos. Isso significa que aspectos importantes de um grafo podem se perder, o que pode gerar resultados ruins para uma tarefa de classificação ou de predição apens por causa do tipo de representação escolida. Isso também pode significar que os resultados podem melhorar caso a representação do grafo seja mais completa. Inspirados pelo conceito, propomos a combinação de duas ideias para tentar melhorar a representação de grafos para serem usados em algoritmos de aprendizado de máquinas. A primeira é uma concatenação simples de três tipos de embedding, cada um focando em uma característica específica, e a segunda é o uso de um ensemble boostrap aggregation para a tarefa. Para avaliar as abordagens, nós rodamos experimentos com seis conjuntos de dados copmarando a performance das abordagens propostas com a de clasificadores simples treinados em cada embedding separadamente. Nossos resultados mostram que, apesar de a concatenação não ter os melhores resultados, ela constamentemente fica perto dos melhores em todos os datasets testados, o que não ocorre com embeddings individuais.

Metadados do item

id	UFRGS-2_00276712ee20bb11f2fa8fec52514500
oai_identifier_str	oai:www.lume.ufrgs.br:10183/223181
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Mello, Ana Paula Carolino de OliveiraRecamonde-Mendoza, Mariana2021-07-06T04:45:28Z2021http://hdl.handle.net/10183/223181001126754Inteligência artifical (IA) é uma ferramenta poderosa que pode ser usada em diferentes áreas para resolver vários tipos de problemas, e seu uso vem aumentando a cada ano. Porém, algoritmos tradicionais de aprendizado de máquina (AM) possuem uma limitação específica: o formato de entrada dos dados. Como eles esperam que a entrada esteja na forma de vetores e matrizes, dados que são melhor representados por um grafo não podem ser facilmente utilizados para treinar modelos de AM, mesmo quando podem ser a melhor alternativa para pesquisadores. Esse obstáculo inspirou a criação de um conjunto de algoritmos para um processo chamado embedding, que mapeia dados de um grafo em um espaço vetorial, permitindo que esses dados sejam passados para modelos de AM com facilidade. Embeddings, no entanto, não geram uma representação perfeita, já que existe uma relação inversa inerente ao processo. Os algoritmos precisam escolher preservar uma de duas características de um grafo: comunidade (a vizinhança de cada nodo) ou estrutura (o papel que cada nodo tem na estrutura do grafo). Eles precisam focar em um aspecto em detrimento do outro, ou precisam tentar balanceá-los na representação, resultando em uma preservação pior de ambos. Isso significa que aspectos importantes de um grafo podem se perder, o que pode gerar resultados ruins para uma tarefa de classificação ou de predição apens por causa do tipo de representação escolida. Isso também pode significar que os resultados podem melhorar caso a representação do grafo seja mais completa. Inspirados pelo conceito, propomos a combinação de duas ideias para tentar melhorar a representação de grafos para serem usados em algoritmos de aprendizado de máquinas. A primeira é uma concatenação simples de três tipos de embedding, cada um focando em uma característica específica, e a segunda é o uso de um ensemble boostrap aggregation para a tarefa. Para avaliar as abordagens, nós rodamos experimentos com seis conjuntos de dados copmarando a performance das abordagens propostas com a de clasificadores simples treinados em cada embedding separadamente. Nossos resultados mostram que, apesar de a concatenação não ter os melhores resultados, ela constamentemente fica perto dos melhores em todos os datasets testados, o que não ocorre com embeddings individuais.Artificial intelligence (AI) is a powerful tool that can be used in several different fields to solve many problems, and its use has been increasing every year. However, traditional machine learning (ML) algorithms have a specific limitation: their input format. Since they expect the input to be in vectors and matrices, data that is best represented by graphs can not be easily used to train ML models, even though they could often be the best alternative researchers have. This hurdle inspired the creation of a set of algorithms for a process called embedding, which maps graph data to a vector space, allowing the data to be fed to ML methods with ease. Embedding, however, does not yield a perfect representation since there is an inherent trade-off in the process. Embedding algorithms have to choose to preserve one out of two characteristics of a graph: community (the neighborhood of each node) or structure (the role each node has in the graph structure). Algorithms have to focus on one aspect over the other or attempt to balance them in the representation, resulting in shallower preservation of both. This means essential aspects of a graph can be lost in translation, which can yield bad results purely because of the type of representation chosen. It can also mean that the results could improve by making the graph representation more complete. Inspired by this observation, we propose a combination of two ideas aiming at improving the representation of graph data to be used in ML algorithms. The first is a simple concatenation of three types of embeddings, each using a different embedding strategy, and the second is the use of a bootstrap aggregation ensemble for the task. To evaluate these approaches, we run experiments on six datasets comparing the performance of the proposed approaches against simple classifiers trained on each embedding separately. Our results suggest that, while the concatenation does not have the best results, it constantly gets very close to it in all tested datasets, which does not happen with individual embeddings.application/pdfengInteligência artificialAprendizado de máquinaGrafosPrediçãoEnsembleEmbeddingsNode classificationUse of embedding concatenation and ensemble to improve node classification on graphsUso de concatenação de embeddings e ensemble para melhorar a classificação de nodos em grafos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2020Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001126754.pdf.txt001126754.pdf.txtExtracted Texttext/plain85972http://www.lume.ufrgs.br/bitstream/10183/223181/2/001126754.pdf.txt750a2f19eb994c363e3e959b07b48a0aMD52ORIGINAL001126754.pdfTexto completo (inglês)application/pdf612844http://www.lume.ufrgs.br/bitstream/10183/223181/1/001126754.pdfc2c84f9ed68f539ff4243ab978cdf489MD5110183/2231812024-08-29 06:33:22.441227oai:www.lume.ufrgs.br:10183/223181Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2024-08-29T09:33:22Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Use of embedding concatenation and ensemble to improve node classification on graphs
dc.title.alternative.pt.fl_str_mv	Uso de concatenação de embeddings e ensemble para melhorar a classificação de nodos em grafos
title	Use of embedding concatenation and ensemble to improve node classification on graphs
spellingShingle	Use of embedding concatenation and ensemble to improve node classification on graphs Mello, Ana Paula Carolino de Oliveira Inteligência artificial Aprendizado de máquina Grafos Predição Ensemble Embeddings Node classification
title_short	Use of embedding concatenation and ensemble to improve node classification on graphs
title_full	Use of embedding concatenation and ensemble to improve node classification on graphs
title_fullStr	Use of embedding concatenation and ensemble to improve node classification on graphs
title_full_unstemmed	Use of embedding concatenation and ensemble to improve node classification on graphs
title_sort	Use of embedding concatenation and ensemble to improve node classification on graphs
author	Mello, Ana Paula Carolino de Oliveira
author_facet	Mello, Ana Paula Carolino de Oliveira
author_role	author
dc.contributor.author.fl_str_mv	Mello, Ana Paula Carolino de Oliveira
dc.contributor.advisor1.fl_str_mv	Recamonde-Mendoza, Mariana
contributor_str_mv	Recamonde-Mendoza, Mariana
dc.subject.por.fl_str_mv	Inteligência artificial Aprendizado de máquina Grafos Predição
topic	Inteligência artificial Aprendizado de máquina Grafos Predição Ensemble Embeddings Node classification
dc.subject.eng.fl_str_mv	Ensemble Embeddings Node classification
description	Inteligência artifical (IA) é uma ferramenta poderosa que pode ser usada em diferentes áreas para resolver vários tipos de problemas, e seu uso vem aumentando a cada ano. Porém, algoritmos tradicionais de aprendizado de máquina (AM) possuem uma limitação específica: o formato de entrada dos dados. Como eles esperam que a entrada esteja na forma de vetores e matrizes, dados que são melhor representados por um grafo não podem ser facilmente utilizados para treinar modelos de AM, mesmo quando podem ser a melhor alternativa para pesquisadores. Esse obstáculo inspirou a criação de um conjunto de algoritmos para um processo chamado embedding, que mapeia dados de um grafo em um espaço vetorial, permitindo que esses dados sejam passados para modelos de AM com facilidade. Embeddings, no entanto, não geram uma representação perfeita, já que existe uma relação inversa inerente ao processo. Os algoritmos precisam escolher preservar uma de duas características de um grafo: comunidade (a vizinhança de cada nodo) ou estrutura (o papel que cada nodo tem na estrutura do grafo). Eles precisam focar em um aspecto em detrimento do outro, ou precisam tentar balanceá-los na representação, resultando em uma preservação pior de ambos. Isso significa que aspectos importantes de um grafo podem se perder, o que pode gerar resultados ruins para uma tarefa de classificação ou de predição apens por causa do tipo de representação escolida. Isso também pode significar que os resultados podem melhorar caso a representação do grafo seja mais completa. Inspirados pelo conceito, propomos a combinação de duas ideias para tentar melhorar a representação de grafos para serem usados em algoritmos de aprendizado de máquinas. A primeira é uma concatenação simples de três tipos de embedding, cada um focando em uma característica específica, e a segunda é o uso de um ensemble boostrap aggregation para a tarefa. Para avaliar as abordagens, nós rodamos experimentos com seis conjuntos de dados copmarando a performance das abordagens propostas com a de clasificadores simples treinados em cada embedding separadamente. Nossos resultados mostram que, apesar de a concatenação não ter os melhores resultados, ela constamentemente fica perto dos melhores em todos os datasets testados, o que não ocorre com embeddings individuais.
publishDate	2021
dc.date.accessioned.fl_str_mv	2021-07-06T04:45:28Z
dc.date.issued.fl_str_mv	2021
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/223181
dc.identifier.nrb.pt_BR.fl_str_mv	001126754
url	http://hdl.handle.net/10183/223181
identifier_str_mv	001126754
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/223181/2/001126754.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/223181/1/001126754.pdf
bitstream.checksum.fl_str_mv	750a2f19eb994c363e3e959b07b48a0a c2c84f9ed68f539ff4243ab978cdf489
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv	lume@ufrgs.br
_version_	1824426934756442112

Use of embedding concatenation and ensemble to improve node classification on graphs

Registros relacionados