Use of embedding concatenation and ensemble to improve node classification on graphs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/223181 |
Resumo: | Inteligência artifical (IA) é uma ferramenta poderosa que pode ser usada em diferentes áreas para resolver vários tipos de problemas, e seu uso vem aumentando a cada ano. Porém, algoritmos tradicionais de aprendizado de máquina (AM) possuem uma limitação específica: o formato de entrada dos dados. Como eles esperam que a entrada esteja na forma de vetores e matrizes, dados que são melhor representados por um grafo não podem ser facilmente utilizados para treinar modelos de AM, mesmo quando podem ser a melhor alternativa para pesquisadores. Esse obstáculo inspirou a criação de um conjunto de algoritmos para um processo chamado embedding, que mapeia dados de um grafo em um espaço vetorial, permitindo que esses dados sejam passados para modelos de AM com facilidade. Embeddings, no entanto, não geram uma representação perfeita, já que existe uma relação inversa inerente ao processo. Os algoritmos precisam escolher preservar uma de duas características de um grafo: comunidade (a vizinhança de cada nodo) ou estrutura (o papel que cada nodo tem na estrutura do grafo). Eles precisam focar em um aspecto em detrimento do outro, ou precisam tentar balanceá-los na representação, resultando em uma preservação pior de ambos. Isso significa que aspectos importantes de um grafo podem se perder, o que pode gerar resultados ruins para uma tarefa de classificação ou de predição apens por causa do tipo de representação escolida. Isso também pode significar que os resultados podem melhorar caso a representação do grafo seja mais completa. Inspirados pelo conceito, propomos a combinação de duas ideias para tentar melhorar a representação de grafos para serem usados em algoritmos de aprendizado de máquinas. A primeira é uma concatenação simples de três tipos de embedding, cada um focando em uma característica específica, e a segunda é o uso de um ensemble boostrap aggregation para a tarefa. Para avaliar as abordagens, nós rodamos experimentos com seis conjuntos de dados copmarando a performance das abordagens propostas com a de clasificadores simples treinados em cada embedding separadamente. Nossos resultados mostram que, apesar de a concatenação não ter os melhores resultados, ela constamentemente fica perto dos melhores em todos os datasets testados, o que não ocorre com embeddings individuais. |
id |
UFRGS-2_00276712ee20bb11f2fa8fec52514500 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/223181 |
network_acronym_str |
UFRGS-2 |
network_name_str |
Repositório Institucional da UFRGS |
repository_id_str |
|
spelling |
Mello, Ana Paula Carolino de OliveiraRecamonde-Mendoza, Mariana2021-07-06T04:45:28Z2021http://hdl.handle.net/10183/223181001126754Inteligência artifical (IA) é uma ferramenta poderosa que pode ser usada em diferentes áreas para resolver vários tipos de problemas, e seu uso vem aumentando a cada ano. Porém, algoritmos tradicionais de aprendizado de máquina (AM) possuem uma limitação específica: o formato de entrada dos dados. Como eles esperam que a entrada esteja na forma de vetores e matrizes, dados que são melhor representados por um grafo não podem ser facilmente utilizados para treinar modelos de AM, mesmo quando podem ser a melhor alternativa para pesquisadores. Esse obstáculo inspirou a criação de um conjunto de algoritmos para um processo chamado embedding, que mapeia dados de um grafo em um espaço vetorial, permitindo que esses dados sejam passados para modelos de AM com facilidade. Embeddings, no entanto, não geram uma representação perfeita, já que existe uma relação inversa inerente ao processo. Os algoritmos precisam escolher preservar uma de duas características de um grafo: comunidade (a vizinhança de cada nodo) ou estrutura (o papel que cada nodo tem na estrutura do grafo). Eles precisam focar em um aspecto em detrimento do outro, ou precisam tentar balanceá-los na representação, resultando em uma preservação pior de ambos. Isso significa que aspectos importantes de um grafo podem se perder, o que pode gerar resultados ruins para uma tarefa de classificação ou de predição apens por causa do tipo de representação escolida. Isso também pode significar que os resultados podem melhorar caso a representação do grafo seja mais completa. Inspirados pelo conceito, propomos a combinação de duas ideias para tentar melhorar a representação de grafos para serem usados em algoritmos de aprendizado de máquinas. A primeira é uma concatenação simples de três tipos de embedding, cada um focando em uma característica específica, e a segunda é o uso de um ensemble boostrap aggregation para a tarefa. Para avaliar as abordagens, nós rodamos experimentos com seis conjuntos de dados copmarando a performance das abordagens propostas com a de clasificadores simples treinados em cada embedding separadamente. Nossos resultados mostram que, apesar de a concatenação não ter os melhores resultados, ela constamentemente fica perto dos melhores em todos os datasets testados, o que não ocorre com embeddings individuais.Artificial intelligence (AI) is a powerful tool that can be used in several different fields to solve many problems, and its use has been increasing every year. However, traditional machine learning (ML) algorithms have a specific limitation: their input format. Since they expect the input to be in vectors and matrices, data that is best represented by graphs can not be easily used to train ML models, even though they could often be the best alternative researchers have. This hurdle inspired the creation of a set of algorithms for a process called embedding, which maps graph data to a vector space, allowing the data to be fed to ML methods with ease. Embedding, however, does not yield a perfect representation since there is an inherent trade-off in the process. Embedding algorithms have to choose to preserve one out of two characteristics of a graph: community (the neighborhood of each node) or structure (the role each node has in the graph structure). Algorithms have to focus on one aspect over the other or attempt to balance them in the representation, resulting in shallower preservation of both. This means essential aspects of a graph can be lost in translation, which can yield bad results purely because of the type of representation chosen. It can also mean that the results could improve by making the graph representation more complete. Inspired by this observation, we propose a combination of two ideas aiming at improving the representation of graph data to be used in ML algorithms. The first is a simple concatenation of three types of embeddings, each using a different embedding strategy, and the second is the use of a bootstrap aggregation ensemble for the task. To evaluate these approaches, we run experiments on six datasets comparing the performance of the proposed approaches against simple classifiers trained on each embedding separately. Our results suggest that, while the concatenation does not have the best results, it constantly gets very close to it in all tested datasets, which does not happen with individual embeddings.application/pdfengInteligência artificialAprendizado de máquinaGrafosPrediçãoEnsembleEmbeddingsNode classificationUse of embedding concatenation and ensemble to improve node classification on graphsUso de concatenação de embeddings e ensemble para melhorar a classificação de nodos em grafos info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2020Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001126754.pdf.txt001126754.pdf.txtExtracted Texttext/plain85972http://www.lume.ufrgs.br/bitstream/10183/223181/2/001126754.pdf.txt750a2f19eb994c363e3e959b07b48a0aMD52ORIGINAL001126754.pdfTexto completo (inglês)application/pdf612844http://www.lume.ufrgs.br/bitstream/10183/223181/1/001126754.pdfc2c84f9ed68f539ff4243ab978cdf489MD5110183/2231812024-08-29 06:33:22.441227oai:www.lume.ufrgs.br:10183/223181Repositório InstitucionalPUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.bropendoar:2024-08-29T09:33:22Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Use of embedding concatenation and ensemble to improve node classification on graphs |
dc.title.alternative.pt.fl_str_mv |
Uso de concatenação de embeddings e ensemble para melhorar a classificação de nodos em grafos |
title |
Use of embedding concatenation and ensemble to improve node classification on graphs |
spellingShingle |
Use of embedding concatenation and ensemble to improve node classification on graphs Mello, Ana Paula Carolino de Oliveira Inteligência artificial Aprendizado de máquina Grafos Predição Ensemble Embeddings Node classification |
title_short |
Use of embedding concatenation and ensemble to improve node classification on graphs |
title_full |
Use of embedding concatenation and ensemble to improve node classification on graphs |
title_fullStr |
Use of embedding concatenation and ensemble to improve node classification on graphs |
title_full_unstemmed |
Use of embedding concatenation and ensemble to improve node classification on graphs |
title_sort |
Use of embedding concatenation and ensemble to improve node classification on graphs |
author |
Mello, Ana Paula Carolino de Oliveira |
author_facet |
Mello, Ana Paula Carolino de Oliveira |
author_role |
author |
dc.contributor.author.fl_str_mv |
Mello, Ana Paula Carolino de Oliveira |
dc.contributor.advisor1.fl_str_mv |
Recamonde-Mendoza, Mariana |
contributor_str_mv |
Recamonde-Mendoza, Mariana |
dc.subject.por.fl_str_mv |
Inteligência artificial Aprendizado de máquina Grafos Predição |
topic |
Inteligência artificial Aprendizado de máquina Grafos Predição Ensemble Embeddings Node classification |
dc.subject.eng.fl_str_mv |
Ensemble Embeddings Node classification |
description |
Inteligência artifical (IA) é uma ferramenta poderosa que pode ser usada em diferentes áreas para resolver vários tipos de problemas, e seu uso vem aumentando a cada ano. Porém, algoritmos tradicionais de aprendizado de máquina (AM) possuem uma limitação específica: o formato de entrada dos dados. Como eles esperam que a entrada esteja na forma de vetores e matrizes, dados que são melhor representados por um grafo não podem ser facilmente utilizados para treinar modelos de AM, mesmo quando podem ser a melhor alternativa para pesquisadores. Esse obstáculo inspirou a criação de um conjunto de algoritmos para um processo chamado embedding, que mapeia dados de um grafo em um espaço vetorial, permitindo que esses dados sejam passados para modelos de AM com facilidade. Embeddings, no entanto, não geram uma representação perfeita, já que existe uma relação inversa inerente ao processo. Os algoritmos precisam escolher preservar uma de duas características de um grafo: comunidade (a vizinhança de cada nodo) ou estrutura (o papel que cada nodo tem na estrutura do grafo). Eles precisam focar em um aspecto em detrimento do outro, ou precisam tentar balanceá-los na representação, resultando em uma preservação pior de ambos. Isso significa que aspectos importantes de um grafo podem se perder, o que pode gerar resultados ruins para uma tarefa de classificação ou de predição apens por causa do tipo de representação escolida. Isso também pode significar que os resultados podem melhorar caso a representação do grafo seja mais completa. Inspirados pelo conceito, propomos a combinação de duas ideias para tentar melhorar a representação de grafos para serem usados em algoritmos de aprendizado de máquinas. A primeira é uma concatenação simples de três tipos de embedding, cada um focando em uma característica específica, e a segunda é o uso de um ensemble boostrap aggregation para a tarefa. Para avaliar as abordagens, nós rodamos experimentos com seis conjuntos de dados copmarando a performance das abordagens propostas com a de clasificadores simples treinados em cada embedding separadamente. Nossos resultados mostram que, apesar de a concatenação não ter os melhores resultados, ela constamentemente fica perto dos melhores em todos os datasets testados, o que não ocorre com embeddings individuais. |
publishDate |
2021 |
dc.date.accessioned.fl_str_mv |
2021-07-06T04:45:28Z |
dc.date.issued.fl_str_mv |
2021 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/223181 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001126754 |
url |
http://hdl.handle.net/10183/223181 |
identifier_str_mv |
001126754 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Repositório Institucional da UFRGS |
collection |
Repositório Institucional da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/223181/2/001126754.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/223181/1/001126754.pdf |
bitstream.checksum.fl_str_mv |
750a2f19eb994c363e3e959b07b48a0a c2c84f9ed68f539ff4243ab978cdf489 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br |
_version_ |
1824426934756442112 |