Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade

Detalhes bibliográficos
Autor(a) principal: Soares, Vitor Freitas Xavier
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/18517
Resumo: The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets.
id SCAR_9ba0317563773d59a466291df9453fa8
oai_identifier_str oai:repositorio.ufscar.br:ufscar/18517
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Soares, Vitor Freitas XavierValejo, Alan Demétrius Bariahttp://lattes.cnpq.br/9546164790189830http://lattes.cnpq.br/187133582276639938c07804-b4b0-4e7c-b0fd-724b0186a8e52023-09-05T18:35:56Z2023-09-05T18:35:56Z2023-08-28SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517.https://repositorio.ufscar.br/handle/ufscar/18517The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets.O rápido desenvolvimento e adoção de tecnologias de informação, como a internet, resultou em uma explosão na geração de dados, aumentando significativamente o volume de novas instâncias com diversos atributos. A vasta quantidade de atributos existentes em determinados conjuntos de dados não implica necessariamente em uma melhor performance, visto que o desempenho dos algoritmos diminui à medida que atributos são adicionados excessivamente (Maldição da Dimensionalidade). Assim, para analisar tais dados, no campo do aprendizado de máquina, os algoritmos de agrupamento tradicionais desempenham um papel crucial, segmentando-os com base em semelhanças. Uma abordagem mais recente é associar algoritmos de construção de grafos a algoritmos de detecção de comunidades. Nesta, os grafos representam as relações entre os dados, enquanto os algoritmos de detecção de comunidade ficam encarregados de revelar grupos densamente conectados e identificar padrões ocultos. Diante disso, o objetivo deste estudo é realizar uma análise de algoritmos de construção de grafos combinada com a detecção de comunidades em conjuntos de dados com alta dimensionalidade. Foram utilizados conjuntos de dados sintéticos com a métrica de avaliação principal sendo o índice externo denominado Informação Mútua Normalizada (NMI). Além disso, foram avaliados conjuntos de dados com diferentes quantidades de atributos, grupos, amostras e sobreposição, com o propósito de observar os efeitos da dimensionalidade nos resultados obtidos. Os algoritmos de agrupamento tradicionais K-means e Agglomerative Clustering foram considerados como baseline para a comparação do desempenho dos demais. Os resultados apontaram que algoritmos de construção de grafos associados aos algoritmos de detecção de comunidade são uma alternativa viável e apresentam até mesmo resultados melhores em alguns casos que os algoritmos de agrupamento tradicionais para conjuntos de dados com alta dimensionalidade.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessAprendizado da áquinaAlgoritmos de agrupamentoConstrução de grafosDetecção de comunidadeMaldição da dimensionalidadeMachine learningGraph constructionClustering algorithmsCommunity detectionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAnálise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidadeAnalysis of graph construction algorithms in high-dimensional datasetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis60060026707d32-df20-4d5f-8bcc-e78dbb278b98reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8913https://repositorio.ufscar.br/bitstream/ufscar/18517/2/license_rdf3185b4de2190c2d366d1d324db01f8b8MD52ORIGINALTCC_Vitor_Freitas_Xavier_Soares.pdfTCC_Vitor_Freitas_Xavier_Soares.pdfTCC_Vitor_Freitas_Xavier_Soaresapplication/pdf3090763https://repositorio.ufscar.br/bitstream/ufscar/18517/1/TCC_Vitor_Freitas_Xavier_Soares.pdf583cf2f20981eb9388fa78fe1ab9764fMD51TEXTTCC_Vitor_Freitas_Xavier_Soares.pdf.txtTCC_Vitor_Freitas_Xavier_Soares.pdf.txtExtracted texttext/plain84428https://repositorio.ufscar.br/bitstream/ufscar/18517/3/TCC_Vitor_Freitas_Xavier_Soares.pdf.txt8b848bfc66a5655d15cc47514533b094MD53ufscar/185172024-05-14 18:31:28.464oai:repositorio.ufscar.br:ufscar/18517Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T18:31:28Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
dc.title.alternative.eng.fl_str_mv Analysis of graph construction algorithms in high-dimensional datasets
title Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
spellingShingle Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
Soares, Vitor Freitas Xavier
Aprendizado da áquina
Algoritmos de agrupamento
Construção de grafos
Detecção de comunidade
Maldição da dimensionalidade
Machine learning
Graph construction
Clustering algorithms
Community detection
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
title_full Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
title_fullStr Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
title_full_unstemmed Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
title_sort Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
author Soares, Vitor Freitas Xavier
author_facet Soares, Vitor Freitas Xavier
author_role author
dc.contributor.authorlattes.por.fl_str_mv http://lattes.cnpq.br/1871335822766399
dc.contributor.author.fl_str_mv Soares, Vitor Freitas Xavier
dc.contributor.advisor1.fl_str_mv Valejo, Alan Demétrius Baria
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9546164790189830
dc.contributor.authorID.fl_str_mv 38c07804-b4b0-4e7c-b0fd-724b0186a8e5
contributor_str_mv Valejo, Alan Demétrius Baria
dc.subject.por.fl_str_mv Aprendizado da áquina
Algoritmos de agrupamento
Construção de grafos
Detecção de comunidade
Maldição da dimensionalidade
topic Aprendizado da áquina
Algoritmos de agrupamento
Construção de grafos
Detecção de comunidade
Maldição da dimensionalidade
Machine learning
Graph construction
Clustering algorithms
Community detection
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.eng.fl_str_mv Machine learning
Graph construction
Clustering algorithms
Community detection
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-09-05T18:35:56Z
dc.date.available.fl_str_mv 2023-09-05T18:35:56Z
dc.date.issued.fl_str_mv 2023-08-28
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/18517
identifier_str_mv SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517.
url https://repositorio.ufscar.br/handle/ufscar/18517
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 26707d32-df20-4d5f-8bcc-e78dbb278b98
dc.rights.driver.fl_str_mv Attribution 3.0 Brazil
http://creativecommons.org/licenses/by/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution 3.0 Brazil
http://creativecommons.org/licenses/by/3.0/br/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/18517/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/18517/1/TCC_Vitor_Freitas_Xavier_Soares.pdf
https://repositorio.ufscar.br/bitstream/ufscar/18517/3/TCC_Vitor_Freitas_Xavier_Soares.pdf.txt
bitstream.checksum.fl_str_mv 3185b4de2190c2d366d1d324db01f8b8
583cf2f20981eb9388fa78fe1ab9764f
8b848bfc66a5655d15cc47514533b094
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136426577395712