Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFSCAR |
Texto Completo: | https://repositorio.ufscar.br/handle/ufscar/18517 |
Resumo: | The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets. |
id |
SCAR_9ba0317563773d59a466291df9453fa8 |
---|---|
oai_identifier_str |
oai:repositorio.ufscar.br:ufscar/18517 |
network_acronym_str |
SCAR |
network_name_str |
Repositório Institucional da UFSCAR |
repository_id_str |
4322 |
spelling |
Soares, Vitor Freitas XavierValejo, Alan Demétrius Bariahttp://lattes.cnpq.br/9546164790189830http://lattes.cnpq.br/187133582276639938c07804-b4b0-4e7c-b0fd-724b0186a8e52023-09-05T18:35:56Z2023-09-05T18:35:56Z2023-08-28SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517.https://repositorio.ufscar.br/handle/ufscar/18517The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets.O rápido desenvolvimento e adoção de tecnologias de informação, como a internet, resultou em uma explosão na geração de dados, aumentando significativamente o volume de novas instâncias com diversos atributos. A vasta quantidade de atributos existentes em determinados conjuntos de dados não implica necessariamente em uma melhor performance, visto que o desempenho dos algoritmos diminui à medida que atributos são adicionados excessivamente (Maldição da Dimensionalidade). Assim, para analisar tais dados, no campo do aprendizado de máquina, os algoritmos de agrupamento tradicionais desempenham um papel crucial, segmentando-os com base em semelhanças. Uma abordagem mais recente é associar algoritmos de construção de grafos a algoritmos de detecção de comunidades. Nesta, os grafos representam as relações entre os dados, enquanto os algoritmos de detecção de comunidade ficam encarregados de revelar grupos densamente conectados e identificar padrões ocultos. Diante disso, o objetivo deste estudo é realizar uma análise de algoritmos de construção de grafos combinada com a detecção de comunidades em conjuntos de dados com alta dimensionalidade. Foram utilizados conjuntos de dados sintéticos com a métrica de avaliação principal sendo o índice externo denominado Informação Mútua Normalizada (NMI). Além disso, foram avaliados conjuntos de dados com diferentes quantidades de atributos, grupos, amostras e sobreposição, com o propósito de observar os efeitos da dimensionalidade nos resultados obtidos. Os algoritmos de agrupamento tradicionais K-means e Agglomerative Clustering foram considerados como baseline para a comparação do desempenho dos demais. Os resultados apontaram que algoritmos de construção de grafos associados aos algoritmos de detecção de comunidade são uma alternativa viável e apresentam até mesmo resultados melhores em alguns casos que os algoritmos de agrupamento tradicionais para conjuntos de dados com alta dimensionalidade.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarAttribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessAprendizado da áquinaAlgoritmos de agrupamentoConstrução de grafosDetecção de comunidadeMaldição da dimensionalidadeMachine learningGraph constructionClustering algorithmsCommunity detectionCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAnálise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidadeAnalysis of graph construction algorithms in high-dimensional datasetsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis60060026707d32-df20-4d5f-8bcc-e78dbb278b98reponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8913https://repositorio.ufscar.br/bitstream/ufscar/18517/2/license_rdf3185b4de2190c2d366d1d324db01f8b8MD52ORIGINALTCC_Vitor_Freitas_Xavier_Soares.pdfTCC_Vitor_Freitas_Xavier_Soares.pdfTCC_Vitor_Freitas_Xavier_Soaresapplication/pdf3090763https://repositorio.ufscar.br/bitstream/ufscar/18517/1/TCC_Vitor_Freitas_Xavier_Soares.pdf583cf2f20981eb9388fa78fe1ab9764fMD51TEXTTCC_Vitor_Freitas_Xavier_Soares.pdf.txtTCC_Vitor_Freitas_Xavier_Soares.pdf.txtExtracted texttext/plain84428https://repositorio.ufscar.br/bitstream/ufscar/18517/3/TCC_Vitor_Freitas_Xavier_Soares.pdf.txt8b848bfc66a5655d15cc47514533b094MD53ufscar/185172024-05-14 18:31:28.464oai:repositorio.ufscar.br:ufscar/18517Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222024-05-14T18:31:28Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false |
dc.title.por.fl_str_mv |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
dc.title.alternative.eng.fl_str_mv |
Analysis of graph construction algorithms in high-dimensional datasets |
title |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
spellingShingle |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade Soares, Vitor Freitas Xavier Aprendizado da áquina Algoritmos de agrupamento Construção de grafos Detecção de comunidade Maldição da dimensionalidade Machine learning Graph construction Clustering algorithms Community detection CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
title_short |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
title_full |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
title_fullStr |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
title_full_unstemmed |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
title_sort |
Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade |
author |
Soares, Vitor Freitas Xavier |
author_facet |
Soares, Vitor Freitas Xavier |
author_role |
author |
dc.contributor.authorlattes.por.fl_str_mv |
http://lattes.cnpq.br/1871335822766399 |
dc.contributor.author.fl_str_mv |
Soares, Vitor Freitas Xavier |
dc.contributor.advisor1.fl_str_mv |
Valejo, Alan Demétrius Baria |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/9546164790189830 |
dc.contributor.authorID.fl_str_mv |
38c07804-b4b0-4e7c-b0fd-724b0186a8e5 |
contributor_str_mv |
Valejo, Alan Demétrius Baria |
dc.subject.por.fl_str_mv |
Aprendizado da áquina Algoritmos de agrupamento Construção de grafos Detecção de comunidade Maldição da dimensionalidade |
topic |
Aprendizado da áquina Algoritmos de agrupamento Construção de grafos Detecção de comunidade Maldição da dimensionalidade Machine learning Graph construction Clustering algorithms Community detection CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Machine learning Graph construction Clustering algorithms Community detection |
dc.subject.cnpq.fl_str_mv |
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO |
description |
The rapid development and adoption of information technologies, such as the internet, have resulted in an explosion in data generation, significantly increasing the volume of new instances with various attributes. The vast number of attributes present in certain datasets does not necessarily imply better performance, as algorithm performance decreases as attributes are excessively added (Curse of Dimensionality). Therefore, in the field of machine learning, traditional clustering algorithms play a crucial role in analyzing such data by segmenting it based on similarities. A more recent approach involves associating graph construction algorithms with community detection algorithms. In this approach, graphs represent the relationships between the data, while community detection algorithms are responsible for revealing densely connected groups and identifying hidden patterns. In light of this, the aim of this study is to perform an analysis of graph construction algorithms combined with community detection on high-dimensional datasets. Synthetic datasets were used, with the primary evaluation metric being the normalized mutual information index (NMI). Additionally, datasets with different numbers of attributes, groups, samples, and overlap were evaluated to observe the effects of dimensionality on the results. Traditional clustering algorithms, such as K-means and Agglomerative Clustering, were considered as baselines for comparing the performance of others. The results indicated that graph construction algorithms combined with community detection algorithms are a viable alternative and even yield better results in some cases than traditional clustering algorithms for high-dimensional datasets. |
publishDate |
2023 |
dc.date.accessioned.fl_str_mv |
2023-09-05T18:35:56Z |
dc.date.available.fl_str_mv |
2023-09-05T18:35:56Z |
dc.date.issued.fl_str_mv |
2023-08-28 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufscar.br/handle/ufscar/18517 |
identifier_str_mv |
SOARES, Vitor Freitas Xavier. Análise de algoritmos de construção de grafos em conjuntos de dados de alta dimensionalidade. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/18517. |
url |
https://repositorio.ufscar.br/handle/ufscar/18517 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.confidence.fl_str_mv |
600 600 |
dc.relation.authority.fl_str_mv |
26707d32-df20-4d5f-8bcc-e78dbb278b98 |
dc.rights.driver.fl_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Engenharia de Computação - EC |
dc.publisher.initials.fl_str_mv |
UFSCar |
publisher.none.fl_str_mv |
Universidade Federal de São Carlos Câmpus São Carlos Engenharia de Computação - EC |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFSCAR instname:Universidade Federal de São Carlos (UFSCAR) instacron:UFSCAR |
instname_str |
Universidade Federal de São Carlos (UFSCAR) |
instacron_str |
UFSCAR |
institution |
UFSCAR |
reponame_str |
Repositório Institucional da UFSCAR |
collection |
Repositório Institucional da UFSCAR |
bitstream.url.fl_str_mv |
https://repositorio.ufscar.br/bitstream/ufscar/18517/2/license_rdf https://repositorio.ufscar.br/bitstream/ufscar/18517/1/TCC_Vitor_Freitas_Xavier_Soares.pdf https://repositorio.ufscar.br/bitstream/ufscar/18517/3/TCC_Vitor_Freitas_Xavier_Soares.pdf.txt |
bitstream.checksum.fl_str_mv |
3185b4de2190c2d366d1d324db01f8b8 583cf2f20981eb9388fa78fe1ab9764f 8b848bfc66a5655d15cc47514533b094 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR) |
repository.mail.fl_str_mv |
|
_version_ |
1802136426577395712 |