Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis

Detalhes bibliográficos
Autor(a) principal: Calixto, Ariel Semensato
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFSCAR
Texto Completo: https://repositorio.ufscar.br/handle/ufscar/17623
Resumo: Through many real-life applications, gathering information through real instruments subject to noise and imperfections tends to generate datasets where the number of observed variables and components easily exceeds a number of dimensions where manipulation, clustering and classification of said data into distinct sets based on their similarities becomes either difficult or computationally expensive. An efficient way to preemptively prepare this data for further processing and meaningful representation is dimensionality reduction, a process that transforms a dataset from a high-dimensional space to a low-dimensional space such as the low-dimensional space still retains relevant properties from the original dataset. This work proposes to evaluate the current state-of-the-art and establish, using performance criteria, comparisons between the frequently used dimensionality reduction used today and historically, with the main focus on UMAP, a method that seeks to prioritize the classification of data locally close by means of their characteristics. Results were obtained using different datasets with different properties, in order to obtain relevant metrics on the impact that each characteristic of these datasets has on the final results.
id SCAR_c5c6f0a03dbf4477e2f7a0ac23bbff9a
oai_identifier_str oai:repositorio.ufscar.br:ufscar/17623
network_acronym_str SCAR
network_name_str Repositório Institucional da UFSCAR
repository_id_str 4322
spelling Calixto, Ariel SemensatoLevada, Alexandre Luis Magalhãeshttp://lattes.cnpq.br/334144159639546314685910-1701-4d25-9e93-c111e991c0b22023-04-05T18:48:31Z2023-04-05T18:48:31Z2023-03-29CALIXTO, Ariel Semensato. Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17623.https://repositorio.ufscar.br/handle/ufscar/17623Through many real-life applications, gathering information through real instruments subject to noise and imperfections tends to generate datasets where the number of observed variables and components easily exceeds a number of dimensions where manipulation, clustering and classification of said data into distinct sets based on their similarities becomes either difficult or computationally expensive. An efficient way to preemptively prepare this data for further processing and meaningful representation is dimensionality reduction, a process that transforms a dataset from a high-dimensional space to a low-dimensional space such as the low-dimensional space still retains relevant properties from the original dataset. This work proposes to evaluate the current state-of-the-art and establish, using performance criteria, comparisons between the frequently used dimensionality reduction used today and historically, with the main focus on UMAP, a method that seeks to prioritize the classification of data locally close by means of their characteristics. Results were obtained using different datasets with different properties, in order to obtain relevant metrics on the impact that each characteristic of these datasets has on the final results.Em muitas aplicações reais, o levantamento de informações por meio de instrumentos reais, sujeitos à ruídos e imperfeições tende a gerar conjuntos de dados onde o número de variáveis e componentes observados facilmente excede um número de dimensões onde a manipulação, o agrupamento e a classificação desses dados em conjuntos distintos baseados em suas similaridades se tornam não intuitivos ou extremamente custosos computacionalmente. Uma forma eficiente de preparar esses dados de maneira preemptiva para futuros processamentos e representações significativas é a redução de dimensionalidade, um processo que transforma um conjunto de dados de um espaço de muitas dimensões para um espaço de poucas dimensões de forma que o espaço de poucas dimensões ainda possui propriedades relevantes do conjunto. Este trabalho propõe avaliar o atual estado da arte e estabelecer, utilizando critérios de desempenho, comparações entre os algoritmos de redução de dimensionalidade frequentemente utilizados atualmente e em um contexto histórico, com o foco principal no UMAP, um método que procura priorizar a classificação de conjuntos de dados localmente próximos por meio de suas características. Resultados foram obtidos utilizando diversos conjuntos de dados com propriedades diferentes, de forma a obter métricas relevantes sobre as influências que cada característica desses conjuntos possui nos resultados finais.Não recebi financiamentoporUniversidade Federal de São CarlosCâmpus São CarlosEngenharia de Computação - ECUFSCarCC0 1.0 Universalhttp://creativecommons.org/publicdomain/zero/1.0/info:eu-repo/semantics/openAccessRedução de dimensionalidadeClassificação de conjuntosAprendizado de máquinaPCAt-SNEUMAPCIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAOAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveisAnalysis and applications of the UMAP algorithm for classification and dimensionality reduction of datasets with multiple variablesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesis6006006723a356-5bff-485e-a528-0d69d171dd4freponame:Repositório Institucional da UFSCARinstname:Universidade Federal de São Carlos (UFSCAR)instacron:UFSCARCC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8700https://repositorio.ufscar.br/bitstream/ufscar/17623/2/license_rdf79da7ba44461b593b4f6afc1f09853c4MD52ORIGINALAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis.pdfAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis.pdfapplication/pdf1607897https://repositorio.ufscar.br/bitstream/ufscar/17623/1/An%c3%a1lise%20e%20aplica%c3%a7%c3%b5es%20do%20algoritmo%20UMAP%20para%20classifica%c3%a7%c3%a3o%20e%20redu%c3%a7%c3%a3o%20de%20dimensionalidade%20de%20conjuntos%20de%20dados%20com%20m%c3%baltiplas%20vari%c3%a1veis.pdf75dee12c7d1740b1448bf125cb5bfe0eMD51TEXTAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis.pdf.txtAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis.pdf.txtExtracted texttext/plain47373https://repositorio.ufscar.br/bitstream/ufscar/17623/3/An%c3%a1lise%20e%20aplica%c3%a7%c3%b5es%20do%20algoritmo%20UMAP%20para%20classifica%c3%a7%c3%a3o%20e%20redu%c3%a7%c3%a3o%20de%20dimensionalidade%20de%20conjuntos%20de%20dados%20com%20m%c3%baltiplas%20vari%c3%a1veis.pdf.txt03973c5a01eab884b3e1a558d12e122aMD53THUMBNAILAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis.pdf.jpgAnálise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis.pdf.jpgIM Thumbnailimage/jpeg6388https://repositorio.ufscar.br/bitstream/ufscar/17623/4/An%c3%a1lise%20e%20aplica%c3%a7%c3%b5es%20do%20algoritmo%20UMAP%20para%20classifica%c3%a7%c3%a3o%20e%20redu%c3%a7%c3%a3o%20de%20dimensionalidade%20de%20conjuntos%20de%20dados%20com%20m%c3%baltiplas%20vari%c3%a1veis.pdf.jpg306ea424703e6077c71148c0b5f9d6c0MD54ufscar/176232023-09-18 18:32:35.666oai:repositorio.ufscar.br:ufscar/17623Repositório InstitucionalPUBhttps://repositorio.ufscar.br/oai/requestopendoar:43222023-09-18T18:32:35Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)false
dc.title.por.fl_str_mv Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
dc.title.alternative.eng.fl_str_mv Analysis and applications of the UMAP algorithm for classification and dimensionality reduction of datasets with multiple variables
title Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
spellingShingle Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
Calixto, Ariel Semensato
Redução de dimensionalidade
Classificação de conjuntos
Aprendizado de máquina
PCA
t-SNE
UMAP
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
title_short Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
title_full Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
title_fullStr Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
title_full_unstemmed Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
title_sort Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis
author Calixto, Ariel Semensato
author_facet Calixto, Ariel Semensato
author_role author
dc.contributor.author.fl_str_mv Calixto, Ariel Semensato
dc.contributor.advisor1.fl_str_mv Levada, Alexandre Luis Magalhães
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3341441596395463
dc.contributor.authorID.fl_str_mv 14685910-1701-4d25-9e93-c111e991c0b2
contributor_str_mv Levada, Alexandre Luis Magalhães
dc.subject.por.fl_str_mv Redução de dimensionalidade
Classificação de conjuntos
Aprendizado de máquina
PCA
t-SNE
UMAP
topic Redução de dimensionalidade
Classificação de conjuntos
Aprendizado de máquina
PCA
t-SNE
UMAP
CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO
description Through many real-life applications, gathering information through real instruments subject to noise and imperfections tends to generate datasets where the number of observed variables and components easily exceeds a number of dimensions where manipulation, clustering and classification of said data into distinct sets based on their similarities becomes either difficult or computationally expensive. An efficient way to preemptively prepare this data for further processing and meaningful representation is dimensionality reduction, a process that transforms a dataset from a high-dimensional space to a low-dimensional space such as the low-dimensional space still retains relevant properties from the original dataset. This work proposes to evaluate the current state-of-the-art and establish, using performance criteria, comparisons between the frequently used dimensionality reduction used today and historically, with the main focus on UMAP, a method that seeks to prioritize the classification of data locally close by means of their characteristics. Results were obtained using different datasets with different properties, in order to obtain relevant metrics on the impact that each characteristic of these datasets has on the final results.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-04-05T18:48:31Z
dc.date.available.fl_str_mv 2023-04-05T18:48:31Z
dc.date.issued.fl_str_mv 2023-03-29
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv CALIXTO, Ariel Semensato. Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17623.
dc.identifier.uri.fl_str_mv https://repositorio.ufscar.br/handle/ufscar/17623
identifier_str_mv CALIXTO, Ariel Semensato. Análise e aplicações do algoritmo UMAP para classificação e redução de dimensionalidade de conjuntos de dados com múltiplas variáveis. 2023. Trabalho de Conclusão de Curso (Graduação em Engenharia de Computação) – Universidade Federal de São Carlos, São Carlos, 2023. Disponível em: https://repositorio.ufscar.br/handle/ufscar/17623.
url https://repositorio.ufscar.br/handle/ufscar/17623
dc.language.iso.fl_str_mv por
language por
dc.relation.confidence.fl_str_mv 600
600
dc.relation.authority.fl_str_mv 6723a356-5bff-485e-a528-0d69d171dd4f
dc.rights.driver.fl_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC0 1.0 Universal
http://creativecommons.org/publicdomain/zero/1.0/
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.publisher.initials.fl_str_mv UFSCar
publisher.none.fl_str_mv Universidade Federal de São Carlos
Câmpus São Carlos
Engenharia de Computação - EC
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSCAR
instname:Universidade Federal de São Carlos (UFSCAR)
instacron:UFSCAR
instname_str Universidade Federal de São Carlos (UFSCAR)
instacron_str UFSCAR
institution UFSCAR
reponame_str Repositório Institucional da UFSCAR
collection Repositório Institucional da UFSCAR
bitstream.url.fl_str_mv https://repositorio.ufscar.br/bitstream/ufscar/17623/2/license_rdf
https://repositorio.ufscar.br/bitstream/ufscar/17623/1/An%c3%a1lise%20e%20aplica%c3%a7%c3%b5es%20do%20algoritmo%20UMAP%20para%20classifica%c3%a7%c3%a3o%20e%20redu%c3%a7%c3%a3o%20de%20dimensionalidade%20de%20conjuntos%20de%20dados%20com%20m%c3%baltiplas%20vari%c3%a1veis.pdf
https://repositorio.ufscar.br/bitstream/ufscar/17623/3/An%c3%a1lise%20e%20aplica%c3%a7%c3%b5es%20do%20algoritmo%20UMAP%20para%20classifica%c3%a7%c3%a3o%20e%20redu%c3%a7%c3%a3o%20de%20dimensionalidade%20de%20conjuntos%20de%20dados%20com%20m%c3%baltiplas%20vari%c3%a1veis.pdf.txt
https://repositorio.ufscar.br/bitstream/ufscar/17623/4/An%c3%a1lise%20e%20aplica%c3%a7%c3%b5es%20do%20algoritmo%20UMAP%20para%20classifica%c3%a7%c3%a3o%20e%20redu%c3%a7%c3%a3o%20de%20dimensionalidade%20de%20conjuntos%20de%20dados%20com%20m%c3%baltiplas%20vari%c3%a1veis.pdf.jpg
bitstream.checksum.fl_str_mv 79da7ba44461b593b4f6afc1f09853c4
75dee12c7d1740b1448bf125cb5bfe0e
03973c5a01eab884b3e1a558d12e122a
306ea424703e6077c71148c0b5f9d6c0
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSCAR - Universidade Federal de São Carlos (UFSCAR)
repository.mail.fl_str_mv
_version_ 1802136419411427328