Dimension reduction in projective clustering

Detalhes bibliográficos
Autor(a) principal: Lima, Rafael Zuolo Coppini
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da USP
Texto Completo: https://www.teses.usp.br/teses/disponiveis/45/45134/tde-02092022-150552/
Resumo: The high dimensionality of data may be a barrier to algorithmic efficiency (Nelson, 2020), mainly because of the well known curse of dimensionality which imposes exponential time and/or memory complexity for algorithms, such as the nearest neighbour problem (Har-Peled, Indyk, and Motwani, 2012). It is natural then to search for ways to break the curse by relaxing the problem with approximate versions and by finding good ways to reduce the dimension of data. Our objective is to write a dissertation about a dimension reduction scheme for clustering under 2 2 metric, with a focus on an approximation scheme for a particular case of this problem, called projective clustering. The dimension reduction is achieved by combining randomized techniques, such as the Johnson and Lindenstrauss Lemma, and deterministic techniques, such as the singular value decomposition. The result is an (1 + )-approximation for projective clustering that is polynomial in the number of data points and the dimension of the space. This dissertation will have as main references four papers: Sarlós, 2006, Feldman, Schmidt, and Sohler, 2020, Pratap and Sen, 2018 and Deshpande, Rademacher, Vempala, and Wang, 2006. The results presented in the dissertation will be either the original or modified versions that incorporate current improvements.
id USP_cc3c5c558b76c6709f1d020b81db1505
oai_identifier_str oai:teses.usp.br:tde-02092022-150552
network_acronym_str USP
network_name_str Biblioteca Digital de Teses e Dissertações da USP
repository_id_str 2721
spelling Dimension reduction in projective clusteringRedução de dimensão para agrupamento projetivoAgrupamento projetivoApproximationAproximaçãoClusteringClusteringDecomposição em valores singularesDimension reductionJohnson-Lindenstrauss lemmaLema de Johnson e LindenstraussProjective clusteringRedução de dimensãoSingular value decompositionThe high dimensionality of data may be a barrier to algorithmic efficiency (Nelson, 2020), mainly because of the well known curse of dimensionality which imposes exponential time and/or memory complexity for algorithms, such as the nearest neighbour problem (Har-Peled, Indyk, and Motwani, 2012). It is natural then to search for ways to break the curse by relaxing the problem with approximate versions and by finding good ways to reduce the dimension of data. Our objective is to write a dissertation about a dimension reduction scheme for clustering under 2 2 metric, with a focus on an approximation scheme for a particular case of this problem, called projective clustering. The dimension reduction is achieved by combining randomized techniques, such as the Johnson and Lindenstrauss Lemma, and deterministic techniques, such as the singular value decomposition. The result is an (1 + )-approximation for projective clustering that is polynomial in the number of data points and the dimension of the space. This dissertation will have as main references four papers: Sarlós, 2006, Feldman, Schmidt, and Sohler, 2020, Pratap and Sen, 2018 and Deshpande, Rademacher, Vempala, and Wang, 2006. The results presented in the dissertation will be either the original or modified versions that incorporate current improvements.A dimensão dos dados pode ser uma barreira para a eficiência de algoritmos (Nelson, 2020) principal- mente em razão da chamada maldição da dimensão, que impõe dependências exponenciais na dimensão para a complexidade de tempo e/ou espaço dos algoritmos para alguns problemas. Este é o caso, por exemplo, do problema do vizinho mais próximo (Har-Peled, Indyk e Motwani, 2012). É natural então estudar aproximações de soluções dos problemas e formas de reduzir a dimensão das instâncias para tentar quebrar essa maldição. Nosso objetivo é escrever uma dissertação sobre um esquema de redução de dimensão para clustering (agrupamento) sob a métrica 2 2, pondo foco em um esquema de aproximação para um caso particular do problema anterior, chamado projective clustering (agrupamento projetivo). A redução de dimensão é feita combinando técnicas aleatorizadas, como o Lema de Johnson e Lindenstrauss, e determinísticas, como a decomposição em valores singulares. Obtém-se uma (1 + )-aproximação para o problema do agrupamento projetivo, polinomial no número de pontos e na dimensão. Esta dissertação terá como referências principais quatro artigos: Sarlós, 2006, Feldman, Schmidt e Sohler, 2020, Pratap e Sen, 2018 e Deshpande, Rade- macher, Vempala e Wang, 2006. Os resultados apresentados na dissertação serão ou os originais ou versões modificadas, incorporando aprimoramentos recentes.Biblioteca Digitais de Teses e Dissertações da USPKohayakawa, YoshiharuLima, Rafael Zuolo Coppini2022-06-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/45/45134/tde-02092022-150552/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesseng2022-09-02T21:00:10Zoai:teses.usp.br:tde-02092022-150552Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212022-09-02T21:00:10Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false
dc.title.none.fl_str_mv Dimension reduction in projective clustering
Redução de dimensão para agrupamento projetivo
title Dimension reduction in projective clustering
spellingShingle Dimension reduction in projective clustering
Lima, Rafael Zuolo Coppini
Agrupamento projetivo
Approximation
Aproximação
Clustering
Clustering
Decomposição em valores singulares
Dimension reduction
Johnson-Lindenstrauss lemma
Lema de Johnson e Lindenstrauss
Projective clustering
Redução de dimensão
Singular value decomposition
title_short Dimension reduction in projective clustering
title_full Dimension reduction in projective clustering
title_fullStr Dimension reduction in projective clustering
title_full_unstemmed Dimension reduction in projective clustering
title_sort Dimension reduction in projective clustering
author Lima, Rafael Zuolo Coppini
author_facet Lima, Rafael Zuolo Coppini
author_role author
dc.contributor.none.fl_str_mv Kohayakawa, Yoshiharu
dc.contributor.author.fl_str_mv Lima, Rafael Zuolo Coppini
dc.subject.por.fl_str_mv Agrupamento projetivo
Approximation
Aproximação
Clustering
Clustering
Decomposição em valores singulares
Dimension reduction
Johnson-Lindenstrauss lemma
Lema de Johnson e Lindenstrauss
Projective clustering
Redução de dimensão
Singular value decomposition
topic Agrupamento projetivo
Approximation
Aproximação
Clustering
Clustering
Decomposição em valores singulares
Dimension reduction
Johnson-Lindenstrauss lemma
Lema de Johnson e Lindenstrauss
Projective clustering
Redução de dimensão
Singular value decomposition
description The high dimensionality of data may be a barrier to algorithmic efficiency (Nelson, 2020), mainly because of the well known curse of dimensionality which imposes exponential time and/or memory complexity for algorithms, such as the nearest neighbour problem (Har-Peled, Indyk, and Motwani, 2012). It is natural then to search for ways to break the curse by relaxing the problem with approximate versions and by finding good ways to reduce the dimension of data. Our objective is to write a dissertation about a dimension reduction scheme for clustering under 2 2 metric, with a focus on an approximation scheme for a particular case of this problem, called projective clustering. The dimension reduction is achieved by combining randomized techniques, such as the Johnson and Lindenstrauss Lemma, and deterministic techniques, such as the singular value decomposition. The result is an (1 + )-approximation for projective clustering that is polynomial in the number of data points and the dimension of the space. This dissertation will have as main references four papers: Sarlós, 2006, Feldman, Schmidt, and Sohler, 2020, Pratap and Sen, 2018 and Deshpande, Rademacher, Vempala, and Wang, 2006. The results presented in the dissertation will be either the original or modified versions that incorporate current improvements.
publishDate 2022
dc.date.none.fl_str_mv 2022-06-22
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://www.teses.usp.br/teses/disponiveis/45/45134/tde-02092022-150552/
url https://www.teses.usp.br/teses/disponiveis/45/45134/tde-02092022-150552/
dc.language.iso.fl_str_mv eng
language eng
dc.relation.none.fl_str_mv
dc.rights.driver.fl_str_mv Liberar o conteúdo para acesso público.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Liberar o conteúdo para acesso público.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.coverage.none.fl_str_mv
dc.publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
publisher.none.fl_str_mv Biblioteca Digitais de Teses e Dissertações da USP
dc.source.none.fl_str_mv
reponame:Biblioteca Digital de Teses e Dissertações da USP
instname:Universidade de São Paulo (USP)
instacron:USP
instname_str Universidade de São Paulo (USP)
instacron_str USP
institution USP
reponame_str Biblioteca Digital de Teses e Dissertações da USP
collection Biblioteca Digital de Teses e Dissertações da USP
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)
repository.mail.fl_str_mv virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br
_version_ 1815256617189376000