[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE
Autor(a) principal: | |
---|---|
Data de Publicação: | 2018 |
Tipo de documento: | Outros |
Idioma: | eng |
Título da fonte: | Repositório Institucional da PUC-RIO (Projeto Maxwell) |
Texto Completo: | https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@2 http://doi.org/10.17771/PUCRio.acad.33305 |
Resumo: | [pt] Em uma série de aplicações, os pontos de dados podem ser representados como distribuições de probabilidade. Por exemplo, os documentos podem ser representados como modelos de tópicos, as imagens podem ser representadas como histogramas e também a música pode ser representada como uma distribuição de probabilidade. Neste trabalho, abordamos o problema do Vizinho Próximo Aproximado onde os pontos são distribuições de probabilidade e a função de distância é a divergência de Kullback-Leibler (KL). Mostramos como acelerar as estruturas de dados existentes, como a Bregman Ball Tree, em teoria, colocando a divergência KL como um produto interno. No lado prático, investigamos o uso de duas técnicas de indexação muito populares: Índice Invertido e Locality Sensitive Hashing. Os experimentos realizados em 6 conjuntos de dados do mundo real mostraram que o Índice Invertido é melhor do que LSH e Bregman Ball Tree, em termos de consultas por segundo e precisão. |
id |
PUC_RIO-1_8f247d4928c200674f8c5322edb253c1 |
---|---|
oai_identifier_str |
oai:MAXWELL.puc-rio.br:33305 |
network_acronym_str |
PUC_RIO-1 |
network_name_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository_id_str |
534 |
spelling |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE [pt] BUSCA APROXIMADA DE VIZINHOS MAIS PRÓXIMOS PARA DIVERGÊNCIA DE KULLBACK-LEIBLER [pt] DIVERGENCIA KULLBACK-LEIBER[pt] ARVORES DE BREGMAN[pt] HASH SENSIVEL A LOCALIDADE[pt] INDICES INVERTIDOS[pt] BUSCA DE VIZINHOS MAIS PROXIMOS[en] KULLBACK-LEIBLER DIVERGENCE[en] BREGMAN BALL TREE[en] LOCALITY SENSITIVE HASHING[en] INVERTED INDEX[en] NEAREST NEIGHBOR SEARCH[pt] Em uma série de aplicações, os pontos de dados podem ser representados como distribuições de probabilidade. Por exemplo, os documentos podem ser representados como modelos de tópicos, as imagens podem ser representadas como histogramas e também a música pode ser representada como uma distribuição de probabilidade. Neste trabalho, abordamos o problema do Vizinho Próximo Aproximado onde os pontos são distribuições de probabilidade e a função de distância é a divergência de Kullback-Leibler (KL). Mostramos como acelerar as estruturas de dados existentes, como a Bregman Ball Tree, em teoria, colocando a divergência KL como um produto interno. No lado prático, investigamos o uso de duas técnicas de indexação muito populares: Índice Invertido e Locality Sensitive Hashing. Os experimentos realizados em 6 conjuntos de dados do mundo real mostraram que o Índice Invertido é melhor do que LSH e Bregman Ball Tree, em termos de consultas por segundo e precisão.[en] In a number of applications, data points can be represented as probability distributions. For instance, documents can be represented as topic models, images can be represented as histograms and also music can be represented as a probability distribution. In this work, we address the problem of the Approximate Nearest Neighbor where the points are probability distributions and the distance function is the Kullback-Leibler (KL) divergence. We show how to accelerate existing data structures such as the Bregman Ball Tree, by posing the KL divergence as an inner product embedding. On the practical side we investigated the use of two, very popular, indexing techniques: Inverted Index and Locality Sensitive Hashing. Experiments performed on 6 real world data-sets showed the Inverted Index performs better than LSH and Bregman Ball Tree, in terms of queries per second and precision.MAXWELLEDUARDO SANY LABEREDUARDO SANY LABERDANIEL ALEJANDRO MESEJO-LEON2018-03-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/otherhttps://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@1https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@2http://doi.org/10.17771/PUCRio.acad.33305engreponame:Repositório Institucional da PUC-RIO (Projeto Maxwell)instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)instacron:PUC_RIOinfo:eu-repo/semantics/openAccess2021-02-08T00:00:00Zoai:MAXWELL.puc-rio.br:33305Repositório InstitucionalPRIhttps://www.maxwell.vrac.puc-rio.br/ibict.phpopendoar:5342021-02-08T00:00Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO)false |
dc.title.none.fl_str_mv |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE [pt] BUSCA APROXIMADA DE VIZINHOS MAIS PRÓXIMOS PARA DIVERGÊNCIA DE KULLBACK-LEIBLER |
title |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE |
spellingShingle |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE DANIEL ALEJANDRO MESEJO-LEON [pt] DIVERGENCIA KULLBACK-LEIBER [pt] ARVORES DE BREGMAN [pt] HASH SENSIVEL A LOCALIDADE [pt] INDICES INVERTIDOS [pt] BUSCA DE VIZINHOS MAIS PROXIMOS [en] KULLBACK-LEIBLER DIVERGENCE [en] BREGMAN BALL TREE [en] LOCALITY SENSITIVE HASHING [en] INVERTED INDEX [en] NEAREST NEIGHBOR SEARCH |
title_short |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE |
title_full |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE |
title_fullStr |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE |
title_full_unstemmed |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE |
title_sort |
[en] APPROXIMATE NEAREST NEIGHBOR SEARCH FOR THE KULLBACK-LEIBLER DIVERGENCE |
author |
DANIEL ALEJANDRO MESEJO-LEON |
author_facet |
DANIEL ALEJANDRO MESEJO-LEON |
author_role |
author |
dc.contributor.none.fl_str_mv |
EDUARDO SANY LABER EDUARDO SANY LABER |
dc.contributor.author.fl_str_mv |
DANIEL ALEJANDRO MESEJO-LEON |
dc.subject.por.fl_str_mv |
[pt] DIVERGENCIA KULLBACK-LEIBER [pt] ARVORES DE BREGMAN [pt] HASH SENSIVEL A LOCALIDADE [pt] INDICES INVERTIDOS [pt] BUSCA DE VIZINHOS MAIS PROXIMOS [en] KULLBACK-LEIBLER DIVERGENCE [en] BREGMAN BALL TREE [en] LOCALITY SENSITIVE HASHING [en] INVERTED INDEX [en] NEAREST NEIGHBOR SEARCH |
topic |
[pt] DIVERGENCIA KULLBACK-LEIBER [pt] ARVORES DE BREGMAN [pt] HASH SENSIVEL A LOCALIDADE [pt] INDICES INVERTIDOS [pt] BUSCA DE VIZINHOS MAIS PROXIMOS [en] KULLBACK-LEIBLER DIVERGENCE [en] BREGMAN BALL TREE [en] LOCALITY SENSITIVE HASHING [en] INVERTED INDEX [en] NEAREST NEIGHBOR SEARCH |
description |
[pt] Em uma série de aplicações, os pontos de dados podem ser representados como distribuições de probabilidade. Por exemplo, os documentos podem ser representados como modelos de tópicos, as imagens podem ser representadas como histogramas e também a música pode ser representada como uma distribuição de probabilidade. Neste trabalho, abordamos o problema do Vizinho Próximo Aproximado onde os pontos são distribuições de probabilidade e a função de distância é a divergência de Kullback-Leibler (KL). Mostramos como acelerar as estruturas de dados existentes, como a Bregman Ball Tree, em teoria, colocando a divergência KL como um produto interno. No lado prático, investigamos o uso de duas técnicas de indexação muito populares: Índice Invertido e Locality Sensitive Hashing. Os experimentos realizados em 6 conjuntos de dados do mundo real mostraram que o Índice Invertido é melhor do que LSH e Bregman Ball Tree, em termos de consultas por segundo e precisão. |
publishDate |
2018 |
dc.date.none.fl_str_mv |
2018-03-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/other |
format |
other |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@2 http://doi.org/10.17771/PUCRio.acad.33305 |
url |
https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@1 https://www.maxwell.vrac.puc-rio.br/colecao.php?strSecao=resultado&nrSeq=33305@2 http://doi.org/10.17771/PUCRio.acad.33305 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
MAXWELL |
publisher.none.fl_str_mv |
MAXWELL |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da PUC-RIO (Projeto Maxwell) instname:Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) instacron:PUC_RIO |
instname_str |
Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
instacron_str |
PUC_RIO |
institution |
PUC_RIO |
reponame_str |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
collection |
Repositório Institucional da PUC-RIO (Projeto Maxwell) |
repository.name.fl_str_mv |
Repositório Institucional da PUC-RIO (Projeto Maxwell) - Pontifícia Universidade Católica do Rio de Janeiro (PUC-RIO) |
repository.mail.fl_str_mv |
|
_version_ |
1814822606996504576 |