Indexação multimídia escalável e busca por similaridade em alta dimensionalidade

Detalhes bibliográficos
Autor(a) principal: Akune, Fernando Cesar, 1976-
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
Texto Completo: https://hdl.handle.net/20.500.12733/1616524
Resumo: Orientador: Ricardo da Silva Torres
id UNICAMP-30_e8a107a9e113a2948a9b3e55886b3475
oai_identifier_str oai::836613
network_acronym_str UNICAMP-30
network_name_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository_id_str
spelling Indexação multimídia escalável e busca por similaridade em alta dimensionalidadeScalable multimedia indexing and similarity search in high dimensionalityIndexaçãoEstruturas de dados (Computação)Banco de dadosSistemas multimídiaIndexingData structures (Computing)DatabaseMultimedia systemsOrientador: Ricardo da Silva TorresDissertação (mestrado) - Universidade Estadual de Campinas, Instituto de ComputaçãoResumo: A disseminação de grandes coleções de arquivos de imagens, músicas e vídeos tem aumentado a demanda por métodos de indexação e sistemas de recuperação de informações multimídia. No caso de imagens, os sistemas de busca mais promissores são os sistemas baseados no conteúdo, que ao invés de usarem descrições textuais, utilizam vetores de características, que são representações de propriedades visuais, como cor, textura e forma. O emparelhamento dos vetores de características da imagem de consulta e das imagens de uma base de dados é implementado através da busca por similaridade. A sua forma mais comum é a busca pelos k vizinhos mais próximos, ou seja, encontrar os k vetores mais próximos ao vetor da consulta. Em grandes bases de imagens, um índice é indispensável para acelerar essas consultas. O problema é que os vetores de características podem ter muitas dimensões, o que afeta gravemente o desempenho dos métodos de indexação. Acima de 10 dimensões, geralmente é preciso recorrer aos métodos aproximados, sacrificando a eficácia em troca da rapidez. Dentre as diversas soluções propostas, existe uma abordagem baseada em curvas fractais chamadas curvas de preenchimento do espaço. Essas curvas permitem mapear pontos de um espaço multidimensional em uma única dimensão, de maneira que os pontos próximos na curva correspondam a pontos próximos no espaço. O grande problema dessa alternativa é a existência de regiões de descontinuidade nas curvas, pontos próximos dessas regiões não são mapeados próximos na curva. A principal contribuição deste trabalho é um método de indexação de vetores de características de alta dimensionalidade, que utiliza uma curva de preenchimento do espaço e múltiplos representantes para os dados. Esse método, chamado MONORAIL, gera os representantes explorando as propriedades geométricas da curva. Isso resulta em um ganho na eficácia da busca por similaridade, quando comparado com o método de referência. Outra contribuição não trivial deste trabalho é o rigor experimental usado nas comparações: os experimentos foram cuidadosamente projetados para garantir resultados estatisticamente significativos. A escalabilidade do MONORAIL é testada com três bases de dados de tamanhos diferentes, a maior delas com mais de 130 milhões de vetoresAbstract: The spread of large collections of images, videos and music has increased the demand for indexing methods and multimedia information retrieval systems. For images, the most promising search engines are content-based, which instead of using textual annotations, use feature vectors to represent visual properties such as color, texture, and shape. The matching of feature vectors of query image and database images is implemented by similarity search. Its most common form is the k nearest neighbors search, which aims to find the k closest vectors to the query vector. In large image databases, an index structure is essential to speed up those queries. The problem is that the feature vectors may have many dimensions, which seriously affects the performance of indexing methods. For more than 10 dimensions, it is often necessary to use approximate methods to trade-off effectiveness for speed. Among the several solutions proposed, there is an approach based on fractal curves known as space-filling curves. Those curves allow the mapping of a multidimensional space onto a single dimension, so that points near on the curve correspond to points near on the space. The great problem with that alternative is the existence of discontinuity regions on the curves, where points near on those regions are not mapped near on the curve. The main contribution of this dissertation is an indexing method for high-dimensional feature vectors, using a single space-filling curve and multiple surrogates for each data point. That method, called MONORAIL, generates surrogates by exploiting the geometric properties of the curve. The result is a gain in terms of effectiveness of similarity search, when compared to the baseline method. Another non-trivial contribution of this work is the rigorous experimental design used for the comparisons. The experiments were carefully designed to ensure statistically sound results. The scalability of the MONORAIL is tested with three databases of different sizes, the largest one with more than 130 million vectorsMestradoCiência da ComputaçãoMestre em Ciência da Computação[s.n.]Torres, Ricardo da Silva, 1977-Traina Junior, CaetanoBorin, EdsonUniversidade Estadual de Campinas (UNICAMP). Instituto de ComputaçãoPrograma de Pós-Graduação em Ciência da ComputaçãoUNIVERSIDADE ESTADUAL DE CAMPINASAkune, Fernando Cesar, 1976-20112011-01-08T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdf72 f. : il.https://hdl.handle.net/20.500.12733/1616524AKUNE, Fernando Cesar. Indexação multimídia escalável e busca por similaridade em alta dimensionalidade. 2011. 72 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616524. Acesso em: 3 set. 2024.https://repositorio.unicamp.br/acervo/detalhe/836613porreponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)instname:Universidade Estadual de Campinas (UNICAMP)instacron:UNICAMPinfo:eu-repo/semantics/openAccess2017-02-18T06:26:20Zoai::836613Biblioteca Digital de Teses e DissertaçõesPUBhttp://repositorio.unicamp.br/oai/tese/oai.aspsbubd@unicamp.bropendoar:2017-02-18T06:26:20Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)false
dc.title.none.fl_str_mv Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
Scalable multimedia indexing and similarity search in high dimensionality
title Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
spellingShingle Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
Akune, Fernando Cesar, 1976-
Indexação
Estruturas de dados (Computação)
Banco de dados
Sistemas multimídia
Indexing
Data structures (Computing)
Database
Multimedia systems
title_short Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
title_full Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
title_fullStr Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
title_full_unstemmed Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
title_sort Indexação multimídia escalável e busca por similaridade em alta dimensionalidade
author Akune, Fernando Cesar, 1976-
author_facet Akune, Fernando Cesar, 1976-
author_role author
dc.contributor.none.fl_str_mv Torres, Ricardo da Silva, 1977-
Traina Junior, Caetano
Borin, Edson
Universidade Estadual de Campinas (UNICAMP). Instituto de Computação
Programa de Pós-Graduação em Ciência da Computação
UNIVERSIDADE ESTADUAL DE CAMPINAS
dc.contributor.author.fl_str_mv Akune, Fernando Cesar, 1976-
dc.subject.por.fl_str_mv Indexação
Estruturas de dados (Computação)
Banco de dados
Sistemas multimídia
Indexing
Data structures (Computing)
Database
Multimedia systems
topic Indexação
Estruturas de dados (Computação)
Banco de dados
Sistemas multimídia
Indexing
Data structures (Computing)
Database
Multimedia systems
description Orientador: Ricardo da Silva Torres
publishDate 2011
dc.date.none.fl_str_mv 2011
2011-01-08T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/20.500.12733/1616524
AKUNE, Fernando Cesar. Indexação multimídia escalável e busca por similaridade em alta dimensionalidade. 2011. 72 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616524. Acesso em: 3 set. 2024.
url https://hdl.handle.net/20.500.12733/1616524
identifier_str_mv AKUNE, Fernando Cesar. Indexação multimídia escalável e busca por similaridade em alta dimensionalidade. 2011. 72 f. Dissertação (mestrado) - Universidade Estadual de Campinas, Instituto de Computação, Campinas, SP. Disponível em: https://hdl.handle.net/20.500.12733/1616524. Acesso em: 3 set. 2024.
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv https://repositorio.unicamp.br/acervo/detalhe/836613
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
72 f. : il.
dc.publisher.none.fl_str_mv [s.n.]
publisher.none.fl_str_mv [s.n.]
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
instname:Universidade Estadual de Campinas (UNICAMP)
instacron:UNICAMP
instname_str Universidade Estadual de Campinas (UNICAMP)
instacron_str UNICAMP
institution UNICAMP
reponame_str Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
collection Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP)
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da Universidade Estadual de Campinas (UNICAMP) - Universidade Estadual de Campinas (UNICAMP)
repository.mail.fl_str_mv sbubd@unicamp.br
_version_ 1809189064809644032