ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da USP |
Texto Completo: | https://www.teses.usp.br/teses/disponiveis/55/55134/tde-09022023-114906/ |
Resumo: | A complexidade dos dados aumenta conforme as aplicações vão evoluindo, sendo sempre necessário desenvolver novas técnicas para o seu armazenamento e recuperação. Neste sentido, as buscas por similaridade têm se mostrado uma das melhores formas de se comparar/recuperar dados complexos. Contudo, ao serem aplicados em grandes conjuntos de dados, os operadores fundamentais de busca por similaridade têm sua expressividade reduzida, e os elementos recuperados tendem a ser muito similares entre si. Para solucionar este problema, vários pesquisadores têm considerado a inclusão de diversidade nas buscas por similaridade. O objetivo deste tipo de busca é encontrar um conjunto de elementos que sejam similares ao elemento de consulta ao mesmo tempo que sejam o mais diversos possível entre si. Enquanto uma busca por similaridade pode ser feita de forma simples, uma busca por similaridade com diversidade tende a ser mais complexa, pois se torna necessário comparar os elementos da resposta entre si e, portanto executar um número maior de comparações, o que torna a busca mais lenta e custosa. Na literatura são encontradas abordagens que visam reduzir os custo dessas buscas, uma delas é a de selecionar elementos candidatos. Neste caso, ao invés de utilizar todos elementos do conjunto de dados, apenas uma pequena amostra do conjunto é de fato utilizada pelos algoritmos de diversidade. O foco principal dessa dissertação é desenvolver abordagens de seleção de candidatos que sejam escaláveis e que permitam selecionar elementos candidatos de alta qualidade. Neste sentido, são apresentadas: uma nova estrutura de indexação baseada em particionamento hierárquico de dados; e três abordagens de seleção de elementos candidatos, que utilizam o particionamento gerado pela estrutura para encontrar de forma rápida elementos candidatos adequados. |
id |
USP_59b917cbdfb7b823b23be49bc5ea36a4 |
---|---|
oai_identifier_str |
oai:teses.usp.br:tde-09022023-114906 |
network_acronym_str |
USP |
network_name_str |
Biblioteca Digital de Teses e Dissertações da USP |
repository_id_str |
2721 |
spelling |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dadosORTree: Tuning diversified similarity queries using data partitioningBusca em espaços métricosBusca por similaridade com diversidadeBuscas por similaridadeMétodos de acesso métricoMetric access methodsQuery in metric spacesSimilarity queriesSimilarity with diversity queriesA complexidade dos dados aumenta conforme as aplicações vão evoluindo, sendo sempre necessário desenvolver novas técnicas para o seu armazenamento e recuperação. Neste sentido, as buscas por similaridade têm se mostrado uma das melhores formas de se comparar/recuperar dados complexos. Contudo, ao serem aplicados em grandes conjuntos de dados, os operadores fundamentais de busca por similaridade têm sua expressividade reduzida, e os elementos recuperados tendem a ser muito similares entre si. Para solucionar este problema, vários pesquisadores têm considerado a inclusão de diversidade nas buscas por similaridade. O objetivo deste tipo de busca é encontrar um conjunto de elementos que sejam similares ao elemento de consulta ao mesmo tempo que sejam o mais diversos possível entre si. Enquanto uma busca por similaridade pode ser feita de forma simples, uma busca por similaridade com diversidade tende a ser mais complexa, pois se torna necessário comparar os elementos da resposta entre si e, portanto executar um número maior de comparações, o que torna a busca mais lenta e custosa. Na literatura são encontradas abordagens que visam reduzir os custo dessas buscas, uma delas é a de selecionar elementos candidatos. Neste caso, ao invés de utilizar todos elementos do conjunto de dados, apenas uma pequena amostra do conjunto é de fato utilizada pelos algoritmos de diversidade. O foco principal dessa dissertação é desenvolver abordagens de seleção de candidatos que sejam escaláveis e que permitam selecionar elementos candidatos de alta qualidade. Neste sentido, são apresentadas: uma nova estrutura de indexação baseada em particionamento hierárquico de dados; e três abordagens de seleção de elementos candidatos, que utilizam o particionamento gerado pela estrutura para encontrar de forma rápida elementos candidatos adequados.The complexity of data increases as the applications evolve, and it is always necessary to develop new techniques for its storage and retrieval. In this sense, similarity search have been shown to be one of the best ways to compare/recover complex data. However, when applied to large data sets, the fundamental similarity search operators have their expressiveness reduced and the retrieved elements tend to be very similar to each other. To solve this problem, several researchers have considered including diversity in the similarity searches. The objective of this type of search is to find a set of elements that are similar to the query element while being as diverse as possible from each other. While a search for similarity can be done in a simple way, a search for similarity with diversity tends to be more complex, as it becomes necessary to compare the elements of the answer with each other and, therefore, perform a greater number of comparisons, which makes the search slower and more expensive. In the literature are found approaches that aim to reduce the cost of these searches. One of them is to select candidate elements. In this case, instead of using all elements of the dataset, only a small sample of the set is actually used by the diversity algorithms. The main focus of this dissertation is to develop candidate selection approaches that are scalable and allow the selection of high-quality candidate elements. In this sense, the following results obtained are described: a new indexing structure based on hierarchical data partitioning; and three candidate element selection approaches, which use the partitioning generated by the structure, to quickly find candidate elements.Biblioteca Digitais de Teses e Dissertações da USPTraina Junior, CaetanoNovaes, João Victor de Oliveira2022-11-25info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://www.teses.usp.br/teses/disponiveis/55/55134/tde-09022023-114906/reponame:Biblioteca Digital de Teses e Dissertações da USPinstname:Universidade de São Paulo (USP)instacron:USPLiberar o conteúdo para acesso público.info:eu-repo/semantics/openAccesspor2023-02-09T18:14:02Zoai:teses.usp.br:tde-09022023-114906Biblioteca Digital de Teses e Dissertaçõeshttp://www.teses.usp.br/PUBhttp://www.teses.usp.br/cgi-bin/mtd2br.plvirginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.bropendoar:27212023-02-09T18:14:02Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP)false |
dc.title.none.fl_str_mv |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados ORTree: Tuning diversified similarity queries using data partitioning |
title |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados |
spellingShingle |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados Novaes, João Victor de Oliveira Busca em espaços métricos Busca por similaridade com diversidade Buscas por similaridade Métodos de acesso métrico Metric access methods Query in metric spaces Similarity queries Similarity with diversity queries |
title_short |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados |
title_full |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados |
title_fullStr |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados |
title_full_unstemmed |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados |
title_sort |
ORTree: Aumentando a eficiência de buscas por similaridade diversificadas por meio de particionamento de dados |
author |
Novaes, João Victor de Oliveira |
author_facet |
Novaes, João Victor de Oliveira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Traina Junior, Caetano |
dc.contributor.author.fl_str_mv |
Novaes, João Victor de Oliveira |
dc.subject.por.fl_str_mv |
Busca em espaços métricos Busca por similaridade com diversidade Buscas por similaridade Métodos de acesso métrico Metric access methods Query in metric spaces Similarity queries Similarity with diversity queries |
topic |
Busca em espaços métricos Busca por similaridade com diversidade Buscas por similaridade Métodos de acesso métrico Metric access methods Query in metric spaces Similarity queries Similarity with diversity queries |
description |
A complexidade dos dados aumenta conforme as aplicações vão evoluindo, sendo sempre necessário desenvolver novas técnicas para o seu armazenamento e recuperação. Neste sentido, as buscas por similaridade têm se mostrado uma das melhores formas de se comparar/recuperar dados complexos. Contudo, ao serem aplicados em grandes conjuntos de dados, os operadores fundamentais de busca por similaridade têm sua expressividade reduzida, e os elementos recuperados tendem a ser muito similares entre si. Para solucionar este problema, vários pesquisadores têm considerado a inclusão de diversidade nas buscas por similaridade. O objetivo deste tipo de busca é encontrar um conjunto de elementos que sejam similares ao elemento de consulta ao mesmo tempo que sejam o mais diversos possível entre si. Enquanto uma busca por similaridade pode ser feita de forma simples, uma busca por similaridade com diversidade tende a ser mais complexa, pois se torna necessário comparar os elementos da resposta entre si e, portanto executar um número maior de comparações, o que torna a busca mais lenta e custosa. Na literatura são encontradas abordagens que visam reduzir os custo dessas buscas, uma delas é a de selecionar elementos candidatos. Neste caso, ao invés de utilizar todos elementos do conjunto de dados, apenas uma pequena amostra do conjunto é de fato utilizada pelos algoritmos de diversidade. O foco principal dessa dissertação é desenvolver abordagens de seleção de candidatos que sejam escaláveis e que permitam selecionar elementos candidatos de alta qualidade. Neste sentido, são apresentadas: uma nova estrutura de indexação baseada em particionamento hierárquico de dados; e três abordagens de seleção de elementos candidatos, que utilizam o particionamento gerado pela estrutura para encontrar de forma rápida elementos candidatos adequados. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-11-25 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-09022023-114906/ |
url |
https://www.teses.usp.br/teses/disponiveis/55/55134/tde-09022023-114906/ |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
|
dc.rights.driver.fl_str_mv |
Liberar o conteúdo para acesso público. info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Liberar o conteúdo para acesso público. |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.coverage.none.fl_str_mv |
|
dc.publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
publisher.none.fl_str_mv |
Biblioteca Digitais de Teses e Dissertações da USP |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da USP instname:Universidade de São Paulo (USP) instacron:USP |
instname_str |
Universidade de São Paulo (USP) |
instacron_str |
USP |
institution |
USP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da USP |
collection |
Biblioteca Digital de Teses e Dissertações da USP |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da USP - Universidade de São Paulo (USP) |
repository.mail.fl_str_mv |
virginia@if.usp.br|| atendimento@aguia.usp.br||virginia@if.usp.br |
_version_ |
1809090539507679232 |