Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais

Detalhes bibliográficos
Autor(a) principal: Lima, Rafael Lucas Bernardes
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFU
Texto Completo: https://repositorio.ufu.br/handle/123456789/24057
http://dx.doi.org/10.14393/ufu.di.2019.314
Resumo: Para recuperação de dados complexos o mais adequado é que se utilizem consultas por similaridade. Para otimizar a resposta à uma consulta são utilizados os métodos de acesso. Quando um conjunto de objetos é deĄnido por meio de uma função de distância (métrica) pode-se dizer que esses objetos passam a compor um espaço métrico, o que possibilita a elaboração dos Métodos de Acesso Métricos (MAMs). Geralmente os MAMs são representados por meio de uma estrutura hierárquica. Existem diversas variações das árvores métricas, e uma estrutura interessante para se trabalhar é a B+Tree, uma característica útil dessa estrutura é que os nós folhas são armazenados em uma lista duplamente encadeada facilitando a navegação entre os nós. O método GroupSim apresenta uma abordagem baseada no mapeamento, indexação e recuperação de objetos. Primeiramente é realizado o mapeamento dos objetos para espaços unidimensionais baseando-se em objetos representativos previamente escolhidos, após o mapeamento são gerados vetores unidimensionais os quais são indexados em uma única estrutura B+Tree, possibilitando posteriormente que consultas mais eĄcientes sejam aplicadas. Por meio de experimentos efetuados foi possível notar que o método proposto apresenta um desempenho superior a outros métodos que podem ser encontrados na literatura. Realizando-se consultas knn com k variando entre 10 e 100, e utilizando diferentes conjuntos de dados foi possível avaliar o método proposto. Alguns dos resultados obtidos foram comparando o método GroupSim e o iDistance utilizando a função Euclidiana e a base de dados Sierpinski, o método proposto consegue um desempenho de tempo médio 3.400% melhor. Comparando com a OmniB - Forest o melhor desempenho obtido é utilizando a base de dados Covertype e a função de distância Euclidiana, neste caso o método proposto chega a ter um desempenho de tempo médio para consulta 1000% melhor, e comparando com Acesso Sequencial o desempenho também chega a 1000% utilizando a base de dados Sierpinski e a função de distância Euclidiana. Com base nos resultados obtidos por meio dos experimentos, é possível aĄrmar que o método proposto apresenta desempenho superior à alguns métodos presentes na literatura, como o iDistance e o OmniB-Forest.
id UFU_aa2dddef38e3b47cf590f2d72b917ff4
oai_identifier_str oai:repositorio.ufu.br:123456789/24057
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling 2019-01-24T14:00:50Z2019-01-24T14:00:50Z2016-09-08LIMA, Rafael Lucas Bernardes. Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais. 2016. 128 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. Disponível em: http://dx.doi.org/10.14393/ufu.di.2019.314https://repositorio.ufu.br/handle/123456789/24057http://dx.doi.org/10.14393/ufu.di.2019.314Para recuperação de dados complexos o mais adequado é que se utilizem consultas por similaridade. Para otimizar a resposta à uma consulta são utilizados os métodos de acesso. Quando um conjunto de objetos é deĄnido por meio de uma função de distância (métrica) pode-se dizer que esses objetos passam a compor um espaço métrico, o que possibilita a elaboração dos Métodos de Acesso Métricos (MAMs). Geralmente os MAMs são representados por meio de uma estrutura hierárquica. Existem diversas variações das árvores métricas, e uma estrutura interessante para se trabalhar é a B+Tree, uma característica útil dessa estrutura é que os nós folhas são armazenados em uma lista duplamente encadeada facilitando a navegação entre os nós. O método GroupSim apresenta uma abordagem baseada no mapeamento, indexação e recuperação de objetos. Primeiramente é realizado o mapeamento dos objetos para espaços unidimensionais baseando-se em objetos representativos previamente escolhidos, após o mapeamento são gerados vetores unidimensionais os quais são indexados em uma única estrutura B+Tree, possibilitando posteriormente que consultas mais eĄcientes sejam aplicadas. Por meio de experimentos efetuados foi possível notar que o método proposto apresenta um desempenho superior a outros métodos que podem ser encontrados na literatura. Realizando-se consultas knn com k variando entre 10 e 100, e utilizando diferentes conjuntos de dados foi possível avaliar o método proposto. Alguns dos resultados obtidos foram comparando o método GroupSim e o iDistance utilizando a função Euclidiana e a base de dados Sierpinski, o método proposto consegue um desempenho de tempo médio 3.400% melhor. Comparando com a OmniB - Forest o melhor desempenho obtido é utilizando a base de dados Covertype e a função de distância Euclidiana, neste caso o método proposto chega a ter um desempenho de tempo médio para consulta 1000% melhor, e comparando com Acesso Sequencial o desempenho também chega a 1000% utilizando a base de dados Sierpinski e a função de distância Euclidiana. Com base nos resultados obtidos por meio dos experimentos, é possível aĄrmar que o método proposto apresenta desempenho superior à alguns métodos presentes na literatura, como o iDistance e o OmniB-Forest.To recovering complex data the most appropriate is to use similarity queries. To opti- mize the response of a query the access methods are used. When a set of objects is deĄned by a distance function (metric) can be said that these objects became part of a metric space, which allows the preparation of Metric Access Methods (MAM). Generally MAM are represented by a hierarchical structure. There are several variations of metric trees, and an interesting structure to work is the B+Tree, a useful feature of this structure is that the leaf nodes are stored in a doubly linked list facilitating navigation between the nodes. The GroupSim method presents an approach based on mapping, indexing and retrieval of objects. First is performed the mapping of objects to one-dimensional spaces based on representative objects previously chosen, after mapping are generated one-dimensional vectors which are indexed in a single structure B+Tree, allowing sub- sequently more eicient queries are applied. Through experiments carried out it was possible to note that the proposed method has a performance superior to other methods may be found in the literature. By performing KNN queries with k varying between 10 and 100, using diferent sets of data it was possible to assess the proposed method. Some of the results were obtained by comparing the GroupSim and iDistance method using the Euclidian function and Sierpinski database, the proposed method achieves an average of 3.400% better performance. Compared to OmniB - Forest the best performance achieved is using the database Covertype and the Euclidean distance function, in this case the proposed method comes to have an average performance for query 1000% better and in comparison with sequential access to performance also arrives to 1000% using the data- base Sierpinskie and the Euclidean distance function. Based on the results obtained from the experiments, it is clear that the proposed method has superior performance to some methods in the literature, like the iDistance and the OmniB-Forest.Dissertação (Mestrado)porUniversidade Federal de UberlândiaPrograma de Pós-graduação em Ciência da ComputaçãoBrasilCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOB+-TreeMétodos de acessoGroupSimAccess methodsComputaçãoRecuperação de dados (Computação)Recuperação da informaçãoUm novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globaisA new indexing method for similarity queries using one-dimensional mappings based on global fociinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisRazente, Humberto LuizSeraphim, Enzohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4769636P6Nascimento, Marcelo Zanchetta dohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4770535J0http://lattes.cnpq.br/6931488865244266Lima, Rafael Lucas Bernardes128info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFUORIGINALNovoMétodoIndexação.pdfNovoMétodoIndexação.pdfapplication/pdf7731082https://repositorio.ufu.br/bitstream/123456789/24057/5/NovoM%c3%a9todoIndexa%c3%a7%c3%a3o.pdfd88328b7cd094a091503e73e5397d9d5MD55LICENSElicense.txtlicense.txttext/plain; charset=utf-81792https://repositorio.ufu.br/bitstream/123456789/24057/4/license.txt48ded82ce41b8d2426af12aed6b3cbf3MD54TEXTNovoMétodoIndexação.pdf.txtNovoMétodoIndexação.pdf.txtExtracted texttext/plain225419https://repositorio.ufu.br/bitstream/123456789/24057/6/NovoM%c3%a9todoIndexa%c3%a7%c3%a3o.pdf.txt77ea117037e1b642484a05fbafc56244MD56THUMBNAILNovoMétodoIndexação.pdf.jpgNovoMétodoIndexação.pdf.jpgGenerated Thumbnailimage/jpeg1363https://repositorio.ufu.br/bitstream/123456789/24057/7/NovoM%c3%a9todoIndexa%c3%a7%c3%a3o.pdf.jpg21ee5cdac4b8d6b5469601ff2f2436c4MD57123456789/240572019-01-30 14:47:07.271oai:repositorio.ufu.br:123456789/24057w4kgbmVjZXNzw6FyaW8gY29uY29yZGFyIGNvbSBhIGxpY2Vuw6dhIGRlIGRpc3RyaWJ1acOnw6NvIG7Do28tZXhjbHVzaXZhLCBhbnRlcyBxdWUgbyBkb2N1bWVudG8gcG9zc2EgYXBhcmVjZXIgbm8gUmVwb3NpdMOzcmlvLiBQb3IgZmF2b3IsIGxlaWEgYSBsaWNlbsOnYSBhdGVudGFtZW50ZS4gQ2FzbyBuZWNlc3NpdGUgZGUgYWxndW0gZXNjbGFyZWNpbWVudG8gZW50cmUgZW0gY29udGF0byBhdHJhdsOpcyBkbyBlLW1haWwgIHJlcG9zaXRvcmlvQHVmdS5ici4KCkxJQ0VOw4dBIERFIERJU1RSSUJVScOHw4NPIE7Dg08tRVhDTFVTSVZBCgpBbyBhc3NpbmFyIGUgZW50cmVnYXIgZXN0YSBsaWNlbsOnYSwgby9hIFNyLi9TcmEuIChhdXRvciBvdSBkZXRlbnRvciBkb3MgZGlyZWl0b3MgZGUgYXV0b3IpOgoKYSkgQ29uY2VkZSDDoCBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBVYmVybMOibmRpYSBvIGRpcmVpdG8gbsOjby1leGNsdXNpdm8gZGUgcmVwcm9kdXppciwgY29udmVydGVyIChjb21vIGRlZmluaWRvIGFiYWl4byksIGNvbXVuaWNhciBlL291IGRpc3RyaWJ1aXIgbyBkb2N1bWVudG8gZW50cmVndWUgKGluY2x1aW5kbyBvIHJlc3Vtby9hYnN0cmFjdCkgZW0gZm9ybWF0byBkaWdpdGFsIG91IGltcHJlc3NvIGUgZW0gcXVhbHF1ZXIgbWVpby4KCmIpIERlY2xhcmEgcXVlIG8gZG9jdW1lbnRvIGVudHJlZ3VlIMOpIHNldSB0cmFiYWxobyBvcmlnaW5hbCwgZSBxdWUgZGV0w6ltIG8gZGlyZWl0byBkZSBjb25jZWRlciBvcyBkaXJlaXRvcyBjb250aWRvcyBuZXN0YSBsaWNlbsOnYS4gRGVjbGFyYSB0YW1iw6ltIHF1ZSBhIGVudHJlZ2EgZG8gZG9jdW1lbnRvIG7Do28gaW5mcmluZ2UsIHRhbnRvIHF1YW50byBsaGUgw6kgcG9zc8OtdmVsIHNhYmVyLCBvcyBkaXJlaXRvcyBkZSBxdWFscXVlciBvdXRyYSBwZXNzb2Egb3UgZW50aWRhZGUuCgpjKSBTZSBvIGRvY3VtZW50byBlbnRyZWd1ZSBjb250w6ltIG1hdGVyaWFsIGRvIHF1YWwgbsOjbyBkZXTDqW0gb3MgZGlyZWl0b3MgZGUgYXV0b3IsIGRlY2xhcmEgcXVlIG9idGV2ZSBhdXRvcml6YcOnw6NvIGRvIGRldGVudG9yIGRvcyBkaXJlaXRvcyBkZSBhdXRvciBwYXJhIGNvbmNlZGVyIMOgIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFViZXJsw6JuZGlhIG9zIGRpcmVpdG9zIHJlcXVlcmlkb3MgcG9yIGVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgY3Vqb3MgZGlyZWl0b3Mgc8OjbyBkZSB0ZXJjZWlyb3MgZXN0w6EgY2xhcmFtZW50ZSBpZGVudGlmaWNhZG8gZSByZWNvbmhlY2lkbyBubyB0ZXh0byBvdSBjb250ZcO6ZG8gZG8gZG9jdW1lbnRvIGVudHJlZ3VlLgoKU2UgbyBkb2N1bWVudG8gZW50cmVndWUgw6kgYmFzZWFkbyBlbSB0cmFiYWxobyBmaW5hbmNpYWRvIG91IGFwb2lhZG8gcG9yIG91dHJhIGluc3RpdHVpw6fDo28gcXVlIG7Do28gYSBVbml2ZXJzaWRhZGUgRmVkZXJhbCBkZSBVYmVybMOibmRpYSwgZGVjbGFyYSBxdWUgY3VtcHJpdSBxdWFpc3F1ZXIgb2JyaWdhw6fDtWVzIGV4aWdpZGFzIHBlbG8gcmVzcGVjdGl2byBjb250cmF0byBvdSBhY29yZG8uCgpBIFVuaXZlcnNpZGFkZSBGZWRlcmFsIGRlIFViZXJsw6JuZGlhIGlkZW50aWZpY2Fyw6EgY2xhcmFtZW50ZSBvKHMpIHNldShzKSBub21lKHMpIGNvbW8gbyhzKSBhdXRvcihlcykgb3UgZGV0ZW50b3IgKGVzKSBkb3MgZGlyZWl0b3MgZG8gZG9jdW1lbnRvIGVudHJlZ3VlLCBlIG7Do28gZmFyw6EgcXVhbHF1ZXIgYWx0ZXJhw6fDo28sIHBhcmEgYWzDqW0gZGFzIHBlcm1pdGlkYXMgcG9yIGVzdGEgbGljZW7Dp2EuCg==Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2019-01-30T16:47:07Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.pt_BR.fl_str_mv Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
dc.title.alternative.pt_BR.fl_str_mv A new indexing method for similarity queries using one-dimensional mappings based on global foci
title Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
spellingShingle Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
Lima, Rafael Lucas Bernardes
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
B+-Tree
Métodos de acesso
GroupSim
Access methods
Computação
Recuperação de dados (Computação)
Recuperação da informação
title_short Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
title_full Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
title_fullStr Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
title_full_unstemmed Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
title_sort Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais
author Lima, Rafael Lucas Bernardes
author_facet Lima, Rafael Lucas Bernardes
author_role author
dc.contributor.advisor1.fl_str_mv Razente, Humberto Luiz
dc.contributor.referee1.fl_str_mv Seraphim, Enzo
dc.contributor.referee1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4769636P6
dc.contributor.referee2.fl_str_mv Nascimento, Marcelo Zanchetta do
dc.contributor.referee2Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4770535J0
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/6931488865244266
dc.contributor.author.fl_str_mv Lima, Rafael Lucas Bernardes
contributor_str_mv Razente, Humberto Luiz
Seraphim, Enzo
Nascimento, Marcelo Zanchetta do
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
B+-Tree
Métodos de acesso
GroupSim
Access methods
Computação
Recuperação de dados (Computação)
Recuperação da informação
dc.subject.por.fl_str_mv B+-Tree
Métodos de acesso
GroupSim
Access methods
Computação
Recuperação de dados (Computação)
Recuperação da informação
description Para recuperação de dados complexos o mais adequado é que se utilizem consultas por similaridade. Para otimizar a resposta à uma consulta são utilizados os métodos de acesso. Quando um conjunto de objetos é deĄnido por meio de uma função de distância (métrica) pode-se dizer que esses objetos passam a compor um espaço métrico, o que possibilita a elaboração dos Métodos de Acesso Métricos (MAMs). Geralmente os MAMs são representados por meio de uma estrutura hierárquica. Existem diversas variações das árvores métricas, e uma estrutura interessante para se trabalhar é a B+Tree, uma característica útil dessa estrutura é que os nós folhas são armazenados em uma lista duplamente encadeada facilitando a navegação entre os nós. O método GroupSim apresenta uma abordagem baseada no mapeamento, indexação e recuperação de objetos. Primeiramente é realizado o mapeamento dos objetos para espaços unidimensionais baseando-se em objetos representativos previamente escolhidos, após o mapeamento são gerados vetores unidimensionais os quais são indexados em uma única estrutura B+Tree, possibilitando posteriormente que consultas mais eĄcientes sejam aplicadas. Por meio de experimentos efetuados foi possível notar que o método proposto apresenta um desempenho superior a outros métodos que podem ser encontrados na literatura. Realizando-se consultas knn com k variando entre 10 e 100, e utilizando diferentes conjuntos de dados foi possível avaliar o método proposto. Alguns dos resultados obtidos foram comparando o método GroupSim e o iDistance utilizando a função Euclidiana e a base de dados Sierpinski, o método proposto consegue um desempenho de tempo médio 3.400% melhor. Comparando com a OmniB - Forest o melhor desempenho obtido é utilizando a base de dados Covertype e a função de distância Euclidiana, neste caso o método proposto chega a ter um desempenho de tempo médio para consulta 1000% melhor, e comparando com Acesso Sequencial o desempenho também chega a 1000% utilizando a base de dados Sierpinski e a função de distância Euclidiana. Com base nos resultados obtidos por meio dos experimentos, é possível aĄrmar que o método proposto apresenta desempenho superior à alguns métodos presentes na literatura, como o iDistance e o OmniB-Forest.
publishDate 2016
dc.date.issued.fl_str_mv 2016-09-08
dc.date.accessioned.fl_str_mv 2019-01-24T14:00:50Z
dc.date.available.fl_str_mv 2019-01-24T14:00:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv LIMA, Rafael Lucas Bernardes. Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais. 2016. 128 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. Disponível em: http://dx.doi.org/10.14393/ufu.di.2019.314
dc.identifier.uri.fl_str_mv https://repositorio.ufu.br/handle/123456789/24057
dc.identifier.doi.pt_BR.fl_str_mv http://dx.doi.org/10.14393/ufu.di.2019.314
identifier_str_mv LIMA, Rafael Lucas Bernardes. Um novo método de indexação para consultas por similaridade utilizando mapeamentos unidimensionais baseados em focos globais. 2016. 128 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2018. Disponível em: http://dx.doi.org/10.14393/ufu.di.2019.314
url https://repositorio.ufu.br/handle/123456789/24057
http://dx.doi.org/10.14393/ufu.di.2019.314
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
dc.publisher.program.fl_str_mv Programa de Pós-graduação em Ciência da Computação
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Universidade Federal de Uberlândia
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
bitstream.url.fl_str_mv https://repositorio.ufu.br/bitstream/123456789/24057/5/NovoM%c3%a9todoIndexa%c3%a7%c3%a3o.pdf
https://repositorio.ufu.br/bitstream/123456789/24057/4/license.txt
https://repositorio.ufu.br/bitstream/123456789/24057/6/NovoM%c3%a9todoIndexa%c3%a7%c3%a3o.pdf.txt
https://repositorio.ufu.br/bitstream/123456789/24057/7/NovoM%c3%a9todoIndexa%c3%a7%c3%a3o.pdf.jpg
bitstream.checksum.fl_str_mv d88328b7cd094a091503e73e5397d9d5
48ded82ce41b8d2426af12aed6b3cbf3
77ea117037e1b642484a05fbafc56244
21ee5cdac4b8d6b5469601ff2f2436c4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1802110423151935488