Compact data structures for the metric suffix array

Detalhes bibliográficos
Autor(a) principal: Rosa, Frederico Rezende
Data de Publicação: 2024
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Institucional da UFU
Texto Completo: https://repositorio.ufu.br/handle/123456789/41170
http://doi.org/10.14393/ufu.di.2023.656
Resumo: A busca por similaridade aproximada tem sido usada em diversas disciplinas, como reconhecimento de padrões e aprendizado de máquina, e em aplicações como buscas de imagens, strings e genoma. Geralmente, essas atividades lidam com um grande volume de dados de alta dimensão, sendo relevantes tanto o tempo de execução das buscas quanto o tamanho da memória alocada pela estrutura de dados que responde a essas buscas. A busca por similaridade aproximada é realizada por meio de elementos de referência, que estabelecem um compromisso entre o nível de precisão das buscas e o tempo necessário e memória alocada. Utilizando esta técnica, propomos uma estrutura que opera busca por similaridade aproximada com uma estrutura de dados compacta que ainda apresenta um custo linear para construção e busca, e que não se limita a dados de 32 bits. Realizado os experimentos, conseguimos obter um método que requer menos memória, atingindo 1/3 da mémoria requerida pelo método MSA, ao custo de um aumento no tempo de construção e busca, demandando até 2,7 e 3,5 o tempo do MSA respectivamente no melhor caso.
id UFU_11dd9847560c6f7a33050708d4744b75
oai_identifier_str oai:repositorio.ufu.br:123456789/41170
network_acronym_str UFU
network_name_str Repositório Institucional da UFU
repository_id_str
spelling Compact data structures for the metric suffix arrayEstruturas de dados compactas para o vetor de sufixos métricoBusca por similaridadeSimilarity searchingEstrutura de dados compactaCompact data structuresVetor de sufixos métricoMetric Suffix ArrayCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputaçãoODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.A busca por similaridade aproximada tem sido usada em diversas disciplinas, como reconhecimento de padrões e aprendizado de máquina, e em aplicações como buscas de imagens, strings e genoma. Geralmente, essas atividades lidam com um grande volume de dados de alta dimensão, sendo relevantes tanto o tempo de execução das buscas quanto o tamanho da memória alocada pela estrutura de dados que responde a essas buscas. A busca por similaridade aproximada é realizada por meio de elementos de referência, que estabelecem um compromisso entre o nível de precisão das buscas e o tempo necessário e memória alocada. Utilizando esta técnica, propomos uma estrutura que opera busca por similaridade aproximada com uma estrutura de dados compacta que ainda apresenta um custo linear para construção e busca, e que não se limita a dados de 32 bits. Realizado os experimentos, conseguimos obter um método que requer menos memória, atingindo 1/3 da mémoria requerida pelo método MSA, ao custo de um aumento no tempo de construção e busca, demandando até 2,7 e 3,5 o tempo do MSA respectivamente no melhor caso.Dissertação (Mestrado)Approximate similarity searching has been used in several disciplines such as pattern recognition and machine learning, and applications such as image, strings and genome searches. Generally, these activities deal with a large volume of high-dimensional data, with both the execution time of the searches and the size of the memory allocated by the data structure that responds to these searches being relevant. The approximate similarity searching is carried out using reference elements, which establish a compromise between the level of precision of the searches and the time required and allocated memory. Using this technique, we propose a structure that operates approximate similarity searching with a compact data structure that still presents a linear cost for construction and search, and that is not limited to 32-bit data. With the experiments executed, we managed to obtain a method that requires less memory, achieving 1/3 of the memory required for the MSA, at the cost of an increase in construction and search time, demanding 2.7 and 3.5 the time required for the MSA respectively in the best case.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Ciência da ComputaçãoLouza, Felipe Alves dahttp://lattes.cnpq.br/7042349168112978Razente, Humberto Luizhttp://lattes.cnpq.br/4700164571979002Travençolo, Bruno Augusto Nassifhttp://lattes.cnpq.br/2590427557264952Moreira, Mayron César de Oliveirahttp://lattes.cnpq.br/0935496725221542Rosa, Frederico Rezende2024-02-15T18:28:34Z2024-02-15T18:28:34Z2024-01-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfROSA, Frederico Rezende. Compact data structures for the Metric Suffix Array. 2024. 54 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI 10.14393/ufu.di.2023.656.https://repositorio.ufu.br/handle/123456789/41170http://doi.org/10.14393/ufu.di.2023.656enghttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2024-02-16T06:18:54Zoai:repositorio.ufu.br:123456789/41170Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2024-02-16T06:18:54Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false
dc.title.none.fl_str_mv Compact data structures for the metric suffix array
Estruturas de dados compactas para o vetor de sufixos métrico
title Compact data structures for the metric suffix array
spellingShingle Compact data structures for the metric suffix array
Rosa, Frederico Rezende
Busca por similaridade
Similarity searching
Estrutura de dados compacta
Compact data structures
Vetor de sufixos métrico
Metric Suffix Array
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação
ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
title_short Compact data structures for the metric suffix array
title_full Compact data structures for the metric suffix array
title_fullStr Compact data structures for the metric suffix array
title_full_unstemmed Compact data structures for the metric suffix array
title_sort Compact data structures for the metric suffix array
author Rosa, Frederico Rezende
author_facet Rosa, Frederico Rezende
author_role author
dc.contributor.none.fl_str_mv Louza, Felipe Alves da
http://lattes.cnpq.br/7042349168112978
Razente, Humberto Luiz
http://lattes.cnpq.br/4700164571979002
Travençolo, Bruno Augusto Nassif
http://lattes.cnpq.br/2590427557264952
Moreira, Mayron César de Oliveira
http://lattes.cnpq.br/0935496725221542
dc.contributor.author.fl_str_mv Rosa, Frederico Rezende
dc.subject.por.fl_str_mv Busca por similaridade
Similarity searching
Estrutura de dados compacta
Compact data structures
Vetor de sufixos métrico
Metric Suffix Array
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação
ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
topic Busca por similaridade
Similarity searching
Estrutura de dados compacta
Compact data structures
Vetor de sufixos métrico
Metric Suffix Array
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
Computação
ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.
description A busca por similaridade aproximada tem sido usada em diversas disciplinas, como reconhecimento de padrões e aprendizado de máquina, e em aplicações como buscas de imagens, strings e genoma. Geralmente, essas atividades lidam com um grande volume de dados de alta dimensão, sendo relevantes tanto o tempo de execução das buscas quanto o tamanho da memória alocada pela estrutura de dados que responde a essas buscas. A busca por similaridade aproximada é realizada por meio de elementos de referência, que estabelecem um compromisso entre o nível de precisão das buscas e o tempo necessário e memória alocada. Utilizando esta técnica, propomos uma estrutura que opera busca por similaridade aproximada com uma estrutura de dados compacta que ainda apresenta um custo linear para construção e busca, e que não se limita a dados de 32 bits. Realizado os experimentos, conseguimos obter um método que requer menos memória, atingindo 1/3 da mémoria requerida pelo método MSA, ao custo de um aumento no tempo de construção e busca, demandando até 2,7 e 3,5 o tempo do MSA respectivamente no melhor caso.
publishDate 2024
dc.date.none.fl_str_mv 2024-02-15T18:28:34Z
2024-02-15T18:28:34Z
2024-01-19
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv ROSA, Frederico Rezende. Compact data structures for the Metric Suffix Array. 2024. 54 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI 10.14393/ufu.di.2023.656.
https://repositorio.ufu.br/handle/123456789/41170
http://doi.org/10.14393/ufu.di.2023.656
identifier_str_mv ROSA, Frederico Rezende. Compact data structures for the Metric Suffix Array. 2024. 54 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI 10.14393/ufu.di.2023.656.
url https://repositorio.ufu.br/handle/123456789/41170
http://doi.org/10.14393/ufu.di.2023.656
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/us/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/3.0/us/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
publisher.none.fl_str_mv Universidade Federal de Uberlândia
Brasil
Programa de Pós-graduação em Ciência da Computação
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFU
instname:Universidade Federal de Uberlândia (UFU)
instacron:UFU
instname_str Universidade Federal de Uberlândia (UFU)
instacron_str UFU
institution UFU
reponame_str Repositório Institucional da UFU
collection Repositório Institucional da UFU
repository.name.fl_str_mv Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)
repository.mail.fl_str_mv diinf@dirbi.ufu.br
_version_ 1805569661682581504