Compact data structures for the metric suffix array
Autor(a) principal: | |
---|---|
Data de Publicação: | 2024 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFU |
Texto Completo: | https://repositorio.ufu.br/handle/123456789/41170 http://doi.org/10.14393/ufu.di.2023.656 |
Resumo: | A busca por similaridade aproximada tem sido usada em diversas disciplinas, como reconhecimento de padrões e aprendizado de máquina, e em aplicações como buscas de imagens, strings e genoma. Geralmente, essas atividades lidam com um grande volume de dados de alta dimensão, sendo relevantes tanto o tempo de execução das buscas quanto o tamanho da memória alocada pela estrutura de dados que responde a essas buscas. A busca por similaridade aproximada é realizada por meio de elementos de referência, que estabelecem um compromisso entre o nível de precisão das buscas e o tempo necessário e memória alocada. Utilizando esta técnica, propomos uma estrutura que opera busca por similaridade aproximada com uma estrutura de dados compacta que ainda apresenta um custo linear para construção e busca, e que não se limita a dados de 32 bits. Realizado os experimentos, conseguimos obter um método que requer menos memória, atingindo 1/3 da mémoria requerida pelo método MSA, ao custo de um aumento no tempo de construção e busca, demandando até 2,7 e 3,5 o tempo do MSA respectivamente no melhor caso. |
id |
UFU_11dd9847560c6f7a33050708d4744b75 |
---|---|
oai_identifier_str |
oai:repositorio.ufu.br:123456789/41170 |
network_acronym_str |
UFU |
network_name_str |
Repositório Institucional da UFU |
repository_id_str |
|
spelling |
Compact data structures for the metric suffix arrayEstruturas de dados compactas para o vetor de sufixos métricoBusca por similaridadeSimilarity searchingEstrutura de dados compactaCompact data structuresVetor de sufixos métricoMetric Suffix ArrayCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOComputaçãoODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação.A busca por similaridade aproximada tem sido usada em diversas disciplinas, como reconhecimento de padrões e aprendizado de máquina, e em aplicações como buscas de imagens, strings e genoma. Geralmente, essas atividades lidam com um grande volume de dados de alta dimensão, sendo relevantes tanto o tempo de execução das buscas quanto o tamanho da memória alocada pela estrutura de dados que responde a essas buscas. A busca por similaridade aproximada é realizada por meio de elementos de referência, que estabelecem um compromisso entre o nível de precisão das buscas e o tempo necessário e memória alocada. Utilizando esta técnica, propomos uma estrutura que opera busca por similaridade aproximada com uma estrutura de dados compacta que ainda apresenta um custo linear para construção e busca, e que não se limita a dados de 32 bits. Realizado os experimentos, conseguimos obter um método que requer menos memória, atingindo 1/3 da mémoria requerida pelo método MSA, ao custo de um aumento no tempo de construção e busca, demandando até 2,7 e 3,5 o tempo do MSA respectivamente no melhor caso.Dissertação (Mestrado)Approximate similarity searching has been used in several disciplines such as pattern recognition and machine learning, and applications such as image, strings and genome searches. Generally, these activities deal with a large volume of high-dimensional data, with both the execution time of the searches and the size of the memory allocated by the data structure that responds to these searches being relevant. The approximate similarity searching is carried out using reference elements, which establish a compromise between the level of precision of the searches and the time required and allocated memory. Using this technique, we propose a structure that operates approximate similarity searching with a compact data structure that still presents a linear cost for construction and search, and that is not limited to 32-bit data. With the experiments executed, we managed to obtain a method that requires less memory, achieving 1/3 of the memory required for the MSA, at the cost of an increase in construction and search time, demanding 2.7 and 3.5 the time required for the MSA respectively in the best case.Universidade Federal de UberlândiaBrasilPrograma de Pós-graduação em Ciência da ComputaçãoLouza, Felipe Alves dahttp://lattes.cnpq.br/7042349168112978Razente, Humberto Luizhttp://lattes.cnpq.br/4700164571979002Travençolo, Bruno Augusto Nassifhttp://lattes.cnpq.br/2590427557264952Moreira, Mayron César de Oliveirahttp://lattes.cnpq.br/0935496725221542Rosa, Frederico Rezende2024-02-15T18:28:34Z2024-02-15T18:28:34Z2024-01-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfROSA, Frederico Rezende. Compact data structures for the Metric Suffix Array. 2024. 54 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI 10.14393/ufu.di.2023.656.https://repositorio.ufu.br/handle/123456789/41170http://doi.org/10.14393/ufu.di.2023.656enghttp://creativecommons.org/licenses/by-nc-nd/3.0/us/info:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFUinstname:Universidade Federal de Uberlândia (UFU)instacron:UFU2024-02-16T06:18:54Zoai:repositorio.ufu.br:123456789/41170Repositório InstitucionalONGhttp://repositorio.ufu.br/oai/requestdiinf@dirbi.ufu.bropendoar:2024-02-16T06:18:54Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU)false |
dc.title.none.fl_str_mv |
Compact data structures for the metric suffix array Estruturas de dados compactas para o vetor de sufixos métrico |
title |
Compact data structures for the metric suffix array |
spellingShingle |
Compact data structures for the metric suffix array Rosa, Frederico Rezende Busca por similaridade Similarity searching Estrutura de dados compacta Compact data structures Vetor de sufixos métrico Metric Suffix Array CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação. |
title_short |
Compact data structures for the metric suffix array |
title_full |
Compact data structures for the metric suffix array |
title_fullStr |
Compact data structures for the metric suffix array |
title_full_unstemmed |
Compact data structures for the metric suffix array |
title_sort |
Compact data structures for the metric suffix array |
author |
Rosa, Frederico Rezende |
author_facet |
Rosa, Frederico Rezende |
author_role |
author |
dc.contributor.none.fl_str_mv |
Louza, Felipe Alves da http://lattes.cnpq.br/7042349168112978 Razente, Humberto Luiz http://lattes.cnpq.br/4700164571979002 Travençolo, Bruno Augusto Nassif http://lattes.cnpq.br/2590427557264952 Moreira, Mayron César de Oliveira http://lattes.cnpq.br/0935496725221542 |
dc.contributor.author.fl_str_mv |
Rosa, Frederico Rezende |
dc.subject.por.fl_str_mv |
Busca por similaridade Similarity searching Estrutura de dados compacta Compact data structures Vetor de sufixos métrico Metric Suffix Array CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação. |
topic |
Busca por similaridade Similarity searching Estrutura de dados compacta Compact data structures Vetor de sufixos métrico Metric Suffix Array CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Computação ODS::ODS 9. Indústria, Inovação e infraestrutura - Construir infraestrutura resiliente, promover a industrialização inclusiva e sustentável, e fomentar a inovação. |
description |
A busca por similaridade aproximada tem sido usada em diversas disciplinas, como reconhecimento de padrões e aprendizado de máquina, e em aplicações como buscas de imagens, strings e genoma. Geralmente, essas atividades lidam com um grande volume de dados de alta dimensão, sendo relevantes tanto o tempo de execução das buscas quanto o tamanho da memória alocada pela estrutura de dados que responde a essas buscas. A busca por similaridade aproximada é realizada por meio de elementos de referência, que estabelecem um compromisso entre o nível de precisão das buscas e o tempo necessário e memória alocada. Utilizando esta técnica, propomos uma estrutura que opera busca por similaridade aproximada com uma estrutura de dados compacta que ainda apresenta um custo linear para construção e busca, e que não se limita a dados de 32 bits. Realizado os experimentos, conseguimos obter um método que requer menos memória, atingindo 1/3 da mémoria requerida pelo método MSA, ao custo de um aumento no tempo de construção e busca, demandando até 2,7 e 3,5 o tempo do MSA respectivamente no melhor caso. |
publishDate |
2024 |
dc.date.none.fl_str_mv |
2024-02-15T18:28:34Z 2024-02-15T18:28:34Z 2024-01-19 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
ROSA, Frederico Rezende. Compact data structures for the Metric Suffix Array. 2024. 54 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI 10.14393/ufu.di.2023.656. https://repositorio.ufu.br/handle/123456789/41170 http://doi.org/10.14393/ufu.di.2023.656 |
identifier_str_mv |
ROSA, Frederico Rezende. Compact data structures for the Metric Suffix Array. 2024. 54 f. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Uberlândia, Uberlândia, 2024. DOI 10.14393/ufu.di.2023.656. |
url |
https://repositorio.ufu.br/handle/123456789/41170 http://doi.org/10.14393/ufu.di.2023.656 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/us/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/3.0/us/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Ciência da Computação |
publisher.none.fl_str_mv |
Universidade Federal de Uberlândia Brasil Programa de Pós-graduação em Ciência da Computação |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFU instname:Universidade Federal de Uberlândia (UFU) instacron:UFU |
instname_str |
Universidade Federal de Uberlândia (UFU) |
instacron_str |
UFU |
institution |
UFU |
reponame_str |
Repositório Institucional da UFU |
collection |
Repositório Institucional da UFU |
repository.name.fl_str_mv |
Repositório Institucional da UFU - Universidade Federal de Uberlândia (UFU) |
repository.mail.fl_str_mv |
diinf@dirbi.ufu.br |
_version_ |
1805569661682581504 |