Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço
Autor(a) principal: | |
---|---|
Data de Publicação: | 2006 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UnB |
Texto Completo: | http://repositorio.unb.br/handle/10482/2323 |
Resumo: | Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006. |
id |
UNB_1055ae30b7868c261d08c644aa5fc9c9 |
---|---|
oai_identifier_str |
oai:repositorio.unb.br:10482/2323 |
network_acronym_str |
UNB |
network_name_str |
Repositório Institucional da UnB |
repository_id_str |
|
spelling |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaçoAlgoritmosBiologia computacionalComputaçãoInformáticaDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006.A pesquisa aproximada de padrões em um texto é um problema importante para a ciência da computação. A pesquisa de algoritmos eficientes para solucionar esse problema influencia o desenvolvimento de aplicações em áreas como biologia computacional e pesquisa textual em grandes massas de dados (como a web, por exemplo). Mas para o tratamento de volumes de informação da magnitude envolvida nessas aplicações, o uso eficiente de tempo e espaço é uma condição essencial. A solução mais conhecida para esse problema é um algoritmo de programação dinâmica com complexidade O(mn) para duas palavras P e T de comprimento m e n. Landau e Vishkin desenvolveram um algoritmo que usa árvores de sufixos para acelerar a computação de caminhos da tabela de programação dinâmica que correspondem às ocorrências de um padrão em um texto com no máximo k diferenças, cuja complexidade de tempo e espaço está em O(kn). Nesse algoritmo as árvores de sufixos são utilizadas para permitir o cálculo em tempo constante do comprimento do maior prefixo comum entre quaisquer dois sufixos de P e T. Propusemos e implementamos uma variação do algoritmo de Landau e Vishkin que usa arranjos de sufixos para esse cálculo, melhorando o uso de espaço e mantendo um desempenho similar, e apresentamos a relação de custo e benefício de cada alternativa examinada. Com isso, desenvolvemos um mecanismo que torna possível substituir o uso de árvores de sufixos por arranjos de sufixos em determinadas aplicações, com ganho no uso de espaço, o que permite processar um volume maior de informações. A modificação realizada não é trivial, pois os algoritmos e estruturas de dados utilizadas são complexos, e os parâmetros de desempenho e uso de espaço rigorosos. _______________________________________________________________________________________ ABSTRACTApproximate pattern matching in an important problem in computer science. The research of efficient solutions for this problem influences the development of applications in disciplines such as computational biology and searching the web, and in order to be able to handle such massive ammounts of information the efficient use of computational resources is a necessary condition. The most known solution for the approximate pattern matching problem is a dynamic programming algorithm which has O(mn) complexity given two strings P and T of length m and n. Landau and Vishkin developed a O(kn) algorithm which uses suffix trees for a faster computation of paths along the dynamic programming table that correspond to matches of a pattern in a text with at most k differences. In this algorithm the suffix trees are used for a constant-time calculus of the longest common extension of any two suffixes of P and T. We proposed and implemented a variation of Landau and Vishkin’s algorithm which uses suffix arrays for this calculus, improving the space requirements of the algorithm while keeping a similar running time performance, and present the costs and benefits of each algorithm. In order to achieve this we developed a technique that makes it possible to replace the use os suffix trees for suffix arrays in certain applications with an improved memory usage that allows the processing of a larger ammount of information. The modifications done were not trivial ones, as the algorithms and data structures involved are very complex, and the parameters for accepted running time performance and space usage are very rigorous.Ayala-Rincón, MauricioMiranda, Rodrigo César de Castro2009-11-26T16:50:22Z2009-11-26T16:50:22Z2009-11-262006-12-19info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfMIRANDA, Rodrigo César de Castro. Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço. 83 f. 2006. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2006.http://repositorio.unb.br/handle/10482/2323info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2023-07-14T18:56:22Zoai:repositorio.unb.br:10482/2323Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2023-07-14T18:56:22Repositório Institucional da UnB - Universidade de Brasília (UnB)false |
dc.title.none.fl_str_mv |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
title |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
spellingShingle |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço Miranda, Rodrigo César de Castro Algoritmos Biologia computacional Computação Informática |
title_short |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
title_full |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
title_fullStr |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
title_full_unstemmed |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
title_sort |
Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço |
author |
Miranda, Rodrigo César de Castro |
author_facet |
Miranda, Rodrigo César de Castro |
author_role |
author |
dc.contributor.none.fl_str_mv |
Ayala-Rincón, Mauricio |
dc.contributor.author.fl_str_mv |
Miranda, Rodrigo César de Castro |
dc.subject.por.fl_str_mv |
Algoritmos Biologia computacional Computação Informática |
topic |
Algoritmos Biologia computacional Computação Informática |
description |
Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2006. |
publishDate |
2006 |
dc.date.none.fl_str_mv |
2006-12-19 2009-11-26T16:50:22Z 2009-11-26T16:50:22Z 2009-11-26 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
MIRANDA, Rodrigo César de Castro. Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço. 83 f. 2006. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2006. http://repositorio.unb.br/handle/10482/2323 |
identifier_str_mv |
MIRANDA, Rodrigo César de Castro. Um algoritmo para pesquisa aproximada de padrões baseado no método de Landau e Vishkin e uso de arranjos de sufixos para reduzir o uso de espaço. 83 f. 2006. Dissertação (Mestrado em Informática)-Universidade de Brasília, Brasília, 2006. |
url |
http://repositorio.unb.br/handle/10482/2323 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UnB instname:Universidade de Brasília (UnB) instacron:UNB |
instname_str |
Universidade de Brasília (UnB) |
instacron_str |
UNB |
institution |
UNB |
reponame_str |
Repositório Institucional da UnB |
collection |
Repositório Institucional da UnB |
repository.name.fl_str_mv |
Repositório Institucional da UnB - Universidade de Brasília (UnB) |
repository.mail.fl_str_mv |
repositorio@unb.br |
_version_ |
1814508289654784000 |