Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs

Detalhes bibliográficos
Autor(a) principal: RODRIGO ALBUQUERQUE DE OLIVEIRA SIQUEIRA
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMS
Texto Completo: https://repositorio.ufms.br/handle/123456789/3807
Resumo: A multiple sequence alignment is an important tool for studying and representing similarities between a set of biological sequences – such as DNAs, RNAs and proteins. This study allows relevant information to be obtained from these sequences, i.e. their functional and evolutionary relations as well as their internal structures. Due to its importance, several methods have been proposed as a solution to this problem. Nonetheless, the problem’s inherent complexity, which is described as computationally NP-Hard, leads to prohibitive execution times in scenarios with large numbers of lengthy sequences. In this work, we present a complete implementation of the Progressive Alignment heuristic method, using hybrid parallelism for environments with multiple GPU devices. This approach allows the construction of global alignments between datasets of numerous lengthy sequences in reasonable time. Our implementation achieves expressive results, showing speedups of up to 380 when compared to the parallel ClustalW-MPI aligner for datasets obtained from NCBI’s sequence databases.
id UFMS_e8e2528c2b8b93429399ef3a6397018c
oai_identifier_str oai:repositorio.ufms.br:123456789/3807
network_acronym_str UFMS
network_name_str Repositório Institucional da UFMS
repository_id_str 2124
spelling 2021-06-30T17:41:53Z2021-09-30T19:55:49Z2021https://repositorio.ufms.br/handle/123456789/3807A multiple sequence alignment is an important tool for studying and representing similarities between a set of biological sequences – such as DNAs, RNAs and proteins. This study allows relevant information to be obtained from these sequences, i.e. their functional and evolutionary relations as well as their internal structures. Due to its importance, several methods have been proposed as a solution to this problem. Nonetheless, the problem’s inherent complexity, which is described as computationally NP-Hard, leads to prohibitive execution times in scenarios with large numbers of lengthy sequences. In this work, we present a complete implementation of the Progressive Alignment heuristic method, using hybrid parallelism for environments with multiple GPU devices. This approach allows the construction of global alignments between datasets of numerous lengthy sequences in reasonable time. Our implementation achieves expressive results, showing speedups of up to 380 when compared to the parallel ClustalW-MPI aligner for datasets obtained from NCBI’s sequence databases.O alinhamento de múltiplas sequências é uma ferramenta importante para o estudo e a representação de similaridades entre conjuntos de sequências biológicas – como DNAs, RNAs e proteínas. Este estudo permite a obtenção de informações relevantes destas sequências, como suas relações funcionais, evolucionárias e estruturas internas. Devido a sua importância, vários métodos foram propostos como solução a este problema. Entretanto, a complexidade inerente do problema, que é apresentado como computacionalmente NP-Difícil, conduz a tempos de execução proibitivos em cenários com muitas sequências longas. Neste trabalho, apresentamos uma implementação completa para o método heurístico de Alinhamento Progressivo utilizando paralelismo híbrido para ambientes com múltiplas GPUs. Esta abordagem permite a construção de alinhamentos globais entre bases com muitas sequências de comprimentos longos em tempo razoável. Nossa implementação atinge resultados expressivos, apresentando speedups de até 380 quando comparado ao alinhador paralelo ClustalW-MPI para sequências reais obtidas do banco de dados do NCBI.Fundação Universidade Federal de Mato Grosso do SulUFMSBrasilAlinhamento de Várias Sequências , Algoritmos Paralelos Híbridos, Algoritmos Multi-GPU, Alinhamento de Sequências Grandes.Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisMarco Aurelio StefanesRODRIGO ALBUQUERQUE DE OLIVEIRA SIQUEIRAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMSinstname:Universidade Federal de Mato Grosso do Sul (UFMS)instacron:UFMSTHUMBNAILTese_Final_Mestrado___Rodrigo_Siqueira.pdf.jpgTese_Final_Mestrado___Rodrigo_Siqueira.pdf.jpgGenerated Thumbnailimage/jpeg1080https://repositorio.ufms.br/bitstream/123456789/3807/3/Tese_Final_Mestrado___Rodrigo_Siqueira.pdf.jpge9fece253d82dea4069881f5d343b04fMD53TEXTTese_Final_Mestrado___Rodrigo_Siqueira.pdf.txtTese_Final_Mestrado___Rodrigo_Siqueira.pdf.txtExtracted texttext/plain121978https://repositorio.ufms.br/bitstream/123456789/3807/2/Tese_Final_Mestrado___Rodrigo_Siqueira.pdf.txt2e506657fa821130a5aab2d65eb6b699MD52ORIGINALTese_Final_Mestrado___Rodrigo_Siqueira.pdfTese_Final_Mestrado___Rodrigo_Siqueira.pdfapplication/pdf1486036https://repositorio.ufms.br/bitstream/123456789/3807/1/Tese_Final_Mestrado___Rodrigo_Siqueira.pdf6ccec1f379eb74df46d1a28333ef5b3fMD51123456789/38072021-09-30 15:55:49.611oai:repositorio.ufms.br:123456789/3807Repositório InstitucionalPUBhttps://repositorio.ufms.br/oai/requestri.prograd@ufms.bropendoar:21242021-09-30T19:55:49Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)false
dc.title.pt_BR.fl_str_mv Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
title Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
spellingShingle Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
RODRIGO ALBUQUERQUE DE OLIVEIRA SIQUEIRA
Alinhamento de Várias Sequências , Algoritmos Paralelos Híbridos, Algoritmos Multi-GPU, Alinhamento de Sequências Grandes.
title_short Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
title_full Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
title_fullStr Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
title_full_unstemmed Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
title_sort Alinhamento Global de Várias Sequências Biológicas utilizando Cluster de GPUs
author RODRIGO ALBUQUERQUE DE OLIVEIRA SIQUEIRA
author_facet RODRIGO ALBUQUERQUE DE OLIVEIRA SIQUEIRA
author_role author
dc.contributor.advisor1.fl_str_mv Marco Aurelio Stefanes
dc.contributor.author.fl_str_mv RODRIGO ALBUQUERQUE DE OLIVEIRA SIQUEIRA
contributor_str_mv Marco Aurelio Stefanes
dc.subject.por.fl_str_mv Alinhamento de Várias Sequências , Algoritmos Paralelos Híbridos, Algoritmos Multi-GPU, Alinhamento de Sequências Grandes.
topic Alinhamento de Várias Sequências , Algoritmos Paralelos Híbridos, Algoritmos Multi-GPU, Alinhamento de Sequências Grandes.
description A multiple sequence alignment is an important tool for studying and representing similarities between a set of biological sequences – such as DNAs, RNAs and proteins. This study allows relevant information to be obtained from these sequences, i.e. their functional and evolutionary relations as well as their internal structures. Due to its importance, several methods have been proposed as a solution to this problem. Nonetheless, the problem’s inherent complexity, which is described as computationally NP-Hard, leads to prohibitive execution times in scenarios with large numbers of lengthy sequences. In this work, we present a complete implementation of the Progressive Alignment heuristic method, using hybrid parallelism for environments with multiple GPU devices. This approach allows the construction of global alignments between datasets of numerous lengthy sequences in reasonable time. Our implementation achieves expressive results, showing speedups of up to 380 when compared to the parallel ClustalW-MPI aligner for datasets obtained from NCBI’s sequence databases.
publishDate 2021
dc.date.accessioned.fl_str_mv 2021-06-30T17:41:53Z
dc.date.available.fl_str_mv 2021-09-30T19:55:49Z
dc.date.issued.fl_str_mv 2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufms.br/handle/123456789/3807
url https://repositorio.ufms.br/handle/123456789/3807
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.publisher.initials.fl_str_mv UFMS
dc.publisher.country.fl_str_mv Brasil
publisher.none.fl_str_mv Fundação Universidade Federal de Mato Grosso do Sul
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMS
instname:Universidade Federal de Mato Grosso do Sul (UFMS)
instacron:UFMS
instname_str Universidade Federal de Mato Grosso do Sul (UFMS)
instacron_str UFMS
institution UFMS
reponame_str Repositório Institucional da UFMS
collection Repositório Institucional da UFMS
bitstream.url.fl_str_mv https://repositorio.ufms.br/bitstream/123456789/3807/3/Tese_Final_Mestrado___Rodrigo_Siqueira.pdf.jpg
https://repositorio.ufms.br/bitstream/123456789/3807/2/Tese_Final_Mestrado___Rodrigo_Siqueira.pdf.txt
https://repositorio.ufms.br/bitstream/123456789/3807/1/Tese_Final_Mestrado___Rodrigo_Siqueira.pdf
bitstream.checksum.fl_str_mv e9fece253d82dea4069881f5d343b04f
2e506657fa821130a5aab2d65eb6b699
6ccec1f379eb74df46d1a28333ef5b3f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMS - Universidade Federal de Mato Grosso do Sul (UFMS)
repository.mail.fl_str_mv ri.prograd@ufms.br
_version_ 1807552820271906816