Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)

Detalhes bibliográficos
Autor(a) principal: Cruz, Álvaro Magri Nogueira da
Data de Publicação: 2020
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/193812
Resumo: Dentre os problemas que a bioinformática procura soluções factíveis está a busca por Polimorfismo de Nucleotídeo Simples (SNP, sigla em inglês). A detecção desse fenômeno em sequências de nucleotídeos é fundamental para possíveis inferências acerca de doenças e respostas a tratamentos, além de predições a susceptibilidade. A busca mostra-se eficiente quando trata-se de arquivos .ab1 que são provenientes de sequenciamento tipo Sanger. No entanto, no que se refere aos sequenciadores de nova geração (NGS, sigla em inglês) essa estratégia apresenta deficiências em relação ao tempo de processamento, visto que os arquivos gerados por este chegam a milhões de sequências. Algumas abordagens podem ser utilizadas a fim de amenizar esta deficiência por meio de hardwares paralelos. O paradigma multithread pode ser utilizado com o intuito de melhorar o desempenho do algoritmo, no entanto não se faz rápido o suficiente quando trata-se de um grande número de sequências. A Unidade de Processamento Gráfico (GPU, sigla em inglês) é uma alternativa, dado que esta opera com múltiplas unidades lógicas aritméticas, até milhares de unidades, bem diferente de um processador que opera com não mais do que uma dezena de unidades. A GPU torna-se mais viável, dado seu custo-benefício e características que são adequadas à resolução do problema em questão. Logo, o objetivo deste trabalho foi desenvolver um método para a busca de SNPs em arquivos NGS, com base em programação paralela com o uso de GPU. Dessa forma, foi possível observar o quão inviável torna-se a aplicação de CPU para processamento altamente paralelizável e com grande volume de dados genéticos. Em suma, foi possível obter um speedup de 5.176,86, ou seja, uma execução de 1,91 dias ora obtida por CPU, nesta proposta com GPU foi performada em 48,47 segundos.
id UNSP_280f83354f3e0007ca095aa930e837a9
oai_identifier_str oai:repositorio.unesp.br:11449/193812
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)Snp search optmization based on masks using graphic processing unit (GPU)BioinformáticaBusca por padrõesSNPsGPUOtimizaçãoBioinformaticsPattern searchOptimizationDentre os problemas que a bioinformática procura soluções factíveis está a busca por Polimorfismo de Nucleotídeo Simples (SNP, sigla em inglês). A detecção desse fenômeno em sequências de nucleotídeos é fundamental para possíveis inferências acerca de doenças e respostas a tratamentos, além de predições a susceptibilidade. A busca mostra-se eficiente quando trata-se de arquivos .ab1 que são provenientes de sequenciamento tipo Sanger. No entanto, no que se refere aos sequenciadores de nova geração (NGS, sigla em inglês) essa estratégia apresenta deficiências em relação ao tempo de processamento, visto que os arquivos gerados por este chegam a milhões de sequências. Algumas abordagens podem ser utilizadas a fim de amenizar esta deficiência por meio de hardwares paralelos. O paradigma multithread pode ser utilizado com o intuito de melhorar o desempenho do algoritmo, no entanto não se faz rápido o suficiente quando trata-se de um grande número de sequências. A Unidade de Processamento Gráfico (GPU, sigla em inglês) é uma alternativa, dado que esta opera com múltiplas unidades lógicas aritméticas, até milhares de unidades, bem diferente de um processador que opera com não mais do que uma dezena de unidades. A GPU torna-se mais viável, dado seu custo-benefício e características que são adequadas à resolução do problema em questão. Logo, o objetivo deste trabalho foi desenvolver um método para a busca de SNPs em arquivos NGS, com base em programação paralela com o uso de GPU. Dessa forma, foi possível observar o quão inviável torna-se a aplicação de CPU para processamento altamente paralelizável e com grande volume de dados genéticos. Em suma, foi possível obter um speedup de 5.176,86, ou seja, uma execução de 1,91 dias ora obtida por CPU, nesta proposta com GPU foi performada em 48,47 segundos.Among the problems that bioinformatics looks for feasible solutions is the search for Simple Nucleotide Polymorphism (SNP). The detection of this phenomenon in nucleotide sequences is fundamental for possible inferences about diseases and responses to treatments, beyond as susceptibility predictions. The search is efficient when it comes to .ab1 files that are derived from Sanger sequencing. However, with regard to the Next Generation Sequencing (NGS) this strategy presents deficiencies in relation to the processing time, since the files generated by it arrive at millions of sequences. Some approaches can be used to mitigate this deficiency by relying on parallel hardware. The multithreaded paradigm can be used to improve the performance of the algorithm, however it is not done fast enough when it is a large number of sequences. The Graphics Processing Unit (GPU) is an alternative, since it operates with multiple arithmetic logical units, reaching the house of hundreds of units, quite different from a processor that operates with no more than a dozen units. The GPU becomes more feasible, given its cost-effectiveness and characteristics that are adequate to solve the problem in question. Therefore, the objective of this work was to develop a method to searching for SNPs in NGS files, based on parallel programming using GPU. Thus, it was possible to note how unfeasible the application of CPU becomes for highly parallelizable processing and with a large volume of genetic data. In short, it was possible to obtain a speedup of 5,176.86, i.e, execution of 1.91 days now obtained by CPU, in this proposal with GPU it was performed in 48.47 seconds.Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)CAPES: 88882.434386/2019-01Universidade Estadual Paulista (Unesp)Zafalon, Geraldo Francisco Donegá [UNESP]Universidade Estadual Paulista (Unesp)Cruz, Álvaro Magri Nogueira da2020-10-07T20:32:05Z2020-10-07T20:32:05Z2020-08-13info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/11449/19381233004153073P2porinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESP2023-10-06T06:07:15Zoai:repositorio.unesp.br:11449/193812Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T14:10:07.857362Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
Snp search optmization based on masks using graphic processing unit (GPU)
title Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
spellingShingle Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
Cruz, Álvaro Magri Nogueira da
Bioinformática
Busca por padrões
SNPs
GPU
Otimização
Bioinformatics
Pattern search
Optimization
title_short Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
title_full Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
title_fullStr Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
title_full_unstemmed Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
title_sort Otimização de busca por SNPs baseada em máscaras por meio de unidade de processamento gráfico (GPU)
author Cruz, Álvaro Magri Nogueira da
author_facet Cruz, Álvaro Magri Nogueira da
author_role author
dc.contributor.none.fl_str_mv Zafalon, Geraldo Francisco Donegá [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Cruz, Álvaro Magri Nogueira da
dc.subject.por.fl_str_mv Bioinformática
Busca por padrões
SNPs
GPU
Otimização
Bioinformatics
Pattern search
Optimization
topic Bioinformática
Busca por padrões
SNPs
GPU
Otimização
Bioinformatics
Pattern search
Optimization
description Dentre os problemas que a bioinformática procura soluções factíveis está a busca por Polimorfismo de Nucleotídeo Simples (SNP, sigla em inglês). A detecção desse fenômeno em sequências de nucleotídeos é fundamental para possíveis inferências acerca de doenças e respostas a tratamentos, além de predições a susceptibilidade. A busca mostra-se eficiente quando trata-se de arquivos .ab1 que são provenientes de sequenciamento tipo Sanger. No entanto, no que se refere aos sequenciadores de nova geração (NGS, sigla em inglês) essa estratégia apresenta deficiências em relação ao tempo de processamento, visto que os arquivos gerados por este chegam a milhões de sequências. Algumas abordagens podem ser utilizadas a fim de amenizar esta deficiência por meio de hardwares paralelos. O paradigma multithread pode ser utilizado com o intuito de melhorar o desempenho do algoritmo, no entanto não se faz rápido o suficiente quando trata-se de um grande número de sequências. A Unidade de Processamento Gráfico (GPU, sigla em inglês) é uma alternativa, dado que esta opera com múltiplas unidades lógicas aritméticas, até milhares de unidades, bem diferente de um processador que opera com não mais do que uma dezena de unidades. A GPU torna-se mais viável, dado seu custo-benefício e características que são adequadas à resolução do problema em questão. Logo, o objetivo deste trabalho foi desenvolver um método para a busca de SNPs em arquivos NGS, com base em programação paralela com o uso de GPU. Dessa forma, foi possível observar o quão inviável torna-se a aplicação de CPU para processamento altamente paralelizável e com grande volume de dados genéticos. Em suma, foi possível obter um speedup de 5.176,86, ou seja, uma execução de 1,91 dias ora obtida por CPU, nesta proposta com GPU foi performada em 48,47 segundos.
publishDate 2020
dc.date.none.fl_str_mv 2020-10-07T20:32:05Z
2020-10-07T20:32:05Z
2020-08-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/11449/193812
33004153073P2
url http://hdl.handle.net/11449/193812
identifier_str_mv 33004153073P2
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808128327062388736