Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas

Detalhes bibliográficos
Autor(a) principal: Vilasbôas, Fabrício Gomes
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/356
Resumo: Embora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK.
id LNCC_c3313bfe6d08ea9c7851453e2f9f0674
oai_identifier_str oai:tede-server.lncc.br:tede/356
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomasBioinformáticaProcessamento paraleloMetagenomaCNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALEmbora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK.Although metagenomics is a new area in science, in recent years there has been an explosion in computational methods applied to the metagenomes. The development of sequencing technology has exponentially increased the amount of data contained in a file from the sequencing of a genetic sample and consequently its complexity. Most of the tools developed to compress the sequencing data for the analysis employ algorithms for the processing of k-mers. The k-mer term is used as a reference to all possible combinations of length k that are contained in an arbitrary data sequence and due of their combinatorial nature, it demands a lot of processing power. The main contribution of this dissertation work is the development of a deterministic k-mer counting algorithm, the CFRK, for a GPGPU architecture, which can be considered as a low-cost, high-performance computing platform. After the validation tests, we performed experiments that demonstrate that CFRK is more efficient than the Jellyfish algorithm, considered the state of the art for k-mers accounting algorithms for values of k ≤ 5. As a secondary contribution, an extension of the CFRK for distributed memory environments, the MCFRK, were developed using the MPI library. This algorithm arose from the need to process files that, because of their large amount of data, could not be allocated in the main memory of a workstation. Our experiments show that MCFRK executes faster tha CFRK and Jellyfish for all cases with k ≤ 5. As a final contribution, an extension of the CFRK for scientific workflow environments with provenence, SFRK, was developed. The great advantage of SCFRK over MCFRK is that any change made to the CFRK will be automatically integrated into the SCFRK. Our experiments show that SCFRK presents better performance than CFRK and Jellyfish algorithms.Conselho Nacional de Desenvolvimento Científico e TecnológicoLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalOsthoff, CarlaVasconcelos, Ana Tereza Ribeiro deOsthoff, CarlaMattoso, Marta Lima de QueirosGautherot, Kary Ann del Carmen OcañaSouto, Roberto PintoVilasbôas, Fabrício Gomes2023-04-19T14:14:34Z2017-10-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVILASBÔAS, F. G. Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas. 2017.118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2017.https://tede.lncc.br/handle/tede/356porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-20T04:21:41Zoai:tede-server.lncc.br:tede/356Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-20T04:21:41Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.none.fl_str_mv Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
title Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
spellingShingle Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
Vilasbôas, Fabrício Gomes
Bioinformática
Processamento paralelo
Metagenoma
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
title_short Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
title_full Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
title_fullStr Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
title_full_unstemmed Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
title_sort Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
author Vilasbôas, Fabrício Gomes
author_facet Vilasbôas, Fabrício Gomes
author_role author
dc.contributor.none.fl_str_mv Osthoff, Carla
Vasconcelos, Ana Tereza Ribeiro de
Osthoff, Carla
Mattoso, Marta Lima de Queiros
Gautherot, Kary Ann del Carmen Ocaña
Souto, Roberto Pinto
dc.contributor.author.fl_str_mv Vilasbôas, Fabrício Gomes
dc.subject.por.fl_str_mv Bioinformática
Processamento paralelo
Metagenoma
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
topic Bioinformática
Processamento paralelo
Metagenoma
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
description Embora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK.
publishDate 2017
dc.date.none.fl_str_mv 2017-10-31
2023-04-19T14:14:34Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv VILASBÔAS, F. G. Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas. 2017.118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2017.
https://tede.lncc.br/handle/tede/356
identifier_str_mv VILASBÔAS, F. G. Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas. 2017.118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2017.
url https://tede.lncc.br/handle/tede/356
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv http://creativecommons.org/licenses/by-nc-nd/4.0/
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
Brasil
LNCC
Programa de Pós-Graduação em Modelagem Computacional
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1816081207297835008