Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas
Autor(a) principal: | |
---|---|
Data de Publicação: | 2017 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/356 |
Resumo: | Embora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK. |
id |
LNCC_c3313bfe6d08ea9c7851453e2f9f0674 |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/356 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomasBioinformáticaProcessamento paraleloMetagenomaCNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALEmbora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK.Although metagenomics is a new area in science, in recent years there has been an explosion in computational methods applied to the metagenomes. The development of sequencing technology has exponentially increased the amount of data contained in a file from the sequencing of a genetic sample and consequently its complexity. Most of the tools developed to compress the sequencing data for the analysis employ algorithms for the processing of k-mers. The k-mer term is used as a reference to all possible combinations of length k that are contained in an arbitrary data sequence and due of their combinatorial nature, it demands a lot of processing power. The main contribution of this dissertation work is the development of a deterministic k-mer counting algorithm, the CFRK, for a GPGPU architecture, which can be considered as a low-cost, high-performance computing platform. After the validation tests, we performed experiments that demonstrate that CFRK is more efficient than the Jellyfish algorithm, considered the state of the art for k-mers accounting algorithms for values of k ≤ 5. As a secondary contribution, an extension of the CFRK for distributed memory environments, the MCFRK, were developed using the MPI library. This algorithm arose from the need to process files that, because of their large amount of data, could not be allocated in the main memory of a workstation. Our experiments show that MCFRK executes faster tha CFRK and Jellyfish for all cases with k ≤ 5. As a final contribution, an extension of the CFRK for scientific workflow environments with provenence, SFRK, was developed. The great advantage of SCFRK over MCFRK is that any change made to the CFRK will be automatically integrated into the SCFRK. Our experiments show that SCFRK presents better performance than CFRK and Jellyfish algorithms.Conselho Nacional de Desenvolvimento Científico e TecnológicoLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BrasilLNCCPrograma de Pós-Graduação em Modelagem ComputacionalOsthoff, CarlaVasconcelos, Ana Tereza Ribeiro deOsthoff, CarlaMattoso, Marta Lima de QueirosGautherot, Kary Ann del Carmen OcañaSouto, Roberto PintoVilasbôas, Fabrício Gomes2023-04-19T14:14:34Z2017-10-31info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVILASBÔAS, F. G. Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas. 2017.118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2017.https://tede.lncc.br/handle/tede/356porhttp://creativecommons.org/licenses/by-nc-nd/4.0/info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-04-20T04:21:41Zoai:tede-server.lncc.br:tede/356Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-04-20T04:21:41Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.none.fl_str_mv |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
title |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
spellingShingle |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas Vilasbôas, Fabrício Gomes Bioinformática Processamento paralelo Metagenoma CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
title_short |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
title_full |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
title_fullStr |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
title_full_unstemmed |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
title_sort |
Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas |
author |
Vilasbôas, Fabrício Gomes |
author_facet |
Vilasbôas, Fabrício Gomes |
author_role |
author |
dc.contributor.none.fl_str_mv |
Osthoff, Carla Vasconcelos, Ana Tereza Ribeiro de Osthoff, Carla Mattoso, Marta Lima de Queiros Gautherot, Kary Ann del Carmen Ocaña Souto, Roberto Pinto |
dc.contributor.author.fl_str_mv |
Vilasbôas, Fabrício Gomes |
dc.subject.por.fl_str_mv |
Bioinformática Processamento paralelo Metagenoma CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
topic |
Bioinformática Processamento paralelo Metagenoma CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
description |
Embora a metagenômica seja uma nova área na ciência, nos últimos anos houve uma explosão em métodos computacionais aplicados ao metagenoma. O desenvolvimento da tec- nologia de sequenciamento aumentou de forma exponencial a quantidade de dados contida em um arquivo oriundo do sequenciamento de uma amostra genética e consequentemente a sua complexidade de análise. Grande parte das ferramentas desenvolvidas para compactar os dados do sequenciamento para a análise empregam algoritmos para o processamento de k-mers. O termo k-mer é utilizado como referência a todas as possíveis combinações de comprimento k que estão contidas em uma sequência de dados arbitrária e por sua natureza combinatória demanda muito poder de processamento. De forma a diminuir o tempo de processamento as ferramentas mais utilizadas implementam algoritmos probabi- lísticos, que não apresentam a mesma precisão nos resultados quando comparados com algoritmos determinísticos. Com o advento das novas tecnologias manycore, passou a ser viável a implementação de algoritmos determinísticos com baixo custo computacional. A principal contribuição deste trabalho de dissertação é o desenvolvimento de um algoritmo de contabilização de k-mer determinístico, o CFRK (Contabilizador da Frequência de Repetição de K-mers), para uma arquitetura GPGPU, que pode ser considerada como uma plataforma computacional de alto desempenho de baixo custo. Após os testes de validação, realizamos experimentos que demostram que o CFRK é mais eficiente que o algoritmo Jellyfish, considerado o padrão de fato para algoritmos de contabilização de k-mers para valores de k ≤ 5, que são valores de k mais utilizados para análises sensitivas. Como contribuição secundária, se desenvolveu uma extensão do CFRK para ambientes de memória distribuída, o MCFRK, utilizando a biblioteca MPI para arquivos contendo grande bases de dados. Este algoritmo surgiu da necessidade do processamento de arquivos que, pela sua grande quantidade de dados, não poderiam ser alocados na memória principal de uma estação de trabalho. Nossos experimentos mostram que o MCFRK apresenta um menor tempo de execução em relação ao CFRK para todos os casos analisados. Como contribuição final desenvolvemos o SCFRK, uma extensão do CFRK que permite sua integração em ambientes de workfows científicos para futura implementação no portal bioinfo. Nossos experimentos demonstram que o SCFRK manteve um alto ganho em relação ao CFRK. |
publishDate |
2017 |
dc.date.none.fl_str_mv |
2017-10-31 2023-04-19T14:14:34Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
VILASBÔAS, F. G. Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas. 2017.118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2017. https://tede.lncc.br/handle/tede/356 |
identifier_str_mv |
VILASBÔAS, F. G. Método computacional baseado em GPU para contabilização de k-mers aplicado a metagenomas. 2017.118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2017. |
url |
https://tede.lncc.br/handle/tede/356 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
http://creativecommons.org/licenses/by-nc-nd/4.0/ |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) Brasil LNCC Programa de Pós-Graduação em Modelagem Computacional |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1816081207297835008 |