Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos

Detalhes bibliográficos
Autor(a) principal: Dias, Raquel
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_RS
Texto Completo: http://tede2.pucrs.br/tede2/handle/tede/5196
Resumo: Metagenomic sequencing technologies are advancing rapidly and the size of output data from high-throughput genetic sequencing has increased substantially over the years. Our optimízations and performance evaluations are focused in some of the most critical and time-consuming steps of a metagenomic analysís: pre-processing, taxonomic classification assignment and post-processing of classification results. Optimizations and functions were implemented and introduced in a new architecture, PANGEA+, based on the PANGEA metagenomic pipeline. The main improvements of the present tool are: support of new input file formats and NCBI taxonomy database, new species classification methods, consensus analysis, implementation of distributed memory (MPI) for species classification step, and low complexity optimizations for the post-processing of classification results. The evaluation of the new architecture, shows remarkable improvements in many features and, mainly, in the species classification accuracy and performance.
id P_RS_4b374c807f454492e14d2dd2a9e4ee5f
oai_identifier_str oai:tede2.pucrs.br:tede/5196
network_acronym_str P_RS
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_RS
repository_id_str
spelling Rose, César Augusto Fonticielha deCPF:57985057072http://buscatextual.cnpq.br/buscatextual/index.jspCPF:01431909033Dias, Raquel2015-04-14T14:49:55Z2012-11-262012-08-06DIAS, Raquel. Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos. 2012. 98 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.http://tede2.pucrs.br/tede2/handle/tede/5196Metagenomic sequencing technologies are advancing rapidly and the size of output data from high-throughput genetic sequencing has increased substantially over the years. Our optimízations and performance evaluations are focused in some of the most critical and time-consuming steps of a metagenomic analysís: pre-processing, taxonomic classification assignment and post-processing of classification results. Optimizations and functions were implemented and introduced in a new architecture, PANGEA+, based on the PANGEA metagenomic pipeline. The main improvements of the present tool are: support of new input file formats and NCBI taxonomy database, new species classification methods, consensus analysis, implementation of distributed memory (MPI) for species classification step, and low complexity optimizations for the post-processing of classification results. The evaluation of the new architecture, shows remarkable improvements in many features and, mainly, in the species classification accuracy and performance.As tecnologias de sequenciamento metagenômico tem avançado rapidamente e a quantidade de dados gerados a partir do sequenciamento em larga escala tem aumentado substancialmente ao longo dos anos. As presentes otimizações e avaliações de desempenho tem foco em algumas das etapas mais críticas e que consomem mais tempo em uma análise metagenômica: pré-processamento, classificação taxonômica e pós - processamento dos resultados de classificação. Otimizações e funções foram implementadas e introduzidas em uma nova arquitetura, PANGEA+, baseada no pipeline metagenômico PANGEA. Os principais melhoramentos alcançados com a presente ferramenta foram: suporte a vários formatos de arquivos de entrada e a base de dados taxonômicos do NCBI, novos métodos de classificação de espécies incluídos, análise consenso, implementação de memória distribuída para a fase de classificação de espécies, otimizações de baixa complexidade para o pós-processamento dos resultados de classificação. A avaliação da nova arquitetura, PANGEA+, demonstra melhoramentos consideráveis em várias funcionalidades e, principalmente, na etapa de classificação de espécies, tanto em exatidão quanto em desempenho computacional.Made available in DSpace on 2015-04-14T14:49:55Z (GMT). No. of bitstreams: 1 444045.pdf: 8676416 bytes, checksum: 5dc6fddb810c5c4102aeef934f1d8983 (MD5) Previous issue date: 2012-08-06application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/16079/444045.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBRFaculdade de InformácaINFORMÁTICABIOLOGIA COMPUTACIONALANÁLISE DE DADOSBASE DE DADOSCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOOtimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19749965330812744705006001946639708616176246info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL444045.pdf.jpg444045.pdf.jpgimage/jpeg3588http://tede2.pucrs.br/tede2/bitstream/tede/5196/3/444045.pdf.jpgd55bd7dd8d273b3c6f6502eb9057a344MD53TEXT444045.pdf.txt444045.pdf.txttext/plain441307http://tede2.pucrs.br/tede2/bitstream/tede/5196/2/444045.pdf.txt60b48a807387dab97e077df1767f3594MD52ORIGINAL444045.pdfapplication/pdf8676416http://tede2.pucrs.br/tede2/bitstream/tede/5196/1/444045.pdf5dc6fddb810c5c4102aeef934f1d8983MD51tede/51962015-04-17 11:57:32.639oai:tede2.pucrs.br:tede/5196Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-17T14:57:32Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false
dc.title.por.fl_str_mv Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
title Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
spellingShingle Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
Dias, Raquel
INFORMÁTICA
BIOLOGIA COMPUTACIONAL
ANÁLISE DE DADOS
BASE DE DADOS
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
title_short Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
title_full Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
title_fullStr Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
title_full_unstemmed Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
title_sort Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
author Dias, Raquel
author_facet Dias, Raquel
author_role author
dc.contributor.advisor1.fl_str_mv Rose, César Augusto Fonticielha de
dc.contributor.advisor1ID.fl_str_mv CPF:57985057072
dc.contributor.advisor1Lattes.fl_str_mv http://buscatextual.cnpq.br/buscatextual/index.jsp
dc.contributor.authorID.fl_str_mv CPF:01431909033
dc.contributor.author.fl_str_mv Dias, Raquel
contributor_str_mv Rose, César Augusto Fonticielha de
dc.subject.por.fl_str_mv INFORMÁTICA
BIOLOGIA COMPUTACIONAL
ANÁLISE DE DADOS
BASE DE DADOS
topic INFORMÁTICA
BIOLOGIA COMPUTACIONAL
ANÁLISE DE DADOS
BASE DE DADOS
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
description Metagenomic sequencing technologies are advancing rapidly and the size of output data from high-throughput genetic sequencing has increased substantially over the years. Our optimízations and performance evaluations are focused in some of the most critical and time-consuming steps of a metagenomic analysís: pre-processing, taxonomic classification assignment and post-processing of classification results. Optimizations and functions were implemented and introduced in a new architecture, PANGEA+, based on the PANGEA metagenomic pipeline. The main improvements of the present tool are: support of new input file formats and NCBI taxonomy database, new species classification methods, consensus analysis, implementation of distributed memory (MPI) for species classification step, and low complexity optimizations for the post-processing of classification results. The evaluation of the new architecture, shows remarkable improvements in many features and, mainly, in the species classification accuracy and performance.
publishDate 2012
dc.date.available.fl_str_mv 2012-11-26
dc.date.issued.fl_str_mv 2012-08-06
dc.date.accessioned.fl_str_mv 2015-04-14T14:49:55Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv DIAS, Raquel. Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos. 2012. 98 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.
dc.identifier.uri.fl_str_mv http://tede2.pucrs.br/tede2/handle/tede/5196
identifier_str_mv DIAS, Raquel. Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos. 2012. 98 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.
url http://tede2.pucrs.br/tede2/handle/tede/5196
dc.language.iso.fl_str_mv por
language por
dc.relation.program.fl_str_mv 1974996533081274470
dc.relation.confidence.fl_str_mv 500
600
dc.relation.department.fl_str_mv 1946639708616176246
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUCRS
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Faculdade de Informáca
publisher.none.fl_str_mv Pontifícia Universidade Católica do Rio Grande do Sul
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS
instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron:PUC_RS
instname_str Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
instacron_str PUC_RS
institution PUC_RS
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_RS
collection Biblioteca Digital de Teses e Dissertações da PUC_RS
bitstream.url.fl_str_mv http://tede2.pucrs.br/tede2/bitstream/tede/5196/3/444045.pdf.jpg
http://tede2.pucrs.br/tede2/bitstream/tede/5196/2/444045.pdf.txt
http://tede2.pucrs.br/tede2/bitstream/tede/5196/1/444045.pdf
bitstream.checksum.fl_str_mv d55bd7dd8d273b3c6f6502eb9057a344
60b48a807387dab97e077df1767f3594
5dc6fddb810c5c4102aeef934f1d8983
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)
repository.mail.fl_str_mv biblioteca.central@pucrs.br||
_version_ 1799765306104610816