Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_RS |
Texto Completo: | http://tede2.pucrs.br/tede2/handle/tede/5196 |
Resumo: | Metagenomic sequencing technologies are advancing rapidly and the size of output data from high-throughput genetic sequencing has increased substantially over the years. Our optimízations and performance evaluations are focused in some of the most critical and time-consuming steps of a metagenomic analysís: pre-processing, taxonomic classification assignment and post-processing of classification results. Optimizations and functions were implemented and introduced in a new architecture, PANGEA+, based on the PANGEA metagenomic pipeline. The main improvements of the present tool are: support of new input file formats and NCBI taxonomy database, new species classification methods, consensus analysis, implementation of distributed memory (MPI) for species classification step, and low complexity optimizations for the post-processing of classification results. The evaluation of the new architecture, shows remarkable improvements in many features and, mainly, in the species classification accuracy and performance. |
id |
P_RS_4b374c807f454492e14d2dd2a9e4ee5f |
---|---|
oai_identifier_str |
oai:tede2.pucrs.br:tede/5196 |
network_acronym_str |
P_RS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
repository_id_str |
|
spelling |
Rose, César Augusto Fonticielha deCPF:57985057072http://buscatextual.cnpq.br/buscatextual/index.jspCPF:01431909033Dias, Raquel2015-04-14T14:49:55Z2012-11-262012-08-06DIAS, Raquel. Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos. 2012. 98 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012.http://tede2.pucrs.br/tede2/handle/tede/5196Metagenomic sequencing technologies are advancing rapidly and the size of output data from high-throughput genetic sequencing has increased substantially over the years. Our optimízations and performance evaluations are focused in some of the most critical and time-consuming steps of a metagenomic analysís: pre-processing, taxonomic classification assignment and post-processing of classification results. Optimizations and functions were implemented and introduced in a new architecture, PANGEA+, based on the PANGEA metagenomic pipeline. The main improvements of the present tool are: support of new input file formats and NCBI taxonomy database, new species classification methods, consensus analysis, implementation of distributed memory (MPI) for species classification step, and low complexity optimizations for the post-processing of classification results. The evaluation of the new architecture, shows remarkable improvements in many features and, mainly, in the species classification accuracy and performance.As tecnologias de sequenciamento metagenômico tem avançado rapidamente e a quantidade de dados gerados a partir do sequenciamento em larga escala tem aumentado substancialmente ao longo dos anos. As presentes otimizações e avaliações de desempenho tem foco em algumas das etapas mais críticas e que consomem mais tempo em uma análise metagenômica: pré-processamento, classificação taxonômica e pós - processamento dos resultados de classificação. Otimizações e funções foram implementadas e introduzidas em uma nova arquitetura, PANGEA+, baseada no pipeline metagenômico PANGEA. Os principais melhoramentos alcançados com a presente ferramenta foram: suporte a vários formatos de arquivos de entrada e a base de dados taxonômicos do NCBI, novos métodos de classificação de espécies incluídos, análise consenso, implementação de memória distribuída para a fase de classificação de espécies, otimizações de baixa complexidade para o pós-processamento dos resultados de classificação. A avaliação da nova arquitetura, PANGEA+, demonstra melhoramentos consideráveis em várias funcionalidades e, principalmente, na etapa de classificação de espécies, tanto em exatidão quanto em desempenho computacional.Made available in DSpace on 2015-04-14T14:49:55Z (GMT). No. of bitstreams: 1 444045.pdf: 8676416 bytes, checksum: 5dc6fddb810c5c4102aeef934f1d8983 (MD5) Previous issue date: 2012-08-06application/pdfhttp://tede2.pucrs.br:80/tede2/retrieve/16079/444045.pdf.jpgporPontifícia Universidade Católica do Rio Grande do SulPrograma de Pós-Graduação em Ciência da ComputaçãoPUCRSBRFaculdade de InformácaINFORMÁTICABIOLOGIA COMPUTACIONALANÁLISE DE DADOSBASE DE DADOSCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOOtimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis19749965330812744705006001946639708616176246info:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_RSinstname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)instacron:PUC_RSTHUMBNAIL444045.pdf.jpg444045.pdf.jpgimage/jpeg3588http://tede2.pucrs.br/tede2/bitstream/tede/5196/3/444045.pdf.jpgd55bd7dd8d273b3c6f6502eb9057a344MD53TEXT444045.pdf.txt444045.pdf.txttext/plain441307http://tede2.pucrs.br/tede2/bitstream/tede/5196/2/444045.pdf.txt60b48a807387dab97e077df1767f3594MD52ORIGINAL444045.pdfapplication/pdf8676416http://tede2.pucrs.br/tede2/bitstream/tede/5196/1/444045.pdf5dc6fddb810c5c4102aeef934f1d8983MD51tede/51962015-04-17 11:57:32.639oai:tede2.pucrs.br:tede/5196Biblioteca Digital de Teses e Dissertaçõeshttp://tede2.pucrs.br/tede2/PRIhttps://tede2.pucrs.br/oai/requestbiblioteca.central@pucrs.br||opendoar:2015-04-17T14:57:32Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS)false |
dc.title.por.fl_str_mv |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
title |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
spellingShingle |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos Dias, Raquel INFORMÁTICA BIOLOGIA COMPUTACIONAL ANÁLISE DE DADOS BASE DE DADOS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
title_full |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
title_fullStr |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
title_full_unstemmed |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
title_sort |
Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos |
author |
Dias, Raquel |
author_facet |
Dias, Raquel |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Rose, César Augusto Fonticielha de |
dc.contributor.advisor1ID.fl_str_mv |
CPF:57985057072 |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/index.jsp |
dc.contributor.authorID.fl_str_mv |
CPF:01431909033 |
dc.contributor.author.fl_str_mv |
Dias, Raquel |
contributor_str_mv |
Rose, César Augusto Fonticielha de |
dc.subject.por.fl_str_mv |
INFORMÁTICA BIOLOGIA COMPUTACIONAL ANÁLISE DE DADOS BASE DE DADOS |
topic |
INFORMÁTICA BIOLOGIA COMPUTACIONAL ANÁLISE DE DADOS BASE DE DADOS CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
Metagenomic sequencing technologies are advancing rapidly and the size of output data from high-throughput genetic sequencing has increased substantially over the years. Our optimízations and performance evaluations are focused in some of the most critical and time-consuming steps of a metagenomic analysís: pre-processing, taxonomic classification assignment and post-processing of classification results. Optimizations and functions were implemented and introduced in a new architecture, PANGEA+, based on the PANGEA metagenomic pipeline. The main improvements of the present tool are: support of new input file formats and NCBI taxonomy database, new species classification methods, consensus analysis, implementation of distributed memory (MPI) for species classification step, and low complexity optimizations for the post-processing of classification results. The evaluation of the new architecture, shows remarkable improvements in many features and, mainly, in the species classification accuracy and performance. |
publishDate |
2012 |
dc.date.available.fl_str_mv |
2012-11-26 |
dc.date.issued.fl_str_mv |
2012-08-06 |
dc.date.accessioned.fl_str_mv |
2015-04-14T14:49:55Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
DIAS, Raquel. Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos. 2012. 98 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012. |
dc.identifier.uri.fl_str_mv |
http://tede2.pucrs.br/tede2/handle/tede/5196 |
identifier_str_mv |
DIAS, Raquel. Otimizações qualitativas e quantitativas nas fases de leitura e análise em pipelines metagenômicos. 2012. 98 f. Dissertação (Mestrado em Ciência da Computação) - Pontifícia Universidade Católica do Rio Grande do Sul, Porto Alegre, 2012. |
url |
http://tede2.pucrs.br/tede2/handle/tede/5196 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.program.fl_str_mv |
1974996533081274470 |
dc.relation.confidence.fl_str_mv |
500 600 |
dc.relation.department.fl_str_mv |
1946639708616176246 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.publisher.program.fl_str_mv |
Programa de Pós-Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUCRS |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Faculdade de Informáca |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica do Rio Grande do Sul |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_RS instname:Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) instacron:PUC_RS |
instname_str |
Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
instacron_str |
PUC_RS |
institution |
PUC_RS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_RS |
bitstream.url.fl_str_mv |
http://tede2.pucrs.br/tede2/bitstream/tede/5196/3/444045.pdf.jpg http://tede2.pucrs.br/tede2/bitstream/tede/5196/2/444045.pdf.txt http://tede2.pucrs.br/tede2/bitstream/tede/5196/1/444045.pdf |
bitstream.checksum.fl_str_mv |
d55bd7dd8d273b3c6f6502eb9057a344 60b48a807387dab97e077df1767f3594 5dc6fddb810c5c4102aeef934f1d8983 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_RS - Pontifícia Universidade Católica do Rio Grande do Sul (PUCRS) |
repository.mail.fl_str_mv |
biblioteca.central@pucrs.br|| |
_version_ |
1799765306104610816 |