Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq

Detalhes bibliográficos
Autor(a) principal: Covre, Rafael Antonio
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPR
Texto Completo: http://hdl.handle.net/1884/40772
Resumo: Orientadora : Profª. Drª. Rose Adele Monteiro
id UFPR_95b727f5f5e1b4e3eedaf48cc0248c03
oai_identifier_str oai:acervodigital.ufpr.br:1884/40772
network_acronym_str UFPR
network_name_str Repositório Institucional da UFPR
repository_id_str 308
spelling Covre, Rafael AntonioSilva, Adriano Barbosa daUniversidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em BioinformáticaMonteiro, Rose Adele2016-02-25T16:59:28Z2016-02-25T16:59:28Z2013http://hdl.handle.net/1884/40772Orientadora : Profª. Drª. Rose Adele MonteiroCo-orientador : Prof. Dr. Adriano Barbosa da SilvaDissertação (mestrado) - Universidade Federal do Paraná, Setor de Educação Profissional e Tecnológica, Programa de Pós-Graduação em Bioinformática. Defesa: Curitiba, 14/05/2013Inclui referências : f. 79-84Resumo: Transcriptoma e o conjunto completo de transcritos de uma célula em uma dada condição fisiológica e/ou de desenvolvimento. Atualmente, ha varias abordagens para se estudar o transcriptoma, tal como a tecnologia de RNA-Seq, a qual e uma metodologia de alta produção (high-throughput), alta resolução e baixo custo. Esta tecnologia e inovadora devido a independência do conhecimento prévio do genoma do organismo em estudo, revela os limites de transcrição e variações na sequencia, detecta níveis de expressão e não demanda uma grande quantidade de amostras de RNA. Uma das analises principais em dados de RNA-Seq e a detecção de genes diferencialmente expressos em diferentes condições experimentais. O presente trabalho descreve Wedring, um pipeline desenvolvido nas linguagens de programação Python e R, além de integrar softwares de bioinformática. O objetivo de Wedring e determinar genes diferencialmente expressos a partir de experimentos de RNA-Seq. Wedring também visa ser facilmente inserido em outros pipelines, possibilitar o desenvolvimento de serviços web para analise de RNA-Seq e prover meios para facilitar a visualização dos dados para os usuários. Wedring usa o software Bowtie para mapear leituras curtas em genomas. Bowtie e eficiente em termos de uso de memoria e tempo de execução. Wedring também usa o software mapeador TopHat, o qual e baseado no Bowtie e é mais adequado para a analise de genomas eucarióticos. Outros softwares utilizados por Wedring são SAMtools e BEDTools, que sao utilizados para manipular arquivos de mapeamento no formato SAM/BAM. O ultimo software utilizado por Wedring e o DESeq, uma biblioteca de R do projeto Bioconductor. DESeq visa aplicar estatisticas sobre contagens para se inferir genes diferencialmente expressos dado um numero de condições experimentais. Os dados de entrada para o Wedring são o genoma de referencia, o arquivo de características genômicas no formato GFF, as bibliotecas e as condições experimentais. Dados de RNA-Seq de Azospirillum brasilense fp2, uma bactéria fixadora de nitrogênio, foram utilizados para se testar o Wedring. Um total de duas bibliotecas controle e três de tratamento (condição de fixação de A. brasilense fp2), sequenciadas utilizando-se a tecnologia SOLiD foram utilizadas. Ao final da analise 95 genes foram indicados como diferencialmente expressos. Uma analise de qualidade das bibliotecas foi feita e os parâmetros de Wedring foram redefinidos para remover 20 bases da extremidade 3' das leituras. Essa mudança fez com que Bowtie se tornasse mais seletivo para reportar mapeamentos validos, resultando em 141 genes diferencialmente expressos (67 sobreexpressos e 74 subexpressos). A analise de A. brasilense fp2 com o Wedring foi realizada utilizando-se uma única linha de comando, facilitando o processo de analise de expressão genica em experimentos de RNA-Seq. Palavras-chave: Wedring, RNA-Seq. Expressão genica diferencial. Azospirillum brasilense fp2. Fixação biológica de nitrogênio.Abstract: Transcriptome refers to the complete set of the RNA transcripts for a specific cellular developmental/physiological condition. Currently, there are several approaches to study the transcriptome, such as the sequence-based ones, like RNA-Seq technology. RNA-Seq is a recent high-throughput, high resolution and low cost methodology. This technique is innovative due to its independence of previous knowledge about the genome of the target organism. It reveals transcription boundaries, sequence variations, detects expression levels and doesn't require large amounts of RNA samples. One of the main analysis using RNA-Seq data is the detection of differentially expressed genes across different experimental conditions. The current work describes Wedring, a pipeline developed using Python and R programming languages and bioinformatical softwares, whose objective is the achievement of differentially expressed genes lists derived from RNA-Seq experiments. It also aims to be easily embedded in other pipelines due to its modular nature, enable the development of web-services for RNA-Seq analysis and provide users with an easy vizualization of data. Wedring pipeline uses the Bowtie aligner to map short reads to genomes, this software is efficient in terms of memory footprint and execution time. Bowtie indexes genomes using the Burrows-Wheeler Transformation to achieve fast searches in the genome using low amounts of computer memory. Wedring also uses the TopHat mapper (which has Bowtie as its base). Because TopHat is designed to discover splicing junctions, it is more suitable to analyze eukaryotic genomes than Bowtie alone. Other tools used by Wedring are SAMtools and BEDTools, which are softwares used to manipulate mapping files in SAM/BAM formats. The last software used by Wedring is the DESeq, an R library from the Bioconductor project. DESeq aims to apply statistics based on the Negative Binomial Distribution over a count dataset to discover which genes are differentially expressed given a number of experimental conditions. Wedring's inputs are the reference genome, the genomic features file in GFF format, the sequenced libraries and the experimental conditions. RNA-Seq data of Azospirillum brasilense fp2, a nitrogen fixing bacteria, was used as a study case to test Wedring. A total of five libraries, two controls and three treatments, sequenced with SOLiD were used, where the treatments refer to the fixing condition of A. brasilense fp2. At the end of the analysis 95 genes were differentially expressed. A quality analysis of the libraries was performed and Wedring's parameters were reset to trim 20 bases from the reads 3' end. With this change Bowtie could be more selective to report a valid mapping, resulting in 141 differentially expressed genes (67 upregulated, 74 downregulated). The analysis of A. brasilense fp2 with Wedring was performed using a single command line, easing the process of analyzing gene expression in RNA-Seq experiments. Key-words: Wedring. RNA-Seq. Differential Gene Expression. Azospirillum brasilense fp2. Biological Nitrogen Fixation.88 f. : il. algumas color., tabs., grafs.application/pdfDisponível em formato digitalGenomasBioinformáticaExpressão gênicaWedring : pipeline para análise de expressão diferencial em experimento de RNA-Seqinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisporreponame:Repositório Institucional da UFPRinstname:Universidade Federal do Paraná (UFPR)instacron:UFPRinfo:eu-repo/semantics/openAccessORIGINALR - D - RAFAEL ANTONIO COVRE.pdfapplication/pdf2007350https://acervodigital.ufpr.br/bitstream/1884/40772/1/R%20-%20D%20-%20RAFAEL%20ANTONIO%20COVRE.pdf8df04518bfd5eeb997504bb377bd31caMD51open accessTEXTR - D - RAFAEL ANTONIO COVRE.pdf.txtExtracted Texttext/plain145019https://acervodigital.ufpr.br/bitstream/1884/40772/2/R%20-%20D%20-%20RAFAEL%20ANTONIO%20COVRE.pdf.txt9b246496178d3ee63a280dca08236d16MD52open accessTHUMBNAILR - D - RAFAEL ANTONIO COVRE.pdf.jpgR - D - RAFAEL ANTONIO COVRE.pdf.jpgGenerated Thumbnailimage/jpeg1206https://acervodigital.ufpr.br/bitstream/1884/40772/3/R%20-%20D%20-%20RAFAEL%20ANTONIO%20COVRE.pdf.jpg5bf74e7a93598c36edf9c080718cff36MD53open access1884/407722016-04-08 04:18:26.985open accessoai:acervodigital.ufpr.br:1884/40772Repositório de PublicaçõesPUBhttp://acervodigital.ufpr.br/oai/requestopendoar:3082016-04-08T07:18:26Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)false
dc.title.none.fl_str_mv Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
title Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
spellingShingle Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
Covre, Rafael Antonio
Genomas
Bioinformática
Expressão gênica
title_short Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
title_full Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
title_fullStr Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
title_full_unstemmed Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
title_sort Wedring : pipeline para análise de expressão diferencial em experimento de RNA-Seq
author Covre, Rafael Antonio
author_facet Covre, Rafael Antonio
author_role author
dc.contributor.other.none.fl_str_mv Silva, Adriano Barbosa da
Universidade Federal do Paraná. Setor de Educação Profissional e Tecnológica. Programa de Pós-Graduação em Bioinformática
dc.contributor.author.fl_str_mv Covre, Rafael Antonio
dc.contributor.advisor1.fl_str_mv Monteiro, Rose Adele
contributor_str_mv Monteiro, Rose Adele
dc.subject.por.fl_str_mv Genomas
Bioinformática
Expressão gênica
topic Genomas
Bioinformática
Expressão gênica
description Orientadora : Profª. Drª. Rose Adele Monteiro
publishDate 2013
dc.date.issued.fl_str_mv 2013
dc.date.accessioned.fl_str_mv 2016-02-25T16:59:28Z
dc.date.available.fl_str_mv 2016-02-25T16:59:28Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1884/40772
url http://hdl.handle.net/1884/40772
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Disponível em formato digital
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 88 f. : il. algumas color., tabs., grafs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPR
instname:Universidade Federal do Paraná (UFPR)
instacron:UFPR
instname_str Universidade Federal do Paraná (UFPR)
instacron_str UFPR
institution UFPR
reponame_str Repositório Institucional da UFPR
collection Repositório Institucional da UFPR
bitstream.url.fl_str_mv https://acervodigital.ufpr.br/bitstream/1884/40772/1/R%20-%20D%20-%20RAFAEL%20ANTONIO%20COVRE.pdf
https://acervodigital.ufpr.br/bitstream/1884/40772/2/R%20-%20D%20-%20RAFAEL%20ANTONIO%20COVRE.pdf.txt
https://acervodigital.ufpr.br/bitstream/1884/40772/3/R%20-%20D%20-%20RAFAEL%20ANTONIO%20COVRE.pdf.jpg
bitstream.checksum.fl_str_mv 8df04518bfd5eeb997504bb377bd31ca
9b246496178d3ee63a280dca08236d16
5bf74e7a93598c36edf9c080718cff36
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPR - Universidade Federal do Paraná (UFPR)
repository.mail.fl_str_mv
_version_ 1801860307455311872