Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa
Autor(a) principal: | |
---|---|
Data de Publicação: | 2011 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://locus.ufv.br/handle/123456789/4038 |
Resumo: | Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs. |
id |
UFV_9b36db2de351423c6df617fece8836d3 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/4038 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Paula, Fernanda Vital dehttp://lattes.cnpq.br/9279556456110004Nascimento, Carlos Souza dohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4734058H3Silva, Fabyano Fonseca ehttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2Cecon, Paulo Robertohttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5Santos, Gérson Rodrigues doshttp://lattes.cnpq.br/0674757734832405Caetano, Sidney Martinshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706384A92015-03-26T13:32:11Z2011-11-032015-03-26T13:32:11Z2011-02-11PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011.http://locus.ufv.br/handle/123456789/4038Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs.Pesquisas de Expressed Sequence Tags (ESTs) são uma ferramenta fundamental para identificação de genes em estudos de seqüenciamento de vários organismos. Dado uma amostra preliminar de EST de uma certa biblioteca de cDNA, vários problemas estatísticos de predição podem surgir. Em particular, é de interesse calcular o número de genes, Δ(t), que podem ser descobertos em uma amostra futura de EST t vezes maior que a amostra original. Esta e outras estatísticas, apresentadas por Susko e Roger (2004), tais como cobertura e o número de leituras necessárias para se descobrir um novo gene são úteis para direcionar protocolos de sequenciamento por meio do cálculo do grau de redundância de uma biblioteca de cDNA. Este cálculo visa maximizar a obtenção de genes durante um sequenciamento de ESTs, porém, este ainda é visto como um procedimento de custo elevado e adequações de técnicas para redução de tal custo é de fundamental importância. O presente trabalho tem como objetivo apresentar os aspectos teóricos da metodologia proposta por Susko e Roger (2004), implementá-la computacionalmente no software livre R e principalmente propor uma abordagem bayesiana para a estimação de Δ(t). Toda a metodologia foi aplicada a dois conjuntos de dados: o primeiro diz respeito a duas bibliotecas de cDNA referentes ao organismo Mastigamoeba Balamuthi e o segundo a duas bibliotecas de cDNA referentes à pele de bovinos F2 (Holandês × Gir) infestados pelo carrapato Riphicephalus (Boophilus) microplus. Para os dois conjuntos de dados as estimativas por intervalo obtidas para Δ(t) foram consideravelmente mais precisas quando se utilizou a inferência bayesiana, indicando que a mesma apresenta-se como uma alternativa viável para estudos relacionados ao cálculo da redundância em análises de ESTs.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Estatística Aplicada e BiometriaUFVBREstatística Aplicada e BiometriaBiblioteca de cDNA, Inferência bayesianaMCMCcDNA libraryBayesian inferenceMCMCCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICAMétodos estatísticos aplicados à análise de dados de etiqueta de sequência expressaStatistical methods applied to expressed sequence tag data analisysinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf1269139https://locus.ufv.br//bitstream/123456789/4038/1/texto%20completo.pdffdc7582f5126976de599ae9dd1f052cdMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain119230https://locus.ufv.br//bitstream/123456789/4038/2/texto%20completo.pdf.txt23e591036598f622fd458e03e64a4709MD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3581https://locus.ufv.br//bitstream/123456789/4038/3/texto%20completo.pdf.jpg363a4bdbb437848538fa7a7d65003d58MD53123456789/40382016-04-09 23:17:58.47oai:locus.ufv.br:123456789/4038Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-10T02:17:58LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.por.fl_str_mv |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
dc.title.alternative.eng.fl_str_mv |
Statistical methods applied to expressed sequence tag data analisys |
title |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
spellingShingle |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa Paula, Fernanda Vital de Biblioteca de cDNA, Inferência bayesiana MCMC cDNA library Bayesian inference MCMC CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
title_short |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
title_full |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
title_fullStr |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
title_full_unstemmed |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
title_sort |
Métodos estatísticos aplicados à análise de dados de etiqueta de sequência expressa |
author |
Paula, Fernanda Vital de |
author_facet |
Paula, Fernanda Vital de |
author_role |
author |
dc.contributor.authorLattes.por.fl_str_mv |
http://lattes.cnpq.br/9279556456110004 |
dc.contributor.author.fl_str_mv |
Paula, Fernanda Vital de |
dc.contributor.advisor-co1.fl_str_mv |
Nascimento, Carlos Souza do |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4734058H3 |
dc.contributor.advisor1.fl_str_mv |
Silva, Fabyano Fonseca e |
dc.contributor.advisor1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4766260Z2 |
dc.contributor.referee1.fl_str_mv |
Cecon, Paulo Roberto |
dc.contributor.referee1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788114T5 |
dc.contributor.referee2.fl_str_mv |
Santos, Gérson Rodrigues dos |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/0674757734832405 |
dc.contributor.referee3.fl_str_mv |
Caetano, Sidney Martins |
dc.contributor.referee3Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4706384A9 |
contributor_str_mv |
Nascimento, Carlos Souza do Silva, Fabyano Fonseca e Cecon, Paulo Roberto Santos, Gérson Rodrigues dos Caetano, Sidney Martins |
dc.subject.por.fl_str_mv |
Biblioteca de cDNA, Inferência bayesiana MCMC |
topic |
Biblioteca de cDNA, Inferência bayesiana MCMC cDNA library Bayesian inference MCMC CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
dc.subject.eng.fl_str_mv |
cDNA library Bayesian inference MCMC |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::ESTATISTICA |
description |
Expressed sequence tags (ESTs) surveys are a fundamental tools to identify genes in sequencing studies of various organisms. Given a EST preliminary sample from a certain cDNA library, several prediction statistical problems can arise. Particularly, to calculate the number of genes, Δ (t), which may be discovered in a future EST sample t times larger than the original sample is interesting. This and other ststistics, presented by Susko and Roger (2004), such as coverage and number of necessary readings to discover a new gene are useful for direct sequencing protocols by calculating the degree of redundancy of a cDNA library. This calculation seeks to maximize the obtaining of genes during a EST sequencing, however this is still seen as a costly procedure and adequacy techniques for reducing such costs is of fundamental importance. The present work has as objective to present the theoretical aspects of the methodology proposed by Susko and Roger (2004), to implement computationally the methodology in the free software R and mainly to propose a bayesian approach for estimating Δ (t). All the methodology was applied to two data sets: the first concerns two cDNA libraries from Mastigamoeba balamuthi organism and the second concerns two cDNA libraries from skin of F2 (Holstein × Gyr) bovine infested with the ticks Riphicephalus (Boophilus) microplus. For both data sets the interval estimates obtained for Δ (t) were significantly more accurate when the Bayesian inference was used, indicating that it is an aviable alternative for studies related to the calculation of the redundancy in analysis of ESTs. |
publishDate |
2011 |
dc.date.available.fl_str_mv |
2011-11-03 2015-03-26T13:32:11Z |
dc.date.issued.fl_str_mv |
2011-02-11 |
dc.date.accessioned.fl_str_mv |
2015-03-26T13:32:11Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011. |
dc.identifier.uri.fl_str_mv |
http://locus.ufv.br/handle/123456789/4038 |
identifier_str_mv |
PAULA, Fernanda Vital de. Statistical methods applied to expressed sequence tag data analisys. 2011. 68 f. Dissertação (Mestrado em Estatística Aplicada e Biometria) - Universidade Federal de Viçosa, Viçosa, 2011. |
url |
http://locus.ufv.br/handle/123456789/4038 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.publisher.program.fl_str_mv |
Mestrado em Estatística Aplicada e Biometria |
dc.publisher.initials.fl_str_mv |
UFV |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Estatística Aplicada e Biometria |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/4038/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/4038/2/texto%20completo.pdf.txt https://locus.ufv.br//bitstream/123456789/4038/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
fdc7582f5126976de599ae9dd1f052cd 23e591036598f622fd458e03e64a4709 363a4bdbb437848538fa7a7d65003d58 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801212988051423232 |