Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID

Detalhes bibliográficos
Autor(a) principal: LOBATO, Fábio Manoel França
Data de Publicação: 2011
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFPA
Texto Completo: http://repositorio.ufpa.br/jspui/handle/2011/2829
Resumo: Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite, dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária.
id UFPA_f3c8394ea55f8ab3fd86e2accdb7a51e
oai_identifier_str oai:repositorio.ufpa.br:2011/2829
network_acronym_str UFPA
network_name_str Repositório Institucional da UFPA
repository_id_str 2123
spelling 2012-06-01T14:23:08Z2012-06-01T14:23:08Z2011-07-01LOBATO, Fábio Manoel França. Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID. 2011. 85 f. Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2011. Programa de Pós-Graduação em Engenharia Elétrica.http://repositorio.ufpa.br/jspui/handle/2011/2829Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite, dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária.The next generation sequencers such as Illumina and SOLiD platforms generate a large amount of data, commonly above 10 Gigabytes of text files. Particularly, the SOLiD platform allows the sequencing of multiple samples in a single run (called multiplex run) through a marking system called Barcode. This feature requires a computational process for separation of data per sample, therefore, the sequencer provides a mixture of all samples in a single output. This process must be secure to avoid any harm that may scramble further analysis. In this context, this dissertation proposes development of a probabilistic model capable of characterizing the marking system used in multiplex sequencing. The results corroborate the adequacy of the model obtained, which allows, among other things, identify faults in some step in the sequencing process, adapt and develop new protocols for sample preparation, and assign a grade to the reliability of data generated and guide a filtering process that respects the characteristics of each sequence, without discarding sequences useful in an arbitrary manner.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoporUniversidade Federal do ParáPrograma de Pós-Graduação em Engenharia ElétricaUFPABrasilInstituto de TecnologiaCNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE::PROCESSOS MARKOVIANOSBioinformáticaMineração de dados (Computação)Processo MarkovianoModelo matemáticoAbordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLIDinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisSANTANA, Ádamo Lima dehttp://lattes.cnpq.br/4073088744952858http://lattes.cnpq.br/8320014491229434LOBATO, Fábio Manoel Françainfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFPAinstname:Universidade Federal do Pará (UFPA)instacron:UFPAORIGINALDissertacao_AbordagemProbabilisticaCaracterizacao.pdfDissertacao_AbordagemProbabilisticaCaracterizacao.pdfapplication/pdf2216925http://repositorio.ufpa.br/oai/bitstream/2011/2829/1/Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf41db7a9e13836866a105b019e2d7ea99MD51CC-LICENSElicense_urllicense_urltext/plain; charset=utf-852http://repositorio.ufpa.br/oai/bitstream/2011/2829/2/license_url3d480ae6c91e310daba2020f8787d6f9MD52license_textlicense_texttext/html; charset=utf-80http://repositorio.ufpa.br/oai/bitstream/2011/2829/3/license_textd41d8cd98f00b204e9800998ecf8427eMD53license_rdflicense_rdfapplication/rdf+xml; charset=utf-823898http://repositorio.ufpa.br/oai/bitstream/2011/2829/4/license_rdfe363e809996cf46ada20da1accfcd9c7MD54LICENSElicense.txtlicense.txttext/plain; charset=utf-81748http://repositorio.ufpa.br/oai/bitstream/2011/2829/5/license.txt8a4605be74aa9ea9d79846c1fba20a33MD55TEXTDissertacao_AbordagemProbabilisticaCaracterizacao.pdf.txtDissertacao_AbordagemProbabilisticaCaracterizacao.pdf.txtExtracted texttext/plain136299http://repositorio.ufpa.br/oai/bitstream/2011/2829/6/Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf.txtae34448ed8128de788b3f0ee51f8841dMD562011/28292018-01-03 09:54:32.694oai:repositorio.ufpa.br:2011/2829Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttp://repositorio.ufpa.br/oai/requestriufpabc@ufpa.bropendoar:21232018-01-03T12:54:32Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)false
dc.title.pt_BR.fl_str_mv Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
title Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
spellingShingle Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
LOBATO, Fábio Manoel França
CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE::PROCESSOS MARKOVIANOS
Bioinformática
Mineração de dados (Computação)
Processo Markoviano
Modelo matemático
title_short Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
title_full Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
title_fullStr Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
title_full_unstemmed Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
title_sort Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID
author LOBATO, Fábio Manoel França
author_facet LOBATO, Fábio Manoel França
author_role author
dc.contributor.advisor1.fl_str_mv SANTANA, Ádamo Lima de
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/4073088744952858
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/8320014491229434
dc.contributor.author.fl_str_mv LOBATO, Fábio Manoel França
contributor_str_mv SANTANA, Ádamo Lima de
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE::PROCESSOS MARKOVIANOS
topic CNPQ::CIENCIAS EXATAS E DA TERRA::PROBABILIDADE E ESTATISTICA::PROBABILIDADE::PROCESSOS MARKOVIANOS
Bioinformática
Mineração de dados (Computação)
Processo Markoviano
Modelo matemático
dc.subject.por.fl_str_mv Bioinformática
Mineração de dados (Computação)
Processo Markoviano
Modelo matemático
description Os sequenciadores de nova geração como as plataformas Illumina e SOLiD geram uma grande quantidade de dados, comumente, acima de 10 Gigabytes de arquivos-texto. Particularmente, a plataforma SOLiD permite o sequenciamento de múltiplas amostras em uma única corrida (denominada de corrida multiplex) por meio de um sistema de marcação chamado Barcode. Esta funcionalidade requer um processo computacional para separação dos dados por amostra, pois, o sequenciador fornece a mistura de todas amostras em uma única saída. Este processo deve ser seguro a fim de evitar eventuais embaralhamentos que possam prejudicar as análises posteriores. Neste contexto, o presente trabalho propõe desenvolvimento de um modelo probabilístico capaz de caracterizar sistema de marcação utilizado em sequenciamentos multiplex. Os resultados obtidos corroboraram a suficiência do modelo obtido, o qual permite, dentre outras coisas, identificar faltas em algum passo do processo de sequenciamento; adaptar e desenvolver de novos protocolos para preparação de amostras, além de atribuir um Grau de Confiança aos dados gerados e guiar um processo de filtragem que respeite as características de cada sequenciamento, não descartando sequências úteis de forma arbitrária.
publishDate 2011
dc.date.issued.fl_str_mv 2011-07-01
dc.date.accessioned.fl_str_mv 2012-06-01T14:23:08Z
dc.date.available.fl_str_mv 2012-06-01T14:23:08Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv LOBATO, Fábio Manoel França. Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID. 2011. 85 f. Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2011. Programa de Pós-Graduação em Engenharia Elétrica.
dc.identifier.uri.fl_str_mv http://repositorio.ufpa.br/jspui/handle/2011/2829
identifier_str_mv LOBATO, Fábio Manoel França. Abordagem probabilística para caracterização do sistema de marcação de sequenciamento multiplex na plataforma ABI SOLID. 2011. 85 f. Dissertação (Mestrado) - Universidade Federal do Pará, Instituto de Tecnologia, Belém, 2011. Programa de Pós-Graduação em Engenharia Elétrica.
url http://repositorio.ufpa.br/jspui/handle/2011/2829
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal do Pará
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Engenharia Elétrica
dc.publisher.initials.fl_str_mv UFPA
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Instituto de Tecnologia
publisher.none.fl_str_mv Universidade Federal do Pará
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFPA
instname:Universidade Federal do Pará (UFPA)
instacron:UFPA
instname_str Universidade Federal do Pará (UFPA)
instacron_str UFPA
institution UFPA
reponame_str Repositório Institucional da UFPA
collection Repositório Institucional da UFPA
bitstream.url.fl_str_mv http://repositorio.ufpa.br/oai/bitstream/2011/2829/1/Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf
http://repositorio.ufpa.br/oai/bitstream/2011/2829/2/license_url
http://repositorio.ufpa.br/oai/bitstream/2011/2829/3/license_text
http://repositorio.ufpa.br/oai/bitstream/2011/2829/4/license_rdf
http://repositorio.ufpa.br/oai/bitstream/2011/2829/5/license.txt
http://repositorio.ufpa.br/oai/bitstream/2011/2829/6/Dissertacao_AbordagemProbabilisticaCaracterizacao.pdf.txt
bitstream.checksum.fl_str_mv 41db7a9e13836866a105b019e2d7ea99
3d480ae6c91e310daba2020f8787d6f9
d41d8cd98f00b204e9800998ecf8427e
e363e809996cf46ada20da1accfcd9c7
8a4605be74aa9ea9d79846c1fba20a33
ae34448ed8128de788b3f0ee51f8841d
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFPA - Universidade Federal do Pará (UFPA)
repository.mail.fl_str_mv riufpabc@ufpa.br
_version_ 1801771982759395328