Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração
Autor(a) principal: | |
---|---|
Data de Publicação: | 2014 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | LOCUS Repositório Institucional da UFV |
Texto Completo: | http://locus.ufv.br/handle/123456789/2677 |
Resumo: | The study of genomes brought a lot of gains to Medicine, Pharmacology and many other important science fields. However, many challenges emerged as a consequence, specially in Computer Science. The big amount of data and its complexity to be analyzed make arduous to extract the information needed. As the DNA sequencers are not able to get the sequence of the whole molecule at a glance, the sequencing process breaks the molecule and works with a lot of fragments. Those fragments need to be assembled in a next step. In the new-generation sequencers, the sequen- cing process is much faster and cheaper, but they return much smaller fragments compared to the output from Sanger technology. Besides the bigger set of fragments, the interference of sequencing errors complicates the process, classified as NP-hard. To handle this problem, the current DNA fragment assemblers run a lot of pre and postprocesses in the amount of data, aiming to eliminate or at least reduce the common problems. In this work, we propose a new approach of maximum- weighted maximum matching (first proposed for data from Sanger sequencing) for k-mer graphs that returns simpler components to work with (called unipaths), fol- lowed by an heuristic to combine those new components. Therefore, we want to do the assembly process in fewer steps. This crossing works with elongation of paths by the combination of unipaths. With a score system, the assembler tries to get longer paths combining the shorter ones, while minimizing the use of repeated re- gions. Because this is the beginning of a new approach for short fragments, it was not our intention to achieve a complete DNA assembler at its first version, but only to validate the proposed concept. In this work, we give focus specifically on the xiiassembly of sequences from new-generation sequencers. During the experiments, we identified that the assembler was able to return satisfatory results for half of the samples, but it needs some adjustments to improve the other results. Those adjust- ments would solve specific problems that this tool does not address yet. We also found out that the coverage by reads is determinant factor to get good outputs from this assembler. There are some future works that are necessary, such as decreasing memory usage and running time, as well as comparing this tool with other current available solutions. |
id |
UFV_c77999bc4faa2b66f0916febffbfa3c4 |
---|---|
oai_identifier_str |
oai:locus.ufv.br:123456789/2677 |
network_acronym_str |
UFV |
network_name_str |
LOCUS Repositório Institucional da UFV |
repository_id_str |
2145 |
spelling |
Couto, Adriano Donatohttp://lattes.cnpq.br/4192209349027039Oliveira, Alcione de Paivahttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788574J0Cerqueira, Fábio Ribeirohttp://lattes.cnpq.br/2788549078021456Fietto, Juliana Lopes Rangelhttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790238D0Ferreira, Ricardo dos Santoshttp://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723626E52015-03-26T13:10:41Z2014-11-112015-03-26T13:10:41Z2014-02-27COUTO, Adriano Donato. Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers. 2014. 99 f. Dissertação (Mestrado em Metodologias e técnicas da Computação; Sistemas de Computação) - Universidade Federal de Viçosa, Viçosa, 2014.http://locus.ufv.br/handle/123456789/2677The study of genomes brought a lot of gains to Medicine, Pharmacology and many other important science fields. However, many challenges emerged as a consequence, specially in Computer Science. The big amount of data and its complexity to be analyzed make arduous to extract the information needed. As the DNA sequencers are not able to get the sequence of the whole molecule at a glance, the sequencing process breaks the molecule and works with a lot of fragments. Those fragments need to be assembled in a next step. In the new-generation sequencers, the sequen- cing process is much faster and cheaper, but they return much smaller fragments compared to the output from Sanger technology. Besides the bigger set of fragments, the interference of sequencing errors complicates the process, classified as NP-hard. To handle this problem, the current DNA fragment assemblers run a lot of pre and postprocesses in the amount of data, aiming to eliminate or at least reduce the common problems. In this work, we propose a new approach of maximum- weighted maximum matching (first proposed for data from Sanger sequencing) for k-mer graphs that returns simpler components to work with (called unipaths), fol- lowed by an heuristic to combine those new components. Therefore, we want to do the assembly process in fewer steps. This crossing works with elongation of paths by the combination of unipaths. With a score system, the assembler tries to get longer paths combining the shorter ones, while minimizing the use of repeated re- gions. Because this is the beginning of a new approach for short fragments, it was not our intention to achieve a complete DNA assembler at its first version, but only to validate the proposed concept. In this work, we give focus specifically on the xiiassembly of sequences from new-generation sequencers. During the experiments, we identified that the assembler was able to return satisfatory results for half of the samples, but it needs some adjustments to improve the other results. Those adjust- ments would solve specific problems that this tool does not address yet. We also found out that the coverage by reads is determinant factor to get good outputs from this assembler. There are some future works that are necessary, such as decreasing memory usage and running time, as well as comparing this tool with other current available solutions.O estudo de genomas trouxe muitos ganhos para a medicina, farmacologia e di- versas outras áreas do conhecimento. Porém, muitos desafios também surgiram como consequência, em especial os computacionais. A grande massa de dados e sua complexidade para ser analisada tornam difícil o ato de extrair as informações neces- sárias. Como os sequenciadores de DNA não conseguem trabalhar com a molécula completa de uma vez, o sequenciador quebra a molécula e trabalha com diversos fragmentos, que precisam ser montados em um próximo passo. Nos sequenciadores de nova geração, o processo de sequenciamento é muito mais rápido e mais barato, mas também traz fragmentos muito menores do que aqueles obtidos na tecnologia Sanger. Além do maior número de fragmentos, a interferência dos erros de sequen- ciamento torna o processo complicado, sendo classificado como NP-Difícil. Para resolver esta situação, os montadores de fragmentos de DNA atuais executam uma série de pré e pós-processamentos nos dados gerados, a fim de eliminar ou pelo menos diminuir os desafios presentes. Neste trabalho, propõe-se uma nova abor- dagem de emparelhamento máximo de peso máximo (anteriormente proposta para fragmentos da tecnologia Sanger) em grafos k-mer, que retorna componentes mais simples de trabalhar (conhecidos como unipaths), junto com uma heurística para combinar esses componentes. Assim, busca-se fazer o processo de montagem em menos etapas. Este cruzamento trabalha com a extensão de caminhos através da combinação dos unipaths. Com um sistema de pontuação, o montador busca cons- truir caminhos maiores e com o mínimo de áreas repetidas. Por se tratar do início de uma nova abordagem para fragmentos curtos, este trabalho não visa obter um xmontador de DNA completo em sua primeira versão, mas validar o conceito pro- posto. Neste trabalho, foca-se especificamente na montagem de sequências obtidas de sequenciadores da nova geração. Durante os testes, percebeu-se que o protótipo consegue montar satisfatoriamente os genomas em metade dos casos, necessitando de alguns ajustes em próximas versões para os demais casos. Estes ajustes solucio- nariam problemas específicos que esta ferramenta ainda não soluciona. Levantou-se também que a cobertura de reads é fator determinante para bons resultados desta ferramenta. Há alguns trabalhos futuros necessários, como corte do gasto de memó- ria, diminuição do tempo de processamento e comparação com outras ferramentas disponíveis atualmente.Coordenação de Aperfeiçoamento de Pessoal de Nível Superiorapplication/pdfporUniversidade Federal de ViçosaMestrado em Ciência da ComputaçãoUFVBRMetodologias e técnicas da Computação; Sistemas de ComputaçãoBioinformáticaGenômicaSequenciamento de nucleotídeoTeoria dos grafosBioinformaticsGenomicsNucleotide sequencingGraph theoryCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOProposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geraçãoProposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencersinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:LOCUS Repositório Institucional da UFVinstname:Universidade Federal de Viçosa (UFV)instacron:UFVORIGINALtexto completo.pdfapplication/pdf4383996https://locus.ufv.br//bitstream/123456789/2677/1/texto%20completo.pdf9404dd35587d95c6d47eca0cd50485ceMD51TEXTtexto completo.pdf.txttexto completo.pdf.txtExtracted texttext/plain188325https://locus.ufv.br//bitstream/123456789/2677/2/texto%20completo.pdf.txt1c5b56911dc05baefcd4af1df0aea30dMD52THUMBNAILtexto completo.pdf.jpgtexto completo.pdf.jpgIM Thumbnailimage/jpeg3631https://locus.ufv.br//bitstream/123456789/2677/3/texto%20completo.pdf.jpg77f7e946f2e4447b63ca5d7da3aa9959MD53123456789/26772016-04-08 23:13:18.43oai:locus.ufv.br:123456789/2677Repositório InstitucionalPUBhttps://www.locus.ufv.br/oai/requestfabiojreis@ufv.bropendoar:21452016-04-09T02:13:18LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV)false |
dc.title.por.fl_str_mv |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
dc.title.alternative.eng.fl_str_mv |
Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers |
title |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
spellingShingle |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração Couto, Adriano Donato Bioinformática Genômica Sequenciamento de nucleotídeo Teoria dos grafos Bioinformatics Genomics Nucleotide sequencing Graph theory CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
title_short |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
title_full |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
title_fullStr |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
title_full_unstemmed |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
title_sort |
Proposta de uma nova abordagem para o processo de montagem de novo de sequências de DNA obtidas de sequenciadores de nova geração |
author |
Couto, Adriano Donato |
author_facet |
Couto, Adriano Donato |
author_role |
author |
dc.contributor.authorLattes.por.fl_str_mv |
http://lattes.cnpq.br/4192209349027039 |
dc.contributor.author.fl_str_mv |
Couto, Adriano Donato |
dc.contributor.advisor-co1.fl_str_mv |
Oliveira, Alcione de Paiva |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4788574J0 |
dc.contributor.advisor1.fl_str_mv |
Cerqueira, Fábio Ribeiro |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2788549078021456 |
dc.contributor.referee1.fl_str_mv |
Fietto, Juliana Lopes Rangel |
dc.contributor.referee1Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4790238D0 |
dc.contributor.referee2.fl_str_mv |
Ferreira, Ricardo dos Santos |
dc.contributor.referee2Lattes.fl_str_mv |
http://buscatextual.cnpq.br/buscatextual/visualizacv.do?id=K4723626E5 |
contributor_str_mv |
Oliveira, Alcione de Paiva Cerqueira, Fábio Ribeiro Fietto, Juliana Lopes Rangel Ferreira, Ricardo dos Santos |
dc.subject.por.fl_str_mv |
Bioinformática Genômica Sequenciamento de nucleotídeo Teoria dos grafos |
topic |
Bioinformática Genômica Sequenciamento de nucleotídeo Teoria dos grafos Bioinformatics Genomics Nucleotide sequencing Graph theory CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
dc.subject.eng.fl_str_mv |
Bioinformatics Genomics Nucleotide sequencing Graph theory |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
description |
The study of genomes brought a lot of gains to Medicine, Pharmacology and many other important science fields. However, many challenges emerged as a consequence, specially in Computer Science. The big amount of data and its complexity to be analyzed make arduous to extract the information needed. As the DNA sequencers are not able to get the sequence of the whole molecule at a glance, the sequencing process breaks the molecule and works with a lot of fragments. Those fragments need to be assembled in a next step. In the new-generation sequencers, the sequen- cing process is much faster and cheaper, but they return much smaller fragments compared to the output from Sanger technology. Besides the bigger set of fragments, the interference of sequencing errors complicates the process, classified as NP-hard. To handle this problem, the current DNA fragment assemblers run a lot of pre and postprocesses in the amount of data, aiming to eliminate or at least reduce the common problems. In this work, we propose a new approach of maximum- weighted maximum matching (first proposed for data from Sanger sequencing) for k-mer graphs that returns simpler components to work with (called unipaths), fol- lowed by an heuristic to combine those new components. Therefore, we want to do the assembly process in fewer steps. This crossing works with elongation of paths by the combination of unipaths. With a score system, the assembler tries to get longer paths combining the shorter ones, while minimizing the use of repeated re- gions. Because this is the beginning of a new approach for short fragments, it was not our intention to achieve a complete DNA assembler at its first version, but only to validate the proposed concept. In this work, we give focus specifically on the xiiassembly of sequences from new-generation sequencers. During the experiments, we identified that the assembler was able to return satisfatory results for half of the samples, but it needs some adjustments to improve the other results. Those adjust- ments would solve specific problems that this tool does not address yet. We also found out that the coverage by reads is determinant factor to get good outputs from this assembler. There are some future works that are necessary, such as decreasing memory usage and running time, as well as comparing this tool with other current available solutions. |
publishDate |
2014 |
dc.date.available.fl_str_mv |
2014-11-11 2015-03-26T13:10:41Z |
dc.date.issued.fl_str_mv |
2014-02-27 |
dc.date.accessioned.fl_str_mv |
2015-03-26T13:10:41Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
COUTO, Adriano Donato. Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers. 2014. 99 f. Dissertação (Mestrado em Metodologias e técnicas da Computação; Sistemas de Computação) - Universidade Federal de Viçosa, Viçosa, 2014. |
dc.identifier.uri.fl_str_mv |
http://locus.ufv.br/handle/123456789/2677 |
identifier_str_mv |
COUTO, Adriano Donato. Proposal of a new approach for the de novo assembly process of DNA sequences from new generation sequencers. 2014. 99 f. Dissertação (Mestrado em Metodologias e técnicas da Computação; Sistemas de Computação) - Universidade Federal de Viçosa, Viçosa, 2014. |
url |
http://locus.ufv.br/handle/123456789/2677 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.publisher.program.fl_str_mv |
Mestrado em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UFV |
dc.publisher.country.fl_str_mv |
BR |
dc.publisher.department.fl_str_mv |
Metodologias e técnicas da Computação; Sistemas de Computação |
publisher.none.fl_str_mv |
Universidade Federal de Viçosa |
dc.source.none.fl_str_mv |
reponame:LOCUS Repositório Institucional da UFV instname:Universidade Federal de Viçosa (UFV) instacron:UFV |
instname_str |
Universidade Federal de Viçosa (UFV) |
instacron_str |
UFV |
institution |
UFV |
reponame_str |
LOCUS Repositório Institucional da UFV |
collection |
LOCUS Repositório Institucional da UFV |
bitstream.url.fl_str_mv |
https://locus.ufv.br//bitstream/123456789/2677/1/texto%20completo.pdf https://locus.ufv.br//bitstream/123456789/2677/2/texto%20completo.pdf.txt https://locus.ufv.br//bitstream/123456789/2677/3/texto%20completo.pdf.jpg |
bitstream.checksum.fl_str_mv |
9404dd35587d95c6d47eca0cd50485ce 1c5b56911dc05baefcd4af1df0aea30d 77f7e946f2e4447b63ca5d7da3aa9959 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
LOCUS Repositório Institucional da UFV - Universidade Federal de Viçosa (UFV) |
repository.mail.fl_str_mv |
fabiojreis@ufv.br |
_version_ |
1801213024401358848 |