Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos

Detalhes bibliográficos
Autor(a) principal: Saji, Guadalupe Del Rosario Quispe
Data de Publicação: 2010
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações do LNCC
Texto Completo: https://tede.lncc.br/handle/tede/23
Resumo: The advent of new sequencing technologies and the development of computational tools that facilitate the analysis of genomes, generated the exponential growth of genome databases. New approaches in-silico of the comparative genomics use such data in its comparisons. Nevertheless, recent work on the genome of Escherichia coli indicate that the current state of coding sequences (Coding Sequences - CDS) from annotated genomes contain several errors, which need to be verified (Ochman e Davalos 2006). Therefore the correct description of a CDS is important to allow future genomic comparisons. Currently, there is an innovated proposal of the scientific community of biological databases to establish standards for the submission of the draft genome sequences in the new era of sequencing. Within this context, it is highlighted the identification and/or correction of frameshifts during the assembly of genomic sequences. The goal of this work was developing a tool with two comparative methods to identify CDSs with conflicting attributes. It uses the description of conflict to describe attributes such as frameshifts, large insertions or deletions, truncations, etc.. that are detected from a CDS or several CDSs used as references, depending on model. Also, the proposed tool allows to user to view of the results graphically and provide access to other tools, providing support for future friendly and faster genomic analysis. As a model of study, it was used the analysis of CDSs with conflicting attributes of the genome of E. coli strain CFT073 (NCBI) version AE014075.1, (last update date: April 20 of 2006), with this purpose was used as a reference genome of E.coli strain O157: H7 EDL933 version AE005174.2 (last update date: 6 June of 2008). Through this analysis were identified and stored 1865 CDSs (Included possible paralogs) because they present only alignments with coverage exceeding 30% of the CSD of reference. In a more detailed analysis of these results, 144 CDSs startle in the target genome by probably present frameshifts, of which 21 occur in intergenic regions. The tool developed in this work, also was applied to the case study of a genomic region of the bacterium Klebsiella pneumoniae strain KP13. The genome of this bacterium was sequenced in Computational Genomics Unit (UGC) Darcy Fontoura de Almeida LNCC (unpublished data). From the analysis of these genomes, one can conclude the importance of using the tool in the stages of identification, verification and correction of errors in annotation,and thus the need for its inclusion in the sequencing projects that want to reach high standards in the submission of genomic data.
id LNCC_74c53526f1f1bca99bc4591497caa19d
oai_identifier_str oai:tede-server.lncc.br:tede/23
network_acronym_str LNCC
network_name_str Biblioteca Digital de Teses e Dissertações do LNCC
repository_id_str
spelling Nicolás, Marisa FabianaCPF:21257053892http://lattes.cnpq.br/0717161560405537Cantão, Maurillo EgidioCPF:28596039805HTTP://LATTES.CNPQ/6154630512714298Silva, João Carlos Pereira dahttp://lattes.cnpq.br/9413102524215939Ferreira, Marcio Alveshttp://lattes.cnpq.br/3403482387365738CPF:06064026758http://lattes.cnpq.br/3424738566927659Saji, Guadalupe Del Rosario Quispe2015-03-04T18:50:29Z2011-09-282010-08-23SAJI, Guadalupe Del Rosario Quispe. Analysis and identification of prokaryotic coding sequences with confliting atributes eng. 2010. 118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2010.https://tede.lncc.br/handle/tede/23The advent of new sequencing technologies and the development of computational tools that facilitate the analysis of genomes, generated the exponential growth of genome databases. New approaches in-silico of the comparative genomics use such data in its comparisons. Nevertheless, recent work on the genome of Escherichia coli indicate that the current state of coding sequences (Coding Sequences - CDS) from annotated genomes contain several errors, which need to be verified (Ochman e Davalos 2006). Therefore the correct description of a CDS is important to allow future genomic comparisons. Currently, there is an innovated proposal of the scientific community of biological databases to establish standards for the submission of the draft genome sequences in the new era of sequencing. Within this context, it is highlighted the identification and/or correction of frameshifts during the assembly of genomic sequences. The goal of this work was developing a tool with two comparative methods to identify CDSs with conflicting attributes. It uses the description of conflict to describe attributes such as frameshifts, large insertions or deletions, truncations, etc.. that are detected from a CDS or several CDSs used as references, depending on model. Also, the proposed tool allows to user to view of the results graphically and provide access to other tools, providing support for future friendly and faster genomic analysis. As a model of study, it was used the analysis of CDSs with conflicting attributes of the genome of E. coli strain CFT073 (NCBI) version AE014075.1, (last update date: April 20 of 2006), with this purpose was used as a reference genome of E.coli strain O157: H7 EDL933 version AE005174.2 (last update date: 6 June of 2008). Through this analysis were identified and stored 1865 CDSs (Included possible paralogs) because they present only alignments with coverage exceeding 30% of the CSD of reference. In a more detailed analysis of these results, 144 CDSs startle in the target genome by probably present frameshifts, of which 21 occur in intergenic regions. The tool developed in this work, also was applied to the case study of a genomic region of the bacterium Klebsiella pneumoniae strain KP13. The genome of this bacterium was sequenced in Computational Genomics Unit (UGC) Darcy Fontoura de Almeida LNCC (unpublished data). From the analysis of these genomes, one can conclude the importance of using the tool in the stages of identification, verification and correction of errors in annotation,and thus the need for its inclusion in the sequencing projects that want to reach high standards in the submission of genomic data.O advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos 2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas. Atualmente existe uma nova proposta da comunidade científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas. A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts , grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida. Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência. Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts , dos quais 21 acontecem em regiões intergênicas. A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC) Darcy Fontoura de Almeida do LNCC (dados ainda não publicados). A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos.Made available in DSpace on 2015-03-04T18:50:29Z (GMT). No. of bitstreams: 1 Dissertacao_Guadalupe.pdf: 2696610 bytes, checksum: c3a517f1d7dc8a87a7bf76c7a5e845aa (MD5) Previous issue date: 2010-08-23Coordenacao de Aperfeicoamento de Pessoal de Nivel Superiorapplication/pdfhttp://tede-server.lncc.br:8080/retrieve/333/Dissertacao_Guadalupe.pdf.jpghttp://tede-server.lncc.br:8080/retrieve/558/Dissertacao_Guadalupe.pdf.jpgporLaboratório Nacional de Computação CientíficaPrograma de Pós-Graduação em Modelagem ComputacionalLNCCBRCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BioinformáticaGenômica ComparativaSequências CodificantesMVCAtributos Conflitantes.CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALIdentificação e análise de sequências codificantes com atributos conflitantes em genomas procariotosAnalysis and identification of prokaryotic coding sequences with confliting atributes enginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCCORIGINALDissertacao_Guadalupe.pdfapplication/pdf2696610http://tede-server.lncc.br:8080/tede/bitstream/tede/23/1/Dissertacao_Guadalupe.pdfc3a517f1d7dc8a87a7bf76c7a5e845aaMD51THUMBNAILDissertacao_Guadalupe.pdf.jpgDissertacao_Guadalupe.pdf.jpgimage/jpeg2034http://tede-server.lncc.br:8080/tede/bitstream/tede/23/2/Dissertacao_Guadalupe.pdf.jpg8c9b6f1cb2099d23b940ad7cec87bcb4MD52tede/232023-06-02 10:26:09.388oai:tede-server.lncc.br:tede/23Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-06-02T13:26:09Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false
dc.title.por.fl_str_mv Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
dc.title.alternative.eng.fl_str_mv Analysis and identification of prokaryotic coding sequences with confliting atributes eng
title Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
spellingShingle Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
Saji, Guadalupe Del Rosario Quispe
Bioinformática
Genômica Comparativa
Sequências Codificantes
MVC
Atributos Conflitantes.
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
title_short Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
title_full Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
title_fullStr Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
title_full_unstemmed Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
title_sort Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
author Saji, Guadalupe Del Rosario Quispe
author_facet Saji, Guadalupe Del Rosario Quispe
author_role author
dc.contributor.advisor1.fl_str_mv Nicolás, Marisa Fabiana
dc.contributor.advisor1ID.fl_str_mv CPF:21257053892
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/0717161560405537
dc.contributor.advisor-co1.fl_str_mv Cantão, Maurillo Egidio
dc.contributor.advisor-co1ID.fl_str_mv CPF:28596039805
dc.contributor.advisor-co1Lattes.fl_str_mv HTTP://LATTES.CNPQ/6154630512714298
dc.contributor.referee1.fl_str_mv Silva, João Carlos Pereira da
dc.contributor.referee1Lattes.fl_str_mv http://lattes.cnpq.br/9413102524215939
dc.contributor.referee2.fl_str_mv Ferreira, Marcio Alves
dc.contributor.referee2Lattes.fl_str_mv http://lattes.cnpq.br/3403482387365738
dc.contributor.authorID.fl_str_mv CPF:06064026758
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/3424738566927659
dc.contributor.author.fl_str_mv Saji, Guadalupe Del Rosario Quispe
contributor_str_mv Nicolás, Marisa Fabiana
Cantão, Maurillo Egidio
Silva, João Carlos Pereira da
Ferreira, Marcio Alves
dc.subject.por.fl_str_mv Bioinformática
Genômica Comparativa
Sequências Codificantes
MVC
Atributos Conflitantes.
topic Bioinformática
Genômica Comparativa
Sequências Codificantes
MVC
Atributos Conflitantes.
CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL
description The advent of new sequencing technologies and the development of computational tools that facilitate the analysis of genomes, generated the exponential growth of genome databases. New approaches in-silico of the comparative genomics use such data in its comparisons. Nevertheless, recent work on the genome of Escherichia coli indicate that the current state of coding sequences (Coding Sequences - CDS) from annotated genomes contain several errors, which need to be verified (Ochman e Davalos 2006). Therefore the correct description of a CDS is important to allow future genomic comparisons. Currently, there is an innovated proposal of the scientific community of biological databases to establish standards for the submission of the draft genome sequences in the new era of sequencing. Within this context, it is highlighted the identification and/or correction of frameshifts during the assembly of genomic sequences. The goal of this work was developing a tool with two comparative methods to identify CDSs with conflicting attributes. It uses the description of conflict to describe attributes such as frameshifts, large insertions or deletions, truncations, etc.. that are detected from a CDS or several CDSs used as references, depending on model. Also, the proposed tool allows to user to view of the results graphically and provide access to other tools, providing support for future friendly and faster genomic analysis. As a model of study, it was used the analysis of CDSs with conflicting attributes of the genome of E. coli strain CFT073 (NCBI) version AE014075.1, (last update date: April 20 of 2006), with this purpose was used as a reference genome of E.coli strain O157: H7 EDL933 version AE005174.2 (last update date: 6 June of 2008). Through this analysis were identified and stored 1865 CDSs (Included possible paralogs) because they present only alignments with coverage exceeding 30% of the CSD of reference. In a more detailed analysis of these results, 144 CDSs startle in the target genome by probably present frameshifts, of which 21 occur in intergenic regions. The tool developed in this work, also was applied to the case study of a genomic region of the bacterium Klebsiella pneumoniae strain KP13. The genome of this bacterium was sequenced in Computational Genomics Unit (UGC) Darcy Fontoura de Almeida LNCC (unpublished data). From the analysis of these genomes, one can conclude the importance of using the tool in the stages of identification, verification and correction of errors in annotation,and thus the need for its inclusion in the sequencing projects that want to reach high standards in the submission of genomic data.
publishDate 2010
dc.date.issued.fl_str_mv 2010-08-23
dc.date.available.fl_str_mv 2011-09-28
dc.date.accessioned.fl_str_mv 2015-03-04T18:50:29Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv SAJI, Guadalupe Del Rosario Quispe. Analysis and identification of prokaryotic coding sequences with confliting atributes eng. 2010. 118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2010.
dc.identifier.uri.fl_str_mv https://tede.lncc.br/handle/tede/23
identifier_str_mv SAJI, Guadalupe Del Rosario Quispe. Analysis and identification of prokaryotic coding sequences with confliting atributes eng. 2010. 118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2010.
url https://tede.lncc.br/handle/tede/23
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Modelagem Computacional
dc.publisher.initials.fl_str_mv LNCC
dc.publisher.country.fl_str_mv BR
dc.publisher.department.fl_str_mv Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA)
publisher.none.fl_str_mv Laboratório Nacional de Computação Científica
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações do LNCC
instname:Laboratório Nacional de Computação Científica (LNCC)
instacron:LNCC
instname_str Laboratório Nacional de Computação Científica (LNCC)
instacron_str LNCC
institution LNCC
reponame_str Biblioteca Digital de Teses e Dissertações do LNCC
collection Biblioteca Digital de Teses e Dissertações do LNCC
bitstream.url.fl_str_mv http://tede-server.lncc.br:8080/tede/bitstream/tede/23/1/Dissertacao_Guadalupe.pdf
http://tede-server.lncc.br:8080/tede/bitstream/tede/23/2/Dissertacao_Guadalupe.pdf.jpg
bitstream.checksum.fl_str_mv c3a517f1d7dc8a87a7bf76c7a5e845aa
8c9b6f1cb2099d23b940ad7cec87bcb4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)
repository.mail.fl_str_mv library@lncc.br||library@lncc.br
_version_ 1797683216900947968