Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2010 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações do LNCC |
Texto Completo: | https://tede.lncc.br/handle/tede/23 |
Resumo: | O advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos 2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas. Atualmente existe uma nova proposta da comunidade científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas. A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts , grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida. Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência. Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts , dos quais 21 acontecem em regiões intergênicas. A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC) Darcy Fontoura de Almeida do LNCC (dados ainda não publicados). A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos. |
id |
LNCC_74c53526f1f1bca99bc4591497caa19d |
---|---|
oai_identifier_str |
oai:tede-server.lncc.br:tede/23 |
network_acronym_str |
LNCC |
network_name_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository_id_str |
|
spelling |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotosAnalysis and identification of prokaryotic coding sequences with confliting atributes engBioinformáticaGenômica ComparativaSequências CodificantesMVCAtributos Conflitantes.CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERALO advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos 2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas. Atualmente existe uma nova proposta da comunidade científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas. A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts , grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida. Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência. Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts , dos quais 21 acontecem em regiões intergênicas. A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC) Darcy Fontoura de Almeida do LNCC (dados ainda não publicados). A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos.The advent of new sequencing technologies and the development of computational tools that facilitate the analysis of genomes, generated the exponential growth of genome databases. New approaches in-silico of the comparative genomics use such data in its comparisons. Nevertheless, recent work on the genome of Escherichia coli indicate that the current state of coding sequences (Coding Sequences - CDS) from annotated genomes contain several errors, which need to be verified (Ochman e Davalos 2006). Therefore the correct description of a CDS is important to allow future genomic comparisons. Currently, there is an innovated proposal of the scientific community of biological databases to establish standards for the submission of the draft genome sequences in the new era of sequencing. Within this context, it is highlighted the identification and/or correction of frameshifts during the assembly of genomic sequences. The goal of this work was developing a tool with two comparative methods to identify CDSs with conflicting attributes. It uses the description of conflict to describe attributes such as frameshifts, large insertions or deletions, truncations, etc.. that are detected from a CDS or several CDSs used as references, depending on model. Also, the proposed tool allows to user to view of the results graphically and provide access to other tools, providing support for future friendly and faster genomic analysis. As a model of study, it was used the analysis of CDSs with conflicting attributes of the genome of E. coli strain CFT073 (NCBI) version AE014075.1, (last update date: April 20 of 2006), with this purpose was used as a reference genome of E.coli strain O157: H7 EDL933 version AE005174.2 (last update date: 6 June of 2008). Through this analysis were identified and stored 1865 CDSs (Included possible paralogs) because they present only alignments with coverage exceeding 30% of the CSD of reference. In a more detailed analysis of these results, 144 CDSs startle in the target genome by probably present frameshifts, of which 21 occur in intergenic regions. The tool developed in this work, also was applied to the case study of a genomic region of the bacterium Klebsiella pneumoniae strain KP13. The genome of this bacterium was sequenced in Computational Genomics Unit (UGC) Darcy Fontoura de Almeida LNCC (unpublished data). From the analysis of these genomes, one can conclude the importance of using the tool in the stages of identification, verification and correction of errors in annotation,and thus the need for its inclusion in the sequencing projects that want to reach high standards in the submission of genomic data.Coordenacao de Aperfeicoamento de Pessoal de Nivel SuperiorLaboratório Nacional de Computação CientíficaCoordenação de Pós-Graduação e Aperfeiçoamento (COPGA)BRLNCCPrograma de Pós-Graduação em Modelagem ComputacionalNicolás, Marisa FabianaCPF:21257053892http://lattes.cnpq.br/0717161560405537Cantão, Maurillo EgidioCPF:28596039805HTTP://LATTES.CNPQ/6154630512714298Silva, João Carlos Pereira dahttp://lattes.cnpq.br/9413102524215939Ferreira, Marcio Alveshttp://lattes.cnpq.br/3403482387365738Saji, Guadalupe Del Rosario Quispe2015-03-04T18:50:29Z2011-09-282010-08-23info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSAJI, Guadalupe Del Rosario Quispe. Analysis and identification of prokaryotic coding sequences with confliting atributes eng. 2010. 118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2010.https://tede.lncc.br/handle/tede/23porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações do LNCCinstname:Laboratório Nacional de Computação Científica (LNCC)instacron:LNCC2023-06-02T13:26:09Zoai:tede-server.lncc.br:tede/23Biblioteca Digital de Teses e Dissertaçõeshttps://tede.lncc.br/PUBhttps://tede.lncc.br/oai/requestlibrary@lncc.br||library@lncc.bropendoar:2023-06-02T13:26:09Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC)false |
dc.title.none.fl_str_mv |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos Analysis and identification of prokaryotic coding sequences with confliting atributes eng |
title |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos |
spellingShingle |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos Saji, Guadalupe Del Rosario Quispe Bioinformática Genômica Comparativa Sequências Codificantes MVC Atributos Conflitantes. CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
title_short |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos |
title_full |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos |
title_fullStr |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos |
title_full_unstemmed |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos |
title_sort |
Identificação e análise de sequências codificantes com atributos conflitantes em genomas procariotos |
author |
Saji, Guadalupe Del Rosario Quispe |
author_facet |
Saji, Guadalupe Del Rosario Quispe |
author_role |
author |
dc.contributor.none.fl_str_mv |
Nicolás, Marisa Fabiana CPF:21257053892 http://lattes.cnpq.br/0717161560405537 Cantão, Maurillo Egidio CPF:28596039805 HTTP://LATTES.CNPQ/6154630512714298 Silva, João Carlos Pereira da http://lattes.cnpq.br/9413102524215939 Ferreira, Marcio Alves http://lattes.cnpq.br/3403482387365738 |
dc.contributor.author.fl_str_mv |
Saji, Guadalupe Del Rosario Quispe |
dc.subject.por.fl_str_mv |
Bioinformática Genômica Comparativa Sequências Codificantes MVC Atributos Conflitantes. CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
topic |
Bioinformática Genômica Comparativa Sequências Codificantes MVC Atributos Conflitantes. CNPQ::CIENCIAS BIOLOGICAS::BIOLOGIA GERAL |
description |
O advento de novas tecnologias de sequenciamento e o desenvolvimento de ferramentas computacionais que facilitam a análise dos genomas gerou o aumento exponencial dos bancos de dados genômicos. As abordagens in-silico da genômica comparativa usam esse tipo de dados nas suas comparações. Trabalhos recentes desenvolvidos sobre o genoma de Escherichia coli indicam que o estado atual das sequências codificantes (CoDing Sequences CDS) de genomas anotados nos bancos de dados contêm erros nas sequências que precisam ser verificados (Ochman e Davalos 2006). Portanto a correta descrição de uma CDS é importante para permitir futuras comparações genômicas. Atualmente existe uma nova proposta da comunidade científica de bancos de dados biológicos para estabelecer padrões para a submissão de sequências dos projetos de genoma na nova era de sequenciamento. Dentro desse contexto, destaca-se a identificação e/ou correção de frameshifts durante o processo de montagem de sequências genômicas. A finalidade deste trabalho foi desenvolver uma ferramenta com dois métodos comparativos para identificar CDSs com atributos conflitantes. Usa-se a descrição de conflito para descrever atributos como frameshifts , grandes inserções ou deleções, truncamentos, que são detectados a partir de uma CDS ou várias CDSs usadas como referência, dependendo do modelo. Finalmente, a ferramenta proposta permite visualizar os resultados graficamente e fornecer acesso a outras ferramentas, dando suporte para futuras análises genômicas de maneira amigável e rápida. Foi realizada a busca de CDSs com atributos conflitantes no genoma de E. coli estirpe CFT073 (NCBI) versão AE014075.1, (última data de atualização: 20 de abril do 2006), como referência foi usado o genoma da E.coli estirpe O157:H7 EDL933 versão AE005174.2 ( última data de atualização : 6 de junho do 2008). Através dessa análise foram identificadas e armazenadas 1.865 CDSs (incluem-se possíveis parálogos), por apresentarem alinhamentos únicos com cobertura superior a 30% da CDS de referência. Em uma análise mais fina destes resultados, sobressaltam 144 CDSs no genoma alvo que provavelmente apresentam frameshifts , dos quais 21 acontecem em regiões intergênicas. A ferramenta desenvolvida neste trabalho foi também aplicada para o caso de estudo de uma região genômica da bactéria Klebsiella pneumoniae estirpe KP13. O genoma dessa bactéria foi sequenciado na Unidade Genômica Computacional (UGC) Darcy Fontoura de Almeida do LNCC (dados ainda não publicados). A partir das análises destes genomas, pode se concluir a importância do uso da ferramenta nas fases de identificação, verificação e correção de erros de anotação e, portanto a necessidade da sua inclusão em projetos de sequenciamento que desejam atingir altos padrões na submissão de dados genômicos. |
publishDate |
2010 |
dc.date.none.fl_str_mv |
2010-08-23 2011-09-28 2015-03-04T18:50:29Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SAJI, Guadalupe Del Rosario Quispe. Analysis and identification of prokaryotic coding sequences with confliting atributes eng. 2010. 118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2010. https://tede.lncc.br/handle/tede/23 |
identifier_str_mv |
SAJI, Guadalupe Del Rosario Quispe. Analysis and identification of prokaryotic coding sequences with confliting atributes eng. 2010. 118 f. Dissertação (Programa de Pós-Graduação em Modelagem Computacional) - Laboratório Nacional de Computação Científica, Petrópolis, 2010. |
url |
https://tede.lncc.br/handle/tede/23 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) BR LNCC Programa de Pós-Graduação em Modelagem Computacional |
publisher.none.fl_str_mv |
Laboratório Nacional de Computação Científica Coordenação de Pós-Graduação e Aperfeiçoamento (COPGA) BR LNCC Programa de Pós-Graduação em Modelagem Computacional |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações do LNCC instname:Laboratório Nacional de Computação Científica (LNCC) instacron:LNCC |
instname_str |
Laboratório Nacional de Computação Científica (LNCC) |
instacron_str |
LNCC |
institution |
LNCC |
reponame_str |
Biblioteca Digital de Teses e Dissertações do LNCC |
collection |
Biblioteca Digital de Teses e Dissertações do LNCC |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações do LNCC - Laboratório Nacional de Computação Científica (LNCC) |
repository.mail.fl_str_mv |
library@lncc.br||library@lncc.br |
_version_ |
1816081205369503744 |