Modelagem conceitual do sistema de banco de dados ProteinWorldDB
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Tipo de documento: | Tese |
Idioma: | por |
Título da fonte: | Repositório Institucional da FIOCRUZ (ARCA) |
Texto Completo: | https://www.arca.fiocruz.br/handle/icict/13218 |
Resumo: | Esta tese descreve o projeto conceitual do sistema de banco de dados ProteinWorldDB (PWDB). Um ponto importante da proposta do PWDB é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências. Além disso, o PCG comparou milhões de sequências de proteína, incluindo o conjunto proteico total de centenas de genomas completos, utilizando programação dinâmica, e não um método heurístico, para os cálculos de similaridade. A estratégia do PCG, assim como a genômica, está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas; elas precisam ser analisadas a partir de um enfoque comparativo para a inferência de homologia. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo, e o estudo comparativo de genomas completos pode ampliar a escala do conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. Para responder eficientemente questões dessa natureza, o esquema conceitual apresentado associa bases de dados biológicos de referência aos índices de similaridade já pré-calculados e armazenados pelo PCG Utilizando um formato gráfico de fácil compreensão para representar conceitos e relacionamentos (diagrama ER), o esquema foi proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (sem conhecimento de linguagens de bancos de dados), assim como guiar o desenvolvimento e a implementação física do PWDB por profissionais da área de computação. Alguns exemplos são apresentados com o objetivo de demonstrar a utilização do esquema conceitual para a especificação de consultas e procedimentos, mesmo antes da existência de um esquema lógico. O esquema pode ser facilmente estendido. Módulos anexos podem ser inseridos/removidos para incluir outros projetos, baseados em comparação de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo central do esquema e novas bases de dados, específicas de diferentes áreas (-ômicas, por exemplo), podem ser integradas ao esquema |
id |
CRUZ_ccd310efd6b5bafcc5a0c0607368aa85 |
---|---|
oai_identifier_str |
oai:www.arca.fiocruz.br:icict/13218 |
network_acronym_str |
CRUZ |
network_name_str |
Repositório Institucional da FIOCRUZ (ARCA) |
repository_id_str |
2135 |
spelling |
Bezerra, Márcia MártyresD'Ávila, Alberto Martín RiveraDardenne, LaurentSeibel, Luiz FernandoPitaluga, André NóbregaMota, Fabio Faria daMiranda, Antonio Basílio deLifschitz, Sérgio2016-03-18T12:15:46Z2016-03-18T12:15:46Z2012BEZERRA, M. M. Modelagem conceitual do sistema de banco de dados ProteinWorldDB. 2012. 134. Tese (Doutorado em Biologia Computacional e Sistemas) - Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, RJ, 2012.https://www.arca.fiocruz.br/handle/icict/13218Esta tese descreve o projeto conceitual do sistema de banco de dados ProteinWorldDB (PWDB). Um ponto importante da proposta do PWDB é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências. Além disso, o PCG comparou milhões de sequências de proteína, incluindo o conjunto proteico total de centenas de genomas completos, utilizando programação dinâmica, e não um método heurístico, para os cálculos de similaridade. A estratégia do PCG, assim como a genômica, está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas; elas precisam ser analisadas a partir de um enfoque comparativo para a inferência de homologia. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo, e o estudo comparativo de genomas completos pode ampliar a escala do conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. Para responder eficientemente questões dessa natureza, o esquema conceitual apresentado associa bases de dados biológicos de referência aos índices de similaridade já pré-calculados e armazenados pelo PCG Utilizando um formato gráfico de fácil compreensão para representar conceitos e relacionamentos (diagrama ER), o esquema foi proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (sem conhecimento de linguagens de bancos de dados), assim como guiar o desenvolvimento e a implementação física do PWDB por profissionais da área de computação. Alguns exemplos são apresentados com o objetivo de demonstrar a utilização do esquema conceitual para a especificação de consultas e procedimentos, mesmo antes da existência de um esquema lógico. O esquema pode ser facilmente estendido. Módulos anexos podem ser inseridos/removidos para incluir outros projetos, baseados em comparação de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo central do esquema e novas bases de dados, específicas de diferentes áreas (-ômicas, por exemplo), podem ser integradas ao esquemaThis thesis describes the conceptua l design of the database system ProteinWorldDB (PWDB) . An important point of the PWDB p roposal is to allow the construction of queries and procedures in the field of comparative genomics without the need for sequence comparison . Moreover , the PCG compared millions of protein sequences, including the entire set of proteins from hundreds of complete genomes using dynamic programming , rather than a heuristic method , for calculating similarity PCG‘s strategy, like that of genomic studies in general, is grounded in the knowledge that biological sequences alone are uninformative. They need to be analyzed from a comparative approach to infer homology. The comparison of sequences from different organisms introduces an evolutionary perspective to the process and the comparative study of complete genomes can expand our knowledge from a single biological process all the way to complex biological systems in cells and organisms. To efficiently answer questions of this nature, the conceptual schema links selected internati onal reference biological databases to similarity indexes already precomputed and stored by the PCG . By using an easily understandable graphic format to represent concepts and relationships (ER diagram), the schema was proposed to help the design of querie s and procedures by genomic researchers (who may not have knowledge of database languages) as well as to guide the development and physical implementation of the system by developers. Some e xamples are presented to demonstrate the use of the conceptual sch ema for specifying queries and procedures, even before the existence of a logical schema. The schema can be easily extended. Additional modules can be inserted/removed to include other protein sequences comparisons projects that may benefit from the inform ation provided by the schema ́s central module. Likewise, new databases specific to different areas ( - omics, for example) can be cross - referenced to the schemaThis thesis describes the conceptua l design of the database system ProteinWorldDB (PWDB) . An important point of the PWDB p roposal is to allow the construction of queries and procedures in the field of comparative genomics without the need for sequence comparison . Moreover , the PCG compared millions of protein sequences, including the entire set of proteins from hundreds of complete genomes using dynamic programming , rather than a heuristic method , for calculating similarity PCG‘s strategy, like that of genomic studies in general, is grounded in the knowledge that biological sequences alone are uninformative. They need to be analyzed from a comparative approach to infer homology. The comparison of sequences from different organisms introduces an evolutionary perspective to the process and the comparative study of complete genomes can expand our knowledge from a single biological process all the way to complex biological systems in cells and organisms. To efficiently answer questions of this nature, the conceptual schema links selected internati onal reference biological databases to similarity indexes already precomputed and stored by the PCG . By using an easily understandable graphic format to represent concepts and relationships (ER diagram), the schema was proposed to help the design of querie s and procedures by genomic researchers (who may not have knowledge of database languages) as well as to guide the development and physical implementation of the system by developers. Some e xamples are presented to demonstrate the use of the conceptual sch ema for specifying queries and procedures, even before the existence of a logical schema. The schema can be easily extended. Additional modules can be inserted/removed to include other protein sequences comparisons projects that may benefit from the inform ation provided by the schema ́s central module. Likewise, new databases specific to different areas ( - omics, for example) can be cross - referenced to the schemaFundação Oswaldo Cruz. Instituto Oswaldo Cruz. Rio de Janeiro, RJ, BrasilporBanco de Dados BiológicosModelagem conceitual de Banco de DadosGenômica ComparativaBases de Dados de Ácidos NucleicosGenômicaEstudo ComparativoDesenho de Programas de ComputadorModelagem conceitual do sistema de banco de dados ProteinWorldDBinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis12-20-2012Pós-Graduação em Biologia Computacional e SistemasFundação Oswaldo Cruz. Instituto Oswaldo CruzRio de Janeiro/RJPrograma de Pós-Graduação em Biologia Computacional e Sistemasinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da FIOCRUZ (ARCA)instname:Fundação Oswaldo Cruz (FIOCRUZ)instacron:FIOCRUZORIGINALmarcia_bezerra_ioc_dout_2012.pdfapplication/pdf3641805https://www.arca.fiocruz.br/bitstream/icict/13218/1/marcia_bezerra_ioc_dout_2012.pdf551d726828aba255caeef4c323eae9eeMD51LICENSElicense.txttext/plain1748https://www.arca.fiocruz.br/bitstream/icict/13218/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTmarcia_bezerra_ioc_dout_2012.pdf.txtmarcia_bezerra_ioc_dout_2012.pdf.txtExtracted texttext/plain241107https://www.arca.fiocruz.br/bitstream/icict/13218/3/marcia_bezerra_ioc_dout_2012.pdf.txt461dbbab285e479d0b7ff15a9a92d7d1MD53icict/132182022-06-24 12:17:39.418oai:www.arca.fiocruz.br:icict/13218Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://www.arca.fiocruz.br/oai/requestrepositorio.arca@fiocruz.bropendoar:21352022-06-24T15:17:39Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ)false |
dc.title.pt_BR.fl_str_mv |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
title |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
spellingShingle |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB Bezerra, Márcia Mártyres Banco de Dados Biológicos Modelagem conceitual de Banco de Dados Genômica Comparativa Bases de Dados de Ácidos Nucleicos Genômica Estudo Comparativo Desenho de Programas de Computador |
title_short |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
title_full |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
title_fullStr |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
title_full_unstemmed |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
title_sort |
Modelagem conceitual do sistema de banco de dados ProteinWorldDB |
author |
Bezerra, Márcia Mártyres |
author_facet |
Bezerra, Márcia Mártyres |
author_role |
author |
dc.contributor.member.pt_BR.fl_str_mv |
D'Ávila, Alberto Martín Rivera Dardenne, Laurent Seibel, Luiz Fernando Pitaluga, André Nóbrega Mota, Fabio Faria da |
dc.contributor.author.fl_str_mv |
Bezerra, Márcia Mártyres |
dc.contributor.advisor1.fl_str_mv |
Miranda, Antonio Basílio de Lifschitz, Sérgio |
contributor_str_mv |
Miranda, Antonio Basílio de Lifschitz, Sérgio |
dc.subject.other.pt_BR.fl_str_mv |
Banco de Dados Biológicos Modelagem conceitual de Banco de Dados Genômica Comparativa |
topic |
Banco de Dados Biológicos Modelagem conceitual de Banco de Dados Genômica Comparativa Bases de Dados de Ácidos Nucleicos Genômica Estudo Comparativo Desenho de Programas de Computador |
dc.subject.decs.pt_BR.fl_str_mv |
Bases de Dados de Ácidos Nucleicos Genômica Estudo Comparativo Desenho de Programas de Computador |
description |
Esta tese descreve o projeto conceitual do sistema de banco de dados ProteinWorldDB (PWDB). Um ponto importante da proposta do PWDB é permitir a construção de consultas e procedimentos no domínio da genômica comparativa sem a necessidade de comparação de sequências. Além disso, o PCG comparou milhões de sequências de proteína, incluindo o conjunto proteico total de centenas de genomas completos, utilizando programação dinâmica, e não um método heurístico, para os cálculos de similaridade. A estratégia do PCG, assim como a genômica, está fundamentada no conhecimento de que sequências biológicas por si só são pouco informativas; elas precisam ser analisadas a partir de um enfoque comparativo para a inferência de homologia. A comparação de sequências de diferentes organismos introduz uma perspectiva evolutiva ao processo, e o estudo comparativo de genomas completos pode ampliar a escala do conhecimento de um único processo biológico para o de sistemas biológicos complexos em células e organismos. Para responder eficientemente questões dessa natureza, o esquema conceitual apresentado associa bases de dados biológicos de referência aos índices de similaridade já pré-calculados e armazenados pelo PCG Utilizando um formato gráfico de fácil compreensão para representar conceitos e relacionamentos (diagrama ER), o esquema foi proposto para facilitar o planejamento de consultas e procedimentos por pesquisadores da área de genômica (sem conhecimento de linguagens de bancos de dados), assim como guiar o desenvolvimento e a implementação física do PWDB por profissionais da área de computação. Alguns exemplos são apresentados com o objetivo de demonstrar a utilização do esquema conceitual para a especificação de consultas e procedimentos, mesmo antes da existência de um esquema lógico. O esquema pode ser facilmente estendido. Módulos anexos podem ser inseridos/removidos para incluir outros projetos, baseados em comparação de sequências de proteína, que se beneficiem das informações fornecidas pelo módulo central do esquema e novas bases de dados, específicas de diferentes áreas (-ômicas, por exemplo), podem ser integradas ao esquema |
publishDate |
2012 |
dc.date.issued.fl_str_mv |
2012 |
dc.date.accessioned.fl_str_mv |
2016-03-18T12:15:46Z |
dc.date.available.fl_str_mv |
2016-03-18T12:15:46Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
BEZERRA, M. M. Modelagem conceitual do sistema de banco de dados ProteinWorldDB. 2012. 134. Tese (Doutorado em Biologia Computacional e Sistemas) - Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, RJ, 2012. |
dc.identifier.uri.fl_str_mv |
https://www.arca.fiocruz.br/handle/icict/13218 |
identifier_str_mv |
BEZERRA, M. M. Modelagem conceitual do sistema de banco de dados ProteinWorldDB. 2012. 134. Tese (Doutorado em Biologia Computacional e Sistemas) - Fundação Oswaldo Cruz, Instituto Oswaldo Cruz, Rio de Janeiro, RJ, 2012. |
url |
https://www.arca.fiocruz.br/handle/icict/13218 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da FIOCRUZ (ARCA) instname:Fundação Oswaldo Cruz (FIOCRUZ) instacron:FIOCRUZ |
instname_str |
Fundação Oswaldo Cruz (FIOCRUZ) |
instacron_str |
FIOCRUZ |
institution |
FIOCRUZ |
reponame_str |
Repositório Institucional da FIOCRUZ (ARCA) |
collection |
Repositório Institucional da FIOCRUZ (ARCA) |
bitstream.url.fl_str_mv |
https://www.arca.fiocruz.br/bitstream/icict/13218/1/marcia_bezerra_ioc_dout_2012.pdf https://www.arca.fiocruz.br/bitstream/icict/13218/2/license.txt https://www.arca.fiocruz.br/bitstream/icict/13218/3/marcia_bezerra_ioc_dout_2012.pdf.txt |
bitstream.checksum.fl_str_mv |
551d726828aba255caeef4c323eae9ee 8a4605be74aa9ea9d79846c1fba20a33 461dbbab285e479d0b7ff15a9a92d7d1 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da FIOCRUZ (ARCA) - Fundação Oswaldo Cruz (FIOCRUZ) |
repository.mail.fl_str_mv |
repositorio.arca@fiocruz.br |
_version_ |
1798324811069390848 |