Escore de incerteza em bancos de dados categóricos

Detalhes bibliográficos
Autor(a) principal: Deive Ciro de Oliveira
Data de Publicação: 2011
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/BUOS-8SSRGX
Resumo: Temos observado um grande crescimento no volume de dados biológicos, em particularde natureza biomolecular, armazenados em bancos de dados como Genbank, KOGGSCOP, PDB e Uniprot, os quais são acessados livremente através da internet e tem tidoum impacto enorme nas atividades de pesquisa e desenvolvimento. Esse crescimento é explicado pelo desenvolvimento de novas e menos dispendiosas técnicas de obtenção daqueles dados, assim como menor custo e maior disponibilidade de meios de armazenamento e comunicação. Uma distinção importante entre esses bancos é com relação à forma de geração e manutenção da base de dados. Alguns bancos têm seus dados gerados a partir de métodos computacionais (in silico) e não são submetidos a processos de revisão. Outros bancos, denominados curados, adotam supervisão especializada nos processos de geraçãoe revisão de características, a qual pode ser feita pelos usuários que acessam esses bancos através da internet. Os bancos de dados curados alcançam alto padrão de qualidade em termos de anotação mas possuem um alto custo comparado a processos automatizados.Neste contexto, metodologias e técnicas para auxiliar no processo de revisão são relevantes, pois tornam a curagem mais eciente e reduzem o custo de realizá-la. Este trabalho tem por objetivo investigar, desenvolver e avaliar tais metodologias e técnicase apresenta duas contribuições principais. A primeira é uma metodologia para caracterizartemporalmente modicações em um banco de dados categórico. Essa metodologia é aplicada ao UniprotKB/Swiss-prot, quanticando as taxas de modicações especícasem palavras-chave do UniprotKB/Swiss-prot. Também são apresentadas as modicações nas associações existentes entre as palavras-chave, sob perspectiva temporal. A segundacontribuição é uma metodologia para auxílio no processo de revisão em bancos de dados categóricos. Um exemplo de aplicação é a revisão do campo palavras-chave do bancode dados UniprotKB/Swiss-prot, onde pudemos observar que a metodologia proposta é efetiva.
id UFMG_efa8e666ea5cb160a1215b3873e58a91
oai_identifier_str oai:repositorio.ufmg.br:1843/BUOS-8SSRGX
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Wagner Meira JuniorMarcelo Matos SantoroAlexandre Plastino de CarvalhoRoney Santos CoimbraGlaura da Conceicao FrancoJose Miguel OrtegaDeive Ciro de Oliveira2019-08-12T13:42:09Z2019-08-12T13:42:09Z2011-12-01http://hdl.handle.net/1843/BUOS-8SSRGXTemos observado um grande crescimento no volume de dados biológicos, em particularde natureza biomolecular, armazenados em bancos de dados como Genbank, KOGGSCOP, PDB e Uniprot, os quais são acessados livremente através da internet e tem tidoum impacto enorme nas atividades de pesquisa e desenvolvimento. Esse crescimento é explicado pelo desenvolvimento de novas e menos dispendiosas técnicas de obtenção daqueles dados, assim como menor custo e maior disponibilidade de meios de armazenamento e comunicação. Uma distinção importante entre esses bancos é com relação à forma de geração e manutenção da base de dados. Alguns bancos têm seus dados gerados a partir de métodos computacionais (in silico) e não são submetidos a processos de revisão. Outros bancos, denominados curados, adotam supervisão especializada nos processos de geraçãoe revisão de características, a qual pode ser feita pelos usuários que acessam esses bancos através da internet. Os bancos de dados curados alcançam alto padrão de qualidade em termos de anotação mas possuem um alto custo comparado a processos automatizados.Neste contexto, metodologias e técnicas para auxiliar no processo de revisão são relevantes, pois tornam a curagem mais eciente e reduzem o custo de realizá-la. Este trabalho tem por objetivo investigar, desenvolver e avaliar tais metodologias e técnicase apresenta duas contribuições principais. A primeira é uma metodologia para caracterizartemporalmente modicações em um banco de dados categórico. Essa metodologia é aplicada ao UniprotKB/Swiss-prot, quanticando as taxas de modicações especícasem palavras-chave do UniprotKB/Swiss-prot. Também são apresentadas as modicações nas associações existentes entre as palavras-chave, sob perspectiva temporal. A segundacontribuição é uma metodologia para auxílio no processo de revisão em bancos de dados categóricos. Um exemplo de aplicação é a revisão do campo palavras-chave do bancode dados UniprotKB/Swiss-prot, onde pudemos observar que a metodologia proposta é efetiva.We have been witnessing a signicant growth in the volume of biological data, in particular biomolecular data that are stored in databases such as Genbank, KOGG SCOP, PDB, and Uniprot, which are made available through the internet and have been causing a major impact in research and development activities. Such growth is explained by the development of novel and less costly data gathering techniques, as well as, lower costs and higher availability of storage and communication resources. A key feature that distinguishes those databases is regarding the rocedure to generate and to maintain those databases. Several databases are created using automated procedures (in silico) and the resulting data is not curated by an expert. Other databases, named curated, employ specialized supervision for both generation and revision of haracteristics, which may be performed by the users that access the databases through the internet. The curated databases present a much higher quality with respect to annotations, but are very costly when compared to automatic processes. In this scenario, research on novel methodologies and techniques that help on the revision process are relevant, since they make it more ecient and less costly. This work aims to investigate, develop, and evaluate these methodologies and techniques and has two main contributions. The rst is a methodology for temporally characterizing the modications in a categorical database. This methodology is appliedto the UniprotKB/Swiss-prot, and quantied the record changes in keywords from this database. We also characterize the modications on the keywork associations, under a temporal perspective. The second contribution is a methodology for improving the revision process. An example of application scenario is the revision of the eld keywords fromthe UniprotKB/Swiss-prot database, where we can clearly see that proposed methodology is efective.Universidade Federal de Minas GeraisUFMGBanco de dadosBioinformáticaMineração de dados (Computação)BioinformáticaEscore de incerteza em bancos de dados categóricosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALbioinform_tica.deivecirooliveira_tese.pdfapplication/pdf783184https://repositorio.ufmg.br/bitstream/1843/BUOS-8SSRGX/1/bioinform_tica.deivecirooliveira_tese.pdff57831610adbacb5e1488e202fb4b2a1MD51TEXTbioinform_tica.deivecirooliveira_tese.pdf.txtbioinform_tica.deivecirooliveira_tese.pdf.txtExtracted texttext/plain79075https://repositorio.ufmg.br/bitstream/1843/BUOS-8SSRGX/2/bioinform_tica.deivecirooliveira_tese.pdf.txt2b32660c368842bedbadb53f114816c8MD521843/BUOS-8SSRGX2019-11-14 18:01:29.37oai:repositorio.ufmg.br:1843/BUOS-8SSRGXRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T21:01:29Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Escore de incerteza em bancos de dados categóricos
title Escore de incerteza em bancos de dados categóricos
spellingShingle Escore de incerteza em bancos de dados categóricos
Deive Ciro de Oliveira
Bioinformática
Banco de dados
Bioinformática
Mineração de dados (Computação)
title_short Escore de incerteza em bancos de dados categóricos
title_full Escore de incerteza em bancos de dados categóricos
title_fullStr Escore de incerteza em bancos de dados categóricos
title_full_unstemmed Escore de incerteza em bancos de dados categóricos
title_sort Escore de incerteza em bancos de dados categóricos
author Deive Ciro de Oliveira
author_facet Deive Ciro de Oliveira
author_role author
dc.contributor.advisor1.fl_str_mv Wagner Meira Junior
dc.contributor.advisor-co1.fl_str_mv Marcelo Matos Santoro
dc.contributor.referee1.fl_str_mv Alexandre Plastino de Carvalho
dc.contributor.referee2.fl_str_mv Roney Santos Coimbra
dc.contributor.referee3.fl_str_mv Glaura da Conceicao Franco
dc.contributor.referee4.fl_str_mv Jose Miguel Ortega
dc.contributor.author.fl_str_mv Deive Ciro de Oliveira
contributor_str_mv Wagner Meira Junior
Marcelo Matos Santoro
Alexandre Plastino de Carvalho
Roney Santos Coimbra
Glaura da Conceicao Franco
Jose Miguel Ortega
dc.subject.por.fl_str_mv Bioinformática
topic Bioinformática
Banco de dados
Bioinformática
Mineração de dados (Computação)
dc.subject.other.pt_BR.fl_str_mv Banco de dados
Bioinformática
Mineração de dados (Computação)
description Temos observado um grande crescimento no volume de dados biológicos, em particularde natureza biomolecular, armazenados em bancos de dados como Genbank, KOGGSCOP, PDB e Uniprot, os quais são acessados livremente através da internet e tem tidoum impacto enorme nas atividades de pesquisa e desenvolvimento. Esse crescimento é explicado pelo desenvolvimento de novas e menos dispendiosas técnicas de obtenção daqueles dados, assim como menor custo e maior disponibilidade de meios de armazenamento e comunicação. Uma distinção importante entre esses bancos é com relação à forma de geração e manutenção da base de dados. Alguns bancos têm seus dados gerados a partir de métodos computacionais (in silico) e não são submetidos a processos de revisão. Outros bancos, denominados curados, adotam supervisão especializada nos processos de geraçãoe revisão de características, a qual pode ser feita pelos usuários que acessam esses bancos através da internet. Os bancos de dados curados alcançam alto padrão de qualidade em termos de anotação mas possuem um alto custo comparado a processos automatizados.Neste contexto, metodologias e técnicas para auxiliar no processo de revisão são relevantes, pois tornam a curagem mais eciente e reduzem o custo de realizá-la. Este trabalho tem por objetivo investigar, desenvolver e avaliar tais metodologias e técnicase apresenta duas contribuições principais. A primeira é uma metodologia para caracterizartemporalmente modicações em um banco de dados categórico. Essa metodologia é aplicada ao UniprotKB/Swiss-prot, quanticando as taxas de modicações especícasem palavras-chave do UniprotKB/Swiss-prot. Também são apresentadas as modicações nas associações existentes entre as palavras-chave, sob perspectiva temporal. A segundacontribuição é uma metodologia para auxílio no processo de revisão em bancos de dados categóricos. Um exemplo de aplicação é a revisão do campo palavras-chave do bancode dados UniprotKB/Swiss-prot, onde pudemos observar que a metodologia proposta é efetiva.
publishDate 2011
dc.date.issued.fl_str_mv 2011-12-01
dc.date.accessioned.fl_str_mv 2019-08-12T13:42:09Z
dc.date.available.fl_str_mv 2019-08-12T13:42:09Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/BUOS-8SSRGX
url http://hdl.handle.net/1843/BUOS-8SSRGX
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/BUOS-8SSRGX/1/bioinform_tica.deivecirooliveira_tese.pdf
https://repositorio.ufmg.br/bitstream/1843/BUOS-8SSRGX/2/bioinform_tica.deivecirooliveira_tese.pdf.txt
bitstream.checksum.fl_str_mv f57831610adbacb5e1488e202fb4b2a1
2b32660c368842bedbadb53f114816c8
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589217443381248