Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL

Detalhes bibliográficos
Autor(a) principal: Lima, Iasmini Virgínia Oliveira
Data de Publicação: 2016
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UnB
Texto Completo: http://repositorio.unb.br/handle/10482/22888
http://dx.doi.org/10.26512/2016.12.D.22888
Resumo: Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
id UNB_b383e54d714a4a9d72f2c90c54d1fb27
oai_identifier_str oai:repositorio.unb.br:10482/22888
network_acronym_str UNB
network_name_str Repositório Institucional da UnB
repository_id_str
spelling Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQLBanco de dadosBioinformáticaArmazenamento de dadosDissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.Projetos em Bioinformática são geralmente executados como workflows científicos. Os biólogos frequentemente podem executar o mesmo workflow diversas vezes com diferentes parâmetros. Estas execuções podem gerar um grande volume de arquivos com diferentes formatos, que precisam ser armazenados para futuras execuções. Dentre diversos sistemas de armazenamento de dados apresentados na literatura, novos modelos de bancos de dados têm sido definidos para armazenar grandes volumes de dados, os bancos de dados NoSQL (Not Only SQL), que surgiram da necessidade de uma alta escalabilidade e de um desempenho superior quando o volume de dados é muito grande. Nesse contexto, é proposta a análise do impacto da replicação de dados quando se utiliza bancos de dados NoSQL para o armazenamento dos diferentes formatos de arquivos resultantes da execução de workflows de Bioinformática. Foram executados três workflows de Bioinformática envolvendo diferentes formatos de dados, os quais foram utilizados para os testes nos bancos de dados NoSQL Cassandra e MongoDB, e em seguida é apresentada uma análise dessas execuções e testes. Os resultados obtidos mostraram que os tempos de inserção e extração dos dados são mínimos comparados aos tempos de execução dos workflows e portanto, os bancos de dados NoSQL mostraram ser uma boa opção para armazenamento e gerenciamento de dados biológicos.Projects in bioinformatics are generally executed as scientific workflows. The biologists often perform the same workflow several times with different parameters. These executions can generate a large volume of files with different formats, which need to be stored for future executions. Among several data storage systems presented in the literature, new database models have been defined to store large volumes of data, the NoSQL databases (Not Only SQL), which arose from the need for high scalability and superior performance when the data volume is too large. In this context, it is proposed to analyze the impact of data replication when using NoSQL databases for the storage of the different file formats resulting from the execution of bioinformatics workflows. Three bioinformatics workflows involving different data formats were executed, which were used for testing the NoSQL Cassandra and MongoDB databases, and then an analysis of those executions and tests is presented. The results show that the data insertion and extraction times are minimal compared to the execution times of the workflows, and therefore, the NoSQL databases have proved to be a good option for the storage and management of biological data.Instituto de Ciências Exatas (IE)Departamento de Ciência da Computação (IE CIC)Programa de Pós-Graduação em InformáticaHolanda, Maristela Terto deLima, Iasmini Virgínia Oliveira2017-03-13T18:57:10Z2017-03-13T18:57:10Z2017-03-132016-12-02info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfLIMA, Iasmini Virgínia Oliveira. Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL. 2016. xiv, 60 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2016.http://repositorio.unb.br/handle/10482/22888http://dx.doi.org/10.26512/2016.12.D.22888A concessão da licença deste item refere-se ao termo de autorização impresso assinado pelo autor com as seguintes condições: Na qualidade de titular dos direitos de autor da publicação, autorizo a Universidade de Brasília e o IBICT a disponibilizar por meio dos sites www.bce.unb.br, www.ibict.br, http://hercules.vtls.com/cgi-bin/ndltd/chameleon?lng=pt&skin=ndltd sem ressarcimento dos direitos autorais, de acordo com a Lei nº 9610/98, o texto integral da obra disponibilizada, conforme permissões assinaladas, para fins de leitura, impressão e/ou download, a título de divulgação da produção científica brasileira, a partir desta data.info:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UnBinstname:Universidade de Brasília (UnB)instacron:UNB2024-03-14T15:40:52Zoai:repositorio.unb.br:10482/22888Repositório InstitucionalPUBhttps://repositorio.unb.br/oai/requestrepositorio@unb.bropendoar:2024-03-14T15:40:52Repositório Institucional da UnB - Universidade de Brasília (UnB)false
dc.title.none.fl_str_mv Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
title Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
spellingShingle Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
Lima, Iasmini Virgínia Oliveira
Banco de dados
Bioinformática
Armazenamento de dados
title_short Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
title_full Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
title_fullStr Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
title_full_unstemmed Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
title_sort Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL
author Lima, Iasmini Virgínia Oliveira
author_facet Lima, Iasmini Virgínia Oliveira
author_role author
dc.contributor.none.fl_str_mv Holanda, Maristela Terto de
dc.contributor.author.fl_str_mv Lima, Iasmini Virgínia Oliveira
dc.subject.por.fl_str_mv Banco de dados
Bioinformática
Armazenamento de dados
topic Banco de dados
Bioinformática
Armazenamento de dados
description Dissertação (mestrado)—Universidade de Brasília, Instituto de Ciências Exatas, Departamento de Ciência da Computação, 2016.
publishDate 2016
dc.date.none.fl_str_mv 2016-12-02
2017-03-13T18:57:10Z
2017-03-13T18:57:10Z
2017-03-13
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv LIMA, Iasmini Virgínia Oliveira. Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL. 2016. xiv, 60 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2016.
http://repositorio.unb.br/handle/10482/22888
http://dx.doi.org/10.26512/2016.12.D.22888
identifier_str_mv LIMA, Iasmini Virgínia Oliveira. Replicação de dados em workflows de bioinformática usando os bancos de dados NoSQL. 2016. xiv, 60 f., il. Dissertação (Mestrado em Informática)—Universidade de Brasília, Brasília, 2016.
url http://repositorio.unb.br/handle/10482/22888
http://dx.doi.org/10.26512/2016.12.D.22888
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UnB
instname:Universidade de Brasília (UnB)
instacron:UNB
instname_str Universidade de Brasília (UnB)
instacron_str UNB
institution UNB
reponame_str Repositório Institucional da UnB
collection Repositório Institucional da UnB
repository.name.fl_str_mv Repositório Institucional da UnB - Universidade de Brasília (UnB)
repository.mail.fl_str_mv repositorio@unb.br
_version_ 1810580686789148672