Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNIFESP |
Texto Completo: | https://repositorio.unifesp.br/handle/11600/51866 |
Resumo: | "Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios." |
id |
UFSP_bb4cdf836ba3155d1dcebe03d6c44965 |
---|---|
oai_identifier_str |
oai:repositorio.unifesp.br/:11600/51866 |
network_acronym_str |
UFSP |
network_name_str |
Repositório Institucional da UNIFESP |
repository_id_str |
3465 |
spelling |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicosEvaluation of Hadoop and MapReduce in increasing efficiency in biological databasesHadoopMapReduceBancos de dadosBioinformáticaSNPs"Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."The technological advances of the digital age have contributed to the exponential growth of available data generated by the modern lifestyle, turning Big Data’s methods and techniques a relevant research area. Bioinformatics follows the same behavior since the technological revolutions which facilitated the generation of genomic and biological data, creating a new branch in the study of Big Data related especifically to its applications in biological datasets. Maintaining and managing these large datasets often exceeds the processing power of current technologies, making it necessary to research new data processing techniques, such as distributed systems. In regard to the aforementioned topics, the present study evaluated the use of the Apache Hadoop framework in improving the performance of queries to biological datasets in comparison to relational databases, by performing queries on single nucleotide polymorphism annotation data in a simulated distributed system. With the volume and type of data used, the operational overhead and management difficulty of the distributed system led to a significantly slower execution time compared to the same queries being performed in a traditional relational database (PostgreSQL). However, when increasing the size of the problem, it was possible to conclude that for the appropriate volume of data Hadoop can have better performance than relational databases, but the scenario of the specific application must be evaluated to choose the most suitable technology for the given problem.Universidade Federal de São PauloMusa, Daniela Lealhttp://lattes.cnpq.br/8606503911561836Yassef, Yasmin2020-01-27T13:12:04Z2020-01-27T13:12:04Z2019-12-11info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersion89 f.application/pdfhttps://repositorio.unifesp.br/handle/11600/51866porSão José dos Camposinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-02T10:33:56Zoai:repositorio.unifesp.br/:11600/51866Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-02T10:33:56Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false |
dc.title.none.fl_str_mv |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos Evaluation of Hadoop and MapReduce in increasing efficiency in biological databases |
title |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos |
spellingShingle |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos Yassef, Yasmin Hadoop MapReduce Bancos de dados Bioinformática SNPs |
title_short |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos |
title_full |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos |
title_fullStr |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos |
title_full_unstemmed |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos |
title_sort |
Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos |
author |
Yassef, Yasmin |
author_facet |
Yassef, Yasmin |
author_role |
author |
dc.contributor.none.fl_str_mv |
Musa, Daniela Leal http://lattes.cnpq.br/8606503911561836 |
dc.contributor.author.fl_str_mv |
Yassef, Yasmin |
dc.subject.por.fl_str_mv |
Hadoop MapReduce Bancos de dados Bioinformática SNPs |
topic |
Hadoop MapReduce Bancos de dados Bioinformática SNPs |
description |
"Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios." |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019-12-11 2020-01-27T13:12:04Z 2020-01-27T13:12:04Z |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.unifesp.br/handle/11600/51866 |
url |
https://repositorio.unifesp.br/handle/11600/51866 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
89 f. application/pdf |
dc.coverage.none.fl_str_mv |
São José dos Campos |
dc.publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
publisher.none.fl_str_mv |
Universidade Federal de São Paulo |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIFESP instname:Universidade Federal de São Paulo (UNIFESP) instacron:UNIFESP |
instname_str |
Universidade Federal de São Paulo (UNIFESP) |
instacron_str |
UNIFESP |
institution |
UNIFESP |
reponame_str |
Repositório Institucional da UNIFESP |
collection |
Repositório Institucional da UNIFESP |
repository.name.fl_str_mv |
Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP) |
repository.mail.fl_str_mv |
biblioteca.csp@unifesp.br |
_version_ |
1814268385261780992 |