Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos

Detalhes bibliográficos
Autor(a) principal: Yassef, Yasmin
Data de Publicação: 2019
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNIFESP
Texto Completo: https://repositorio.unifesp.br/handle/11600/51866
Resumo: "Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."
id UFSP_bb4cdf836ba3155d1dcebe03d6c44965
oai_identifier_str oai:repositorio.unifesp.br/:11600/51866
network_acronym_str UFSP
network_name_str Repositório Institucional da UNIFESP
repository_id_str 3465
spelling Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicosEvaluation of Hadoop and MapReduce in increasing efficiency in biological databasesHadoopMapReduceBancos de dadosBioinformáticaSNPs"Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."The technological advances of the digital age have contributed to the exponential growth of available data generated by the modern lifestyle, turning Big Data’s methods and techniques a relevant research area. Bioinformatics follows the same behavior since the technological revolutions which facilitated the generation of genomic and biological data, creating a new branch in the study of Big Data related especifically to its applications in biological datasets. Maintaining and managing these large datasets often exceeds the processing power of current technologies, making it necessary to research new data processing techniques, such as distributed systems. In regard to the aforementioned topics, the present study evaluated the use of the Apache Hadoop framework in improving the performance of queries to biological datasets in comparison to relational databases, by performing queries on single nucleotide polymorphism annotation data in a simulated distributed system. With the volume and type of data used, the operational overhead and management difficulty of the distributed system led to a significantly slower execution time compared to the same queries being performed in a traditional relational database (PostgreSQL). However, when increasing the size of the problem, it was possible to conclude that for the appropriate volume of data Hadoop can have better performance than relational databases, but the scenario of the specific application must be evaluated to choose the most suitable technology for the given problem.Universidade Federal de São PauloMusa, Daniela Lealhttp://lattes.cnpq.br/8606503911561836Yassef, Yasmin2020-01-27T13:12:04Z2020-01-27T13:12:04Z2019-12-11info:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/publishedVersion89 f.application/pdfhttps://repositorio.unifesp.br/handle/11600/51866porSão José dos Camposinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UNIFESPinstname:Universidade Federal de São Paulo (UNIFESP)instacron:UNIFESP2024-08-02T10:33:56Zoai:repositorio.unifesp.br/:11600/51866Repositório InstitucionalPUBhttp://www.repositorio.unifesp.br/oai/requestbiblioteca.csp@unifesp.bropendoar:34652024-08-02T10:33:56Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)false
dc.title.none.fl_str_mv Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
Evaluation of Hadoop and MapReduce in increasing efficiency in biological databases
title Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
spellingShingle Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
Yassef, Yasmin
Hadoop
MapReduce
Bancos de dados
Bioinformática
SNPs
title_short Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
title_full Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
title_fullStr Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
title_full_unstemmed Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
title_sort Avaliação do uso de Hadoop e MapReduce para aumento de eficiência no gerenciamento de dados biológicos
author Yassef, Yasmin
author_facet Yassef, Yasmin
author_role author
dc.contributor.none.fl_str_mv Musa, Daniela Leal
http://lattes.cnpq.br/8606503911561836
dc.contributor.author.fl_str_mv Yassef, Yasmin
dc.subject.por.fl_str_mv Hadoop
MapReduce
Bancos de dados
Bioinformática
SNPs
topic Hadoop
MapReduce
Bancos de dados
Bioinformática
SNPs
description "Os avanços tecnológicos da era digital vem contribuindo para o crescimento exponencial do volume de dados gerado pelo estilo de vida moderno, tornando relevante o estudo de Big Data e seus métodos e técnicas. A Bioinformática segue o mesmo comportamento, visto que as grandes revoluções tecnológicas na área vem facilitando a geração de diversos dados genômicos e biológicos, se tornando uma ramificação da área de Big Data. A manutenção e gerenciamento desse grande volume de dados muitas vezes extrapola a capacidade de processamento das tecnologias tradicionais, fazendo com que se torne necessário o estudo de novas tecnologias para processamento de dados, utilizando por exemplo sistemas distribuídos. Tendo em vista essas questões, o estudo framework Apache Hadoop para melhoria de performance de consultas a bases de dados biológicos em relação a bancos de dados relacionais, através da realização de consultas em dados de anotações de polimorfismo de nucleotídeo único em um sistema distribuído simulado. Para o volume e tipo de dados utilizado, verificou-se que o overhead operacional e dificuldade de gerenciamento do sistema distribuído acarretaram uma lentidão significativa de tempo de execução em relação a essas mesmas operações sendo realizadas num banco relacional tradicional (PostgreSQL). Porém, aumentando-se a escala do problema, foi possível avaliar que para o volume adequado de dados a aplicação de Hadoop se torna mais vantajosa do que bancos relacionais, mas é preciso avaliar as condições da aplicação em questão para escolher a tecnologia que possa trazer mais benefícios."
publishDate 2019
dc.date.none.fl_str_mv 2019-12-11
2020-01-27T13:12:04Z
2020-01-27T13:12:04Z
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.unifesp.br/handle/11600/51866
url https://repositorio.unifesp.br/handle/11600/51866
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 89 f.
application/pdf
dc.coverage.none.fl_str_mv São José dos Campos
dc.publisher.none.fl_str_mv Universidade Federal de São Paulo
publisher.none.fl_str_mv Universidade Federal de São Paulo
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIFESP
instname:Universidade Federal de São Paulo (UNIFESP)
instacron:UNIFESP
instname_str Universidade Federal de São Paulo (UNIFESP)
instacron_str UNIFESP
institution UNIFESP
reponame_str Repositório Institucional da UNIFESP
collection Repositório Institucional da UNIFESP
repository.name.fl_str_mv Repositório Institucional da UNIFESP - Universidade Federal de São Paulo (UNIFESP)
repository.mail.fl_str_mv biblioteca.csp@unifesp.br
_version_ 1814268385261780992