Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados

Detalhes bibliográficos
Autor(a) principal: Martins, João Filipe Freitas
Data de Publicação: 2018
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/59122
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_f8fa1b98e19873b57083ad891be4865a
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/59122
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dadosBig DataNoSQLHadoopKuduEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoDurante os últimos anos, temos assistido a um aumento exponencial da quantidade de dados produzidos. Este aumento deve-se, principalmente, à enorme utilização de sensores, assim como à massificação da utilização das redes sociais e de dispositivos móveis que, em permanência, recolhem dados de diversos tipos e contextos. O tratamento e análise destes dados por parte das organizações traduz-se numa inegável vantagem competitiva nos mercados, cada vez mais exigentes. Por este motivo, o estudo e desenvolvimento de novas ferramentas para a exploração destes dados tem atraído a atenção das organizações e também da comunidade científica, uma vez que as técnicas e tecnologia tradicionais se têm mostrado incapazes de lidar com dados de tal natureza. Neste contexto, surge o termo Big Data, utilizado para definir este tipo de dados de grande volume, diferentes graus de complexidade e, por vezes, não estruturados ou com um modelo de dados pré-definido. Associado ao termo Big Data surgem novos repositórios de dados com modelos lógicos próprios, denominados de bases de dados NoSQL, que vêm substituir as bases de dados relacionais baseadas no paradigma relacional. Estes repositórios estão integrados num ecossistema vasto de ferramentas e tecnologias para lidar com este tipo de dados, o Hadoop. Neste seguimento, esta dissertação tem por objetivo estudar uma das muitas ferramentas associadas ao projeto Hadoop, o Kudu. Esta nova ferramenta, de arquitetura híbrida, promete preencher a lacuna existente entre as ferramentas de acesso a dados de forma sequencial e as ferramentas de acesso a dados de forma aleatória, simplificando, por isso, a arquitetura complexa que a utilização destes dois tipos de sistemas implica. Para cumprir os objetivos da dissertação foram realizados testes de desempenho com dois modelos de dados distintos, ao Kudu e a outras ferramentas destacadas na literatura, para possibilitar a comparação de resultados.Over the last few years we have witnessed an exponential increase in the amount of data produced. This increase is mainly due to the huge use of sensors, as well as the mass use of social networks and mobile devices that continuously collect data of different types and contexts. The processing and analysis of these data by the organizations translates into an undeniable competitive advantage in the increasingly competitive markets. For this reason, the study and development of new tools for the exploration of these data has attracted the attention of organizations and scientific community, since traditional techniques and technology have been unable to deal with data of this nature. In this context, the term Big Data appears, used to define this type of data of great volume, different degrees of complexity, and sometimes unstructured or disorganized. Associated with the term Big Data arise new data repositories with own logical models, denominated of databases NoSQL, that replace the traditional models. These repositories are integrated into a vast ecosystem of tools and technologies to handle this type of data, Hadoop. In this follow-up, this dissertation aims to study one of the many tools associated with the Hadoop project, Kudu. This new hybrid architecture tool promises to fill the gap between sequential data access tools and random data access tools, thereby simplifying the complex architecture that the use of these two types of systems implies. To fulfill the objectives of the dissertation, performance tests were performed with two different data models, over Kudu and other tools highlighted in the literature, to allow the comparison of results.Santos, Maribel YasminaUniversidade do MinhoMartins, João Filipe Freitas20182018-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/59122por202168026info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:37:55Zoai:repositorium.sdum.uminho.pt:1822/59122Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:34:16.678961Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
title Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
spellingShingle Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
Martins, João Filipe Freitas
Big Data
NoSQL
Hadoop
Kudu
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
title_full Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
title_fullStr Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
title_full_unstemmed Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
title_sort Apache Kudu: vantagens e desvantagens na análise de vastas quantidades de dados
author Martins, João Filipe Freitas
author_facet Martins, João Filipe Freitas
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Universidade do Minho
dc.contributor.author.fl_str_mv Martins, João Filipe Freitas
dc.subject.por.fl_str_mv Big Data
NoSQL
Hadoop
Kudu
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Big Data
NoSQL
Hadoop
Kudu
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2018
dc.date.none.fl_str_mv 2018
2018-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/59122
url http://hdl.handle.net/1822/59122
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202168026
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132864192708608