HyLake: atualização de lagos de dados com granularidade fina

Detalhes bibliográficos
Autor(a) principal: Teixeira, Nelson José Dias
Data de Publicação: 2021
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/82799
Resumo: Dissertação de mestrado em Engenharia Informática
id RCAP_83032091f2cb2bf3af4ee12f4d1ffd2f
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/82799
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling HyLake: atualização de lagos de dados com granularidade finaHyLake: fine granularity updates to data lakesLagos de dadosTransaçõesProcessamento híbrido transacional-analíticoBases de dadosSistemas distribuídosData lakesTransactionsHTAP (Hybrid Transactional Analytical Processing)DatabasesDistributed systemsEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Engenharia InformáticaOs lagos de dados, também conhecidos por data lakes, suportam a recolha de grandes quantidades de informação em ficheiros imutáveis para processamento analítico. No entanto, tem surgido a necessidade de modificar e atualizar esta informação de forma fiável, seja porque os dados são recebidos de forma incremental (por exemplo, de sensores e outras fontes de eventos) ou para eliminar os mesmos (por exemplo, devido ao RGPD (Regulamento Geral sobre a Proteção de Dados)). As soluções atuais para o fazer não são no entanto ideais: o armazenamento em SGBD (Sistema de Gestão de Bases de Dados) NoSQL (Not only SQL) tem um grande impacto no desempenho analítico, enquanto que sistemas baseados em ficheiros, como o Delta Lake, permitem apenas atualizações de granularidade grossa. Neste trabalho aborda-se este problema propondo uma solução híbrida que combina o armazena mento de longo prazo em ficheiros com um armazenamento transitório num SGBD NoSQL de forma a obter as vantagens de ambos os sistemas. Para o efeito, é implementado uma prova de conceito usando Spark, com ficheiros Parquet, e MongoDB. Assim, com a introdução deste sistema pretende-se possibi litar a execução de transações frequentes e de granularidade fina para suportar uma carga de trabalho OLTP (Online Transaction Processing). Os resultados experimentais obtidos confirmam que esta proposta obtém desempenho analítico e transacional comparável a cada um dos sistemas isolados.Data lakes support the collection of large amounts of information in immutable files for analytical processing. However, there has been a need to reliably modify and update this information, either because data is received incrementally (for example, from sensors and other event sources) or to eliminate them (for example, due to GDPR (General Data Protection Regulation)). Current solutions for doing this aren’t ideal: storage in NoSQL (Not only SQL) DBMS (Database Management System) has a big impact on analytical performance, while file-based systems, such as Delta Lake, only allow coarse-grained updates. This work addresses this problem by proposing a hybrid solution that combines long-term file storage with transient storage in a NoSQL DBMS in order to obtain the advantages of both systems. For this purpose, a proof of concept is implemented using Spark, with Parquet files, and MongoDB. Thus, with the introduction of this system, it’s intended to enable the execution of frequent and fine-grained transactions to support an OLTP (Online Transaction Processing) workload. The experimental results obtained confirm that this proposal obtains analytical and transactional performance comparable to each of the isolated systems.À instituição de investigação INESCTEC (Instituto de Engenharia de Sistemas e Computadores, Tecnologia e Ciência), em particular ao grupo HASLab (High-Assurance Software Laboratory), quero destacar a entreajuda e as ótimas condições exibidas durante o desenvolvimento deste trabalho.Também quero saudar o apoio exibido por parte desta instituição e da FCT (Fundação para a Ciência e a Tecnologia) através de um financiamento plurimensal sob a forma de uma bolsa de iniciação à investigação (9034/BII-E_-B4/2021).Pereira, JoséCoelho, Fábio André Castanheira LuísUniversidade do MinhoTeixeira, Nelson José Dias2021-12-032021-12-03T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/82799por203158016info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T11:59:07Zoai:repositorium.sdum.uminho.pt:1822/82799Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T18:48:52.395581Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv HyLake: atualização de lagos de dados com granularidade fina
HyLake: fine granularity updates to data lakes
title HyLake: atualização de lagos de dados com granularidade fina
spellingShingle HyLake: atualização de lagos de dados com granularidade fina
Teixeira, Nelson José Dias
Lagos de dados
Transações
Processamento híbrido transacional-analítico
Bases de dados
Sistemas distribuídos
Data lakes
Transactions
HTAP (Hybrid Transactional Analytical Processing)
Databases
Distributed systems
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short HyLake: atualização de lagos de dados com granularidade fina
title_full HyLake: atualização de lagos de dados com granularidade fina
title_fullStr HyLake: atualização de lagos de dados com granularidade fina
title_full_unstemmed HyLake: atualização de lagos de dados com granularidade fina
title_sort HyLake: atualização de lagos de dados com granularidade fina
author Teixeira, Nelson José Dias
author_facet Teixeira, Nelson José Dias
author_role author
dc.contributor.none.fl_str_mv Pereira, José
Coelho, Fábio André Castanheira Luís
Universidade do Minho
dc.contributor.author.fl_str_mv Teixeira, Nelson José Dias
dc.subject.por.fl_str_mv Lagos de dados
Transações
Processamento híbrido transacional-analítico
Bases de dados
Sistemas distribuídos
Data lakes
Transactions
HTAP (Hybrid Transactional Analytical Processing)
Databases
Distributed systems
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Lagos de dados
Transações
Processamento híbrido transacional-analítico
Bases de dados
Sistemas distribuídos
Data lakes
Transactions
HTAP (Hybrid Transactional Analytical Processing)
Databases
Distributed systems
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Engenharia Informática
publishDate 2021
dc.date.none.fl_str_mv 2021-12-03
2021-12-03T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/82799
url https://hdl.handle.net/1822/82799
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 203158016
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132251152187392