Data Lakes em ambientes híbridos Cloud/Edge

Detalhes bibliográficos
Autor(a) principal: Costa, Daniel Vilar da
Data de Publicação: 2022
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: https://hdl.handle.net/1822/83126
Resumo: Dissertação de mestrado integrado em Engenharia Informática
id RCAP_2a7e54013908c8a0f341cac17f43a9aa
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/83126
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Data Lakes em ambientes híbridos Cloud/EdgeData Lakes in hybrid Cloud/Edge environmentsAmbiente Cloud/EdgeSincronizaçãoReplicaçãoFederação de dadosAnálise de dados exploratóriaCloud/Edge environmentSynchronizationReplicationData federationExploratory data analysisEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado integrado em Engenharia InformáticaA análise dos dados tem sido, tradicionalmente, realizada em servidores na nuvem, onde a capacidade de armazenamento e de processamento são quase ilimitadas. Em contrapartida, os dispositivos periféricos têm severas limitações tanto de armazenamento como de processamento. No entanto, estes dispositivos encontram-se mais próximos do local onde os dados são gerados. Por causa disso, estes são, usualmente, utilizados para cargas de trabalho transacionais onde a confiabilidade e interatividade são fulcrais. Devido às limitações dos dispositivos periféricos, os dados são, geralmente, extraídos periodicamente para a nuvem onde são depois armazenados e processados. De modo a permitir a análise exploratória de dados heterogéneos, é comum utilizar uma infraestrutura Data Lake que permite gerir dados em formato bruto de múltiplas fontes. No entanto, transferir todos os dados coletados para a nuvem é inviável devido à limitada capacidade da rede que não tem conseguido acompanhar o crescimento do volume de dados coletados. Esta dissertação ultrapassa estes desafios ao implementar um componente middleware capaz de armazenar os dados previamente transmitidos na nuvem e propaga partes da interrogação para a periferia. Deste modo, consegue-se reduzir o volume de dados transferido ao enviar, idealmente, apenas uma vez os dados necessários para responder aos pedidos. Além disso, esta solução equilibra o impacto na rede e o custo computacional na periferia de modo a minimizar o tempo de execução.Data analysis has traditionally been performed on dedicated servers in the cloud, where storage and processing capabilities are almost unlimited, in contrast to edge devices. Nonetheless, these devices are closer to where data is generated. Because of this, they have, usually, a transactional workload, where reliability and interactivity are essential. Due to the limitations of edge devices, generally, data is extracted periodically to the cloud to be stored and processed. In order to allow exploratory data analysis, the heterogeneous data is stored in a Data Lake infrastructure that manages data in raw format from multiple data sources. Nonetheless, transferring all collected data to the cloud is unfeasible because the increase in the volume of collected data has surpassed the network capabilities. This thesis overcomes these challenges by employing a middleware component capable of storing previously transmitted data in the cloud and pushing down query fragments to the edge. Consequently, the volume of data transmitted to the cloud is reduced by uploading, ideally, only once the required data. Furthermore, the solution balances the impact on the network and the computational effort in the edge in order to minimize execution time.Parcialmente financiado pelo projeto AIDA – Adaptive, Intelligent and Distributed Assurance Platform (POCI-01-0247-FEDER-045907), cofinanciado pelo Fundo Europeu de Desenvolvimento Regional (FEDER) através do Programa Operacional da Competitividade e Internacionalização (COMPETE 2020) e pela Fundação para a Ciência e Tecnologia (FCT) no âmbito do CMU Portugal.Vilaça, Ricardo Manuel PereiraPereira, JoséUniversidade do MinhoCosta, Daniel Vilar da2022-04-052022-04-05T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttps://hdl.handle.net/1822/83126por203206290info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:09:12Zoai:repositorium.sdum.uminho.pt:1822/83126Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:00:32.841769Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Data Lakes em ambientes híbridos Cloud/Edge
Data Lakes in hybrid Cloud/Edge environments
title Data Lakes em ambientes híbridos Cloud/Edge
spellingShingle Data Lakes em ambientes híbridos Cloud/Edge
Costa, Daniel Vilar da
Ambiente Cloud/Edge
Sincronização
Replicação
Federação de dados
Análise de dados exploratória
Cloud/Edge environment
Synchronization
Replication
Data federation
Exploratory data analysis
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Data Lakes em ambientes híbridos Cloud/Edge
title_full Data Lakes em ambientes híbridos Cloud/Edge
title_fullStr Data Lakes em ambientes híbridos Cloud/Edge
title_full_unstemmed Data Lakes em ambientes híbridos Cloud/Edge
title_sort Data Lakes em ambientes híbridos Cloud/Edge
author Costa, Daniel Vilar da
author_facet Costa, Daniel Vilar da
author_role author
dc.contributor.none.fl_str_mv Vilaça, Ricardo Manuel Pereira
Pereira, José
Universidade do Minho
dc.contributor.author.fl_str_mv Costa, Daniel Vilar da
dc.subject.por.fl_str_mv Ambiente Cloud/Edge
Sincronização
Replicação
Federação de dados
Análise de dados exploratória
Cloud/Edge environment
Synchronization
Replication
Data federation
Exploratory data analysis
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Ambiente Cloud/Edge
Sincronização
Replicação
Federação de dados
Análise de dados exploratória
Cloud/Edge environment
Synchronization
Replication
Data federation
Exploratory data analysis
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado integrado em Engenharia Informática
publishDate 2022
dc.date.none.fl_str_mv 2022-04-05
2022-04-05T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://hdl.handle.net/1822/83126
url https://hdl.handle.net/1822/83126
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 203206290
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132400807051264