Replicated Data Types for Graph Databases

Detalhes bibliográficos
Autor(a) principal: Almas, Luís Filipe Raimundo
Data de Publicação: 2023
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10362/163513
Resumo: Nowadays graph databases have seen an increase in popularity in applications with highly interconnected data like networks such as social networks, biological, or transportation. Such applications can be implemented on a spectrum of graph data models, from labelled graphs to property graphs. Graph databases allow for flexibility in schema enforcement, offering schema-flexible and even schema-free approaches. Graph databases are used by large-scale applications that require low latency and high availability for millions of users across the world. Nowadays, the usual approach to achieve these latency and availability demands is to resort to data replication across multiple data centers and rely on a weak consistency model. The use of weak consistency introduces scenarios where concurrent updates may lead the replicas’ states to diverge. Replicated data types (CRDTs) implement a deterministic resolution of such conflicts, ensuring state convergence among all replicas. Even though CRDTs guarantee conver- gence, the final state may be invalid if convergence rules do not consider data invariants. For example, implementing a property graph CRDT, requires more complex data types in the state, since nodes and edges have sets of key-value pairs with properties, these are considered invariants and create the possibility of invalid states. Also, a property graph can be bound to a schema, and if so it becomes a graph invariant that is to be maintained. With this work, we intend to develop specialized graph CRDTs in Datalog (Soufflé) for multiple graph models and multiple conflict policies as Datalog offers a high level of abstraction, monotonicity and safety.
id RCAP_89a605b4fd0c6db2fb910c9b9ca71da2
oai_identifier_str oai:run.unl.pt:10362/163513
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Replicated Data Types for Graph DatabasesCRDTGraph databasesWeak ConsistencyInvariantsGraph database SchemasGraph database modelsDomínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaNowadays graph databases have seen an increase in popularity in applications with highly interconnected data like networks such as social networks, biological, or transportation. Such applications can be implemented on a spectrum of graph data models, from labelled graphs to property graphs. Graph databases allow for flexibility in schema enforcement, offering schema-flexible and even schema-free approaches. Graph databases are used by large-scale applications that require low latency and high availability for millions of users across the world. Nowadays, the usual approach to achieve these latency and availability demands is to resort to data replication across multiple data centers and rely on a weak consistency model. The use of weak consistency introduces scenarios where concurrent updates may lead the replicas’ states to diverge. Replicated data types (CRDTs) implement a deterministic resolution of such conflicts, ensuring state convergence among all replicas. Even though CRDTs guarantee conver- gence, the final state may be invalid if convergence rules do not consider data invariants. For example, implementing a property graph CRDT, requires more complex data types in the state, since nodes and edges have sets of key-value pairs with properties, these are considered invariants and create the possibility of invalid states. Also, a property graph can be bound to a schema, and if so it becomes a graph invariant that is to be maintained. With this work, we intend to develop specialized graph CRDTs in Datalog (Soufflé) for multiple graph models and multiple conflict policies as Datalog offers a high level of abstraction, monotonicity and safety.Hoje em dia, as bases de dados de grafos têm visto um aumento de popularidade em aplicações com dados altamente interligados, como redes sociais, biológicas ou de transportes. Tais aplicações podem ser implementadas num espectro de modelos de dados grafos, desde grafos etiquetados a grafos de propriedades. As bases de dados grafos permitem flexibilidade na aplicação de esquemas, oferecendo abordagens flexíveis e até mesmo sem esquemas. As bases de dados grafos são utilizadas por aplicações de grande escala que requerem baixa latência e alta disponibilidade para milhões de utilizadores em todo o mundo. Atualmente, a abordagem habitual para alcançar estas exigências de latência e disponibi- lidade é recorrer à replicação de dados em múltiplos centros de dados e contar com um modelo de fraca consistência. A utilização de consistência fraca introduz cenários em que atualizações simultâneas podem levar os estados das réplicas a divergir. Os tipos de dados replicados (CRDT) implementam uma resolução determinista de tais conflitos, assegurando a convergência de estados entre todas as réplicas. Embora os CRDTs garantam a convergência, o estado final pode ser inválido se as regras de convergência não considerarem invariantes de dados. Por exemplo, implementar um gráfico de propriedade CRDT, requer tipos de dados mais complexos no estado, uma vez que os nós e as arestas têm conjuntos de pares de valores-chave com propriedades, estes são considerados invariantes e criam a possibilidade de estados inválidos. Além disso, um gráfico de propriedade pode ser ligado a um esquema, e se assim for, torna-se um invariante do gráfico que deve ser mantido. Com este trabalho, pretendemos desenvolver CRDTs grafos especializados em Datalog (Soufflé) para múltiplos modelos grafos e múltiplas políticas de conflito já que o Datalog oferece um elevado nível de abstração, monotonicidade e segurança.Ferreira, CarlaDumbrava, StefaniaPereira, MárioRUNAlmas, Luís Filipe Raimundo2024-02-14T11:06:52Z2023-112023-11-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10362/163513enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2024-03-11T05:47:03Zoai:run.unl.pt:10362/163513Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-20T03:59:26.466989Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Replicated Data Types for Graph Databases
title Replicated Data Types for Graph Databases
spellingShingle Replicated Data Types for Graph Databases
Almas, Luís Filipe Raimundo
CRDT
Graph databases
Weak Consistency
Invariants
Graph database Schemas
Graph database models
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Replicated Data Types for Graph Databases
title_full Replicated Data Types for Graph Databases
title_fullStr Replicated Data Types for Graph Databases
title_full_unstemmed Replicated Data Types for Graph Databases
title_sort Replicated Data Types for Graph Databases
author Almas, Luís Filipe Raimundo
author_facet Almas, Luís Filipe Raimundo
author_role author
dc.contributor.none.fl_str_mv Ferreira, Carla
Dumbrava, Stefania
Pereira, Mário
RUN
dc.contributor.author.fl_str_mv Almas, Luís Filipe Raimundo
dc.subject.por.fl_str_mv CRDT
Graph databases
Weak Consistency
Invariants
Graph database Schemas
Graph database models
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic CRDT
Graph databases
Weak Consistency
Invariants
Graph database Schemas
Graph database models
Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Nowadays graph databases have seen an increase in popularity in applications with highly interconnected data like networks such as social networks, biological, or transportation. Such applications can be implemented on a spectrum of graph data models, from labelled graphs to property graphs. Graph databases allow for flexibility in schema enforcement, offering schema-flexible and even schema-free approaches. Graph databases are used by large-scale applications that require low latency and high availability for millions of users across the world. Nowadays, the usual approach to achieve these latency and availability demands is to resort to data replication across multiple data centers and rely on a weak consistency model. The use of weak consistency introduces scenarios where concurrent updates may lead the replicas’ states to diverge. Replicated data types (CRDTs) implement a deterministic resolution of such conflicts, ensuring state convergence among all replicas. Even though CRDTs guarantee conver- gence, the final state may be invalid if convergence rules do not consider data invariants. For example, implementing a property graph CRDT, requires more complex data types in the state, since nodes and edges have sets of key-value pairs with properties, these are considered invariants and create the possibility of invalid states. Also, a property graph can be bound to a schema, and if so it becomes a graph invariant that is to be maintained. With this work, we intend to develop specialized graph CRDTs in Datalog (Soufflé) for multiple graph models and multiple conflict policies as Datalog offers a high level of abstraction, monotonicity and safety.
publishDate 2023
dc.date.none.fl_str_mv 2023-11
2023-11-01T00:00:00Z
2024-02-14T11:06:52Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10362/163513
url http://hdl.handle.net/10362/163513
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799138173730684928