Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos

Detalhes bibliográficos
Autor(a) principal: Frozza, Angelo Augusto
Data de Publicação: 2021
Tipo de documento: Tese
Idioma: por
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/227198
Resumo: Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.
id UFSC_58404b7f810cc3d64b8b11503dd94b01
oai_identifier_str oai:repositorio.ufsc.br:123456789/227198
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficosComputaçãoBanco de dadosWeb semânticaBanco de dados geográficosTese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.O advento dos Big Data fez com que novas tecnologias de banco de dados (BD) voltados ao gerenciamento de grandes quantidades de dados complexos e heterogêneos ganhassem importância na indústria, como é o caso dos BDs NoSQL. Eles surgem como principal sistema de gerência de BD para Big Data devido a várias características, como a ausência de esquemas (schemaless) ou o uso de esquemas flexíveis. Entretanto, conhecer o esquema dos dados cada vez mais torna-se essencial para diversos tipos de aplicações, como integração, interoperabilidade e validação de dados, processamento de consultas, bem como, ferramentas de administração de dados. Esta tese apresenta uma abordagem para extração de esquemas de BDs NoSQL, com ênfase em dados geográficos. Diferente do estado da arte, demonstra-se que o padrão JSON pode ser usado como formato canônico para representar dados em qualquer um dos quatro principais modelos de dados NoSQL (orientado a documentos, chave-valor, colunar e orientado a grafos). Assim, o JSON é a base para a abordagem, por consequência, propõe-se o uso do JSON Schema como formato de representação dos esquemas extraídos. Embora a especificação do JSON Schema ainda esteja em desenvolvimento (versão draft-2020-12), ela mostrou-se eficiente nas implementações realizadas. Ainda, JSON Schema suporta um conjunto limitado de tipos de dados (string, integer, number, boolean, object, array), porém, ele permite que o usuário possa definir seus próprios tipos de dados e objetos. Assim sendo, outra contribuição desta tese é uma biblioteca para a representação de tipos de dados geográficos em JSON Schema denominada JS4Geo (JSON Schema for Geographic Data). Essa biblioteca também pode ser usada para criar esquemas de dados geográficos armazenados em outros formatos padrão de mercado, como GeoJSON, KML e GML. Esta tese propõe, também, a conversão dos JSON Schemas em um formato preparado para uso por aplicações da Web Semântica. Neste contexto, adotou-se a linguagem SHACL (Shapes Constraint Language) para definir ontologias de representação (shapesfile) a partir dos JSON Schema. SHACL é a mais recente recomendação do W3C e permite, além de descrever dados presentes em um BD NoSQL, realizar a validação de dados na Web Semântica, o que não é possível com as linguagens tradicionais para esquemas na Web Semântica (como OWL ou RDF Schema). A abordagem proposta nesta tese foi avaliada através de um conjunto de testes executados por meio de diversos protótipos implementados, demonstrando a sua viabilidade.Abstract: The Big Data advent has made new database (DB) technologies for managing large amounts of complex and heterogeneous data to gain importance in the industry, like NoSQL DBs. They had emerged as the primary DB management system for Big Data due to several characteristics, like the absence of schemas (schemaless) or flexible schemas. However, to be aware of the data schema is essential for several kinds of applications, such as data integration, interoperability and validation, query processing, as well as data administration tools. This Thesis presents a methodology for extracting schemas from NoSQL DB with an emphasis on geographic data. Different from the state-of-the-art, we argue that the JSON standard can be used as a canonical format to represent data in any of the four main NoSQL data models (document-oriented, key-value, columnar and graph-oriented). Thus, JSON is the basis for our methodology and, as a consequence, we propose the usage of JSON Schema as a representation format for the extracted schemes. Although JSON Schema specification is still in development (version draft-2020-12), it had proved his efficiency, as shown in our evaluations. Nevertheless, JSON Schema specification supports a limited set of data types (string, integer, number, boolean, object, array). However, it allows the user can define their own data types and objects. Due to it, another contribution of this Thesis is a library to represent geographic data types in JSON Schema called JS4Geo (JSON Schema for Geographic Data). It is shown that this library can also be used to create geographic data schemas stored into several industry standard formats, like GeoJSON, KML, and GML. We also propose the conversion of JSON Schemas into a format ready for use by Semantic Web applications. In this context, we adopt SHACL (Shapes Constraint Language) to define representation ontologies (shapesfile) from JSON Schema. SHACL is the most recent recommendation from the W3C. It is able to describe data from NoSQL DB, and perform data validation, which is impossible with traditional languages for schemas in the Semantic Web (like OWL or RDF Schema). Our proposed methodology is evaluated through a set of experiments performed over several prototype tools, which demonstrate its viability.Mello, Ronaldo dos SantosUniversidade Federal de Santa CatarinaFrozza, Angelo Augusto2021-08-23T14:09:02Z2021-08-23T14:09:02Z2021info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesis159 p.| il.. tabs.application/pdf372171https://repositorio.ufsc.br/handle/123456789/227198porreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCinfo:eu-repo/semantics/openAccess2021-08-23T14:09:02Zoai:repositorio.ufsc.br:123456789/227198Repositório InstitucionalPUBhttp://150.162.242.35/oai/requestopendoar:23732021-08-23T14:09:02Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.none.fl_str_mv Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
title Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
spellingShingle Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
Frozza, Angelo Augusto
Computação
Banco de dados
Web semântica
Banco de dados geográficos
title_short Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
title_full Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
title_fullStr Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
title_full_unstemmed Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
title_sort Uma abordagem para extração de esquemas de bancos de dados NoSQL com ênfase em dados geográficos
author Frozza, Angelo Augusto
author_facet Frozza, Angelo Augusto
author_role author
dc.contributor.none.fl_str_mv Mello, Ronaldo dos Santos
Universidade Federal de Santa Catarina
dc.contributor.author.fl_str_mv Frozza, Angelo Augusto
dc.subject.por.fl_str_mv Computação
Banco de dados
Web semântica
Banco de dados geográficos
topic Computação
Banco de dados
Web semântica
Banco de dados geográficos
description Tese (doutorado) - Universidade Federal de Santa Catarina, Centro Tecnológico, Programa de Pós-Graduação em Ciência da Computação, Florianópolis, 2021.
publishDate 2021
dc.date.none.fl_str_mv 2021-08-23T14:09:02Z
2021-08-23T14:09:02Z
2021
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv 372171
https://repositorio.ufsc.br/handle/123456789/227198
identifier_str_mv 372171
url https://repositorio.ufsc.br/handle/123456789/227198
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 159 p.| il.. tabs.
application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1808652396584239104