An Approach To Publish a Data Warehouse Content as Linked Data

Detalhes bibliográficos
Autor(a) principal: Dourado, António Miguel Torres
Data de Publicação: 2014
Tipo de documento: Dissertação
Idioma: eng
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/5607
Resumo: Mestrado em Engenharia Informática - Área de Especialização em Tecnologias do Conhecimento e Decisão
id RCAP_a42a6b7bca0cbd6c568efa6902d67037
oai_identifier_str oai:recipp.ipp.pt:10400.22/5607
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling An Approach To Publish a Data Warehouse Content as Linked DataData WarehouseSemantic WebLinked (Open) DataRDF Data Cube VocabularyRDB to RDF Mapping LanguagesArmazém de DadosWeb SemânticaMestrado em Engenharia Informática - Área de Especialização em Tecnologias do Conhecimento e DecisãoOrganizations are still gathering huge amounts of data/information and storing them in data warehouses (DW) for reporting and data analysis purposes. Most of those DW rely on Relational Databases (RDB) management systems and are structured by a schema (e.g. star schema, snowflake schema, etc). On the other hand, with the advent of Semantic Web, organizations are being pushed to add semantics (i.e. metadata) on their own data in order to find, share, combine and reuse information more easily across applications, organizations and community boundaries. The goal of the Semantic Web is to provide the ability for computers to perform more complex jobs through principles of Linked Data. In that sense, the W3C proposes the adoption of standards like RDF, OWL and SPARQL technologies that help exposing and accessing the data and its semantics by using logical structures called Ontologies. Simply put, an ontology captures/represents the vocabulary and interpretation restrictions of a particular application domain (i.e. concepts, their relations and restrictions), which is further used to describe a set of specific data (instances) for that domain. In this context, the work described in this document is intended to explore and analyze (i) the Vocabulary recommended by W3C to describe a Data Cube represented in RDF and (ii) the languages of mapping relational database (RDB) to RDF, also recommend by W3C, in order to propose their application in a semi-automatic process that should allow, in a quick and easy manner, to publish semantically the content of a existing DW from relational database in accordance with the principles of Linked (Open) data. The semi-automatic process can save time/money in creating a data repository that has an ontology, which could be used as standard “facade” for the content of the Data Warehouse to be use on Semantic Web technologies. The semiautomatic process consists of four sub-processes (cf. chapter 6). The first process, called Setup and Configuration Process, select the tables of data warehouses (cf. chapter 2), from which it will extract the data. The second process, called RDF Data Cube Ontology Structure Definition Process, creates an ontology structure, without data, based on the results obtained in Setup and Configuration Process. The ontology also uses a vocabulary recommended by W3C, so it can be classified and used as a data cube (cf. chapter 5). The third process, called Mappings Specification Process, creates a mapping between the Data Warehouse and the ontology created, using a standard language recommended by the W3C called RDB2RDF R2RML. The last and fourth, called Mapping Execution, that creates the data to be used by the ontology by mapping generated by the Mappings Specification Process.As organizações estão constantemente a recolher enormes quantidades de dados / informações para guardarem em Armazéns de Dados para fins de elaboração de relatórios e análise de dados. A maioria desses Armazéns usa sistemas de gestão de bases de dados relacionais e são estruturadas de acordo com um esquema (e.g. o esquema em estrela, o esquema em floco de neve, etc.). Por outro lado, com o advento da Web Semântica, as organizações estão a ser pressionadas a adicionar semântica (isto é, meta dados) sobre os seus próprios dados, a fim de encontrar, partilhar, combinar e reutilizar informação mais facilmente entre aplicações, organizações e comunidades. O objetivo da Web Semântica é providenciar aos computadores capacidade de executar trabalhos mais complexos através de princípios de Linked Data (ver capitulo 3). Nesse sentido, a W3C tem proposto a adoção de várias recomendações como o RDF, o OWL e o SPARQL. Estas tecnologias ajudam a expor os dados e a sua semântica usando estruturas lógicas, denominadas de Ontologias. De forma simples, uma ontologia captura/representa o vocabulário e restrições de interpretação de um determinado domínio de aplicação (i.e. os conceitos, suas relações e restrições) que posteriormente é usado para descrever um conjunto de dados concretos desse domínio. Neste contexto, o trabalho descrito neste documento visa analisar e explorar (i) o Vocabulário recomendado pela W3C para descrever um Cubo de Dados representado em RDF (ver capitulo 5) e (ii) as linguagens de mapeamento de Dados Relacionais (RDB) para RDF (ver capitulo 4), também recomendadas pela W3C, com o intuito de propor a sua aplicação num processo semiautomático que permita publicar semanticamente de forma rápida e fácil o conteúdo de um Armazém de Dados existente numa base de dados relacional de acordo com os princípios de Linked (Open) Data. O objetivo do processo semiautomático é criar um repositório de dados com uma ontologia, que poderá ser usada como “fachada” standard para o conteúdo do Armazém de Dados para ser usado em tecnologias de Web Semântica. O processo semiautomático proposto é constituído por 4 subprocessos (ver capitulo 6). O primeiro processo, chamado Setup and Configuration Process (ver secção 6.2.2), visa selecionar e categorizar as tabelas do Armazéns de Dados (ver capitulo 2), do qual se irá extrair os dados. O segundo processo, chamado RDF Data Cube Ontology Structure Definition Process (ver secção 6.2.3), cria uma ontologia sem dados cuja estrutura advém tanto (i) do vocabulário recomendado pela W3C para descrição de Cubos de Dados (ver capítulo 5) e (ii) do resultado obtido no Setup and Configuration Process . O terceiro processo, chamado Mappings Specification Process (ver secção 6.2.4), cria um mapeamento entre o Armazém de Dados e a ontologia resultado do processo anterior. Este mapeamento assenta na recomendação da W3C denominado R2RML. O último e quarto processo, chamado Mapping Execution Process (ver secção 6.2.5), expõe os dados do Armazém de Dados de acordo com a ontologia anterior, através do mapeamento gerado pelo Mappings Specification Process. Esta tese está dividida em sete capítulos. O primeiro capítulo providencia uma introdução ao contexto e ao objetivo deste documento. O segundo capítulo apresenta uma visão geral sobre Armazéns de Dados, do qual as suas estruturas e dados são usados pelo processo semiautomático para criar o repositório de dados. O terceiro capítulo apresenta uma análise sobre Linked Data, nomeadamente o seu conceito, os seus princípios e linguagens que podem ser usadas para o expressar. Uma dessas linguagens (RDF ou OWL) em combinação com uma serialização (e.g. XML, N-Triples, etc.) que é usado para descrever o repositório de dados que o processo semiautomático pode criar. O quarto capítulo apresenta um levantamento de linguagens e tecnologias de mapeamento de RDB para RDF, em que R2RML é usado pelo processo semiautomático para criar mapeamentos entre um Armazéns de Dados e o repositório de dados. O quinto capítulo apresenta o vocabulário recomendado pela W3C para descrever um Cubo de Dados que vai ser usado para classificar o repositório de dados, criado pelo processo semiautomático. O sexto capítulo apresenta e descreve o processo semiautomático proposto com um exemplo que decorre e evolui ao longo de cada passo implementado. E o ultimo e sétimo capítulo contém as conclusões obtidas deste trabalho e algumas limitações possíveis. Também contem algumas sugestões de possíveis futuros trabalhos que podem ser acrescentados ao processo semiautomático.Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto.Maio, Paulo Alexandre Fangueiro OliveiraSilva, Nuno Alexandre Pinto daRepositório Científico do Instituto Politécnico do PortoDourado, António Miguel Torres2015-02-09T17:25:49Z20142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/5607TID:201816059enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:45:43Zoai:recipp.ipp.pt:10400.22/5607Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:26:14.113248Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv An Approach To Publish a Data Warehouse Content as Linked Data
title An Approach To Publish a Data Warehouse Content as Linked Data
spellingShingle An Approach To Publish a Data Warehouse Content as Linked Data
Dourado, António Miguel Torres
Data Warehouse
Semantic Web
Linked (Open) Data
RDF Data Cube Vocabulary
RDB to RDF Mapping Languages
Armazém de Dados
Web Semântica
title_short An Approach To Publish a Data Warehouse Content as Linked Data
title_full An Approach To Publish a Data Warehouse Content as Linked Data
title_fullStr An Approach To Publish a Data Warehouse Content as Linked Data
title_full_unstemmed An Approach To Publish a Data Warehouse Content as Linked Data
title_sort An Approach To Publish a Data Warehouse Content as Linked Data
author Dourado, António Miguel Torres
author_facet Dourado, António Miguel Torres
author_role author
dc.contributor.none.fl_str_mv Maio, Paulo Alexandre Fangueiro Oliveira
Silva, Nuno Alexandre Pinto da
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Dourado, António Miguel Torres
dc.subject.por.fl_str_mv Data Warehouse
Semantic Web
Linked (Open) Data
RDF Data Cube Vocabulary
RDB to RDF Mapping Languages
Armazém de Dados
Web Semântica
topic Data Warehouse
Semantic Web
Linked (Open) Data
RDF Data Cube Vocabulary
RDB to RDF Mapping Languages
Armazém de Dados
Web Semântica
description Mestrado em Engenharia Informática - Área de Especialização em Tecnologias do Conhecimento e Decisão
publishDate 2014
dc.date.none.fl_str_mv 2014
2014-01-01T00:00:00Z
2015-02-09T17:25:49Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/5607
TID:201816059
url http://hdl.handle.net/10400.22/5607
identifier_str_mv TID:201816059
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto.
publisher.none.fl_str_mv Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto.
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131356556427264