An Approach To Publish a Data Warehouse Content as Linked Data

Dourado, António Miguel Torres

An Approach To Publish a Data Warehouse Content as Linked Data

Detalhes bibliográficos
Autor(a) principal:	Dourado, António Miguel Torres
Data de Publicação:	2014
Tipo de documento:	Dissertação
Idioma:	eng
Título da fonte:	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo:	http://hdl.handle.net/10400.22/5607
Resumo:	Mestrado em Engenharia Informática - Área de Especialização em Tecnologias do Conhecimento e Decisão

Metadados do item

id	RCAP_a42a6b7bca0cbd6c568efa6902d67037
oai_identifier_str	oai:recipp.ipp.pt:10400.22/5607
network_acronym_str	RCAP
network_name_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str	7160
spelling	An Approach To Publish a Data Warehouse Content as Linked DataData WarehouseSemantic WebLinked (Open) DataRDF Data Cube VocabularyRDB to RDF Mapping LanguagesArmazém de DadosWeb SemânticaMestrado em Engenharia Informática - Área de Especialização em Tecnologias do Conhecimento e DecisãoOrganizations are still gathering huge amounts of data/information and storing them in data warehouses (DW) for reporting and data analysis purposes. Most of those DW rely on Relational Databases (RDB) management systems and are structured by a schema (e.g. star schema, snowflake schema, etc). On the other hand, with the advent of Semantic Web, organizations are being pushed to add semantics (i.e. metadata) on their own data in order to find, share, combine and reuse information more easily across applications, organizations and community boundaries. The goal of the Semantic Web is to provide the ability for computers to perform more complex jobs through principles of Linked Data. In that sense, the W3C proposes the adoption of standards like RDF, OWL and SPARQL technologies that help exposing and accessing the data and its semantics by using logical structures called Ontologies. Simply put, an ontology captures/represents the vocabulary and interpretation restrictions of a particular application domain (i.e. concepts, their relations and restrictions), which is further used to describe a set of specific data (instances) for that domain. In this context, the work described in this document is intended to explore and analyze (i) the Vocabulary recommended by W3C to describe a Data Cube represented in RDF and (ii) the languages of mapping relational database (RDB) to RDF, also recommend by W3C, in order to propose their application in a semi-automatic process that should allow, in a quick and easy manner, to publish semantically the content of a existing DW from relational database in accordance with the principles of Linked (Open) data. The semi-automatic process can save time/money in creating a data repository that has an ontology, which could be used as standard “facade” for the content of the Data Warehouse to be use on Semantic Web technologies. The semiautomatic process consists of four sub-processes (cf. chapter 6). The first process, called Setup and Configuration Process, select the tables of data warehouses (cf. chapter 2), from which it will extract the data. The second process, called RDF Data Cube Ontology Structure Definition Process, creates an ontology structure, without data, based on the results obtained in Setup and Configuration Process. The ontology also uses a vocabulary recommended by W3C, so it can be classified and used as a data cube (cf. chapter 5). The third process, called Mappings Specification Process, creates a mapping between the Data Warehouse and the ontology created, using a standard language recommended by the W3C called RDB2RDF R2RML. The last and fourth, called Mapping Execution, that creates the data to be used by the ontology by mapping generated by the Mappings Specification Process.As organizações estão constantemente a recolher enormes quantidades de dados / informações para guardarem em Armazéns de Dados para fins de elaboração de relatórios e análise de dados. A maioria desses Armazéns usa sistemas de gestão de bases de dados relacionais e são estruturadas de acordo com um esquema (e.g. o esquema em estrela, o esquema em floco de neve, etc.). Por outro lado, com o advento da Web Semântica, as organizações estão a ser pressionadas a adicionar semântica (isto é, meta dados) sobre os seus próprios dados, a fim de encontrar, partilhar, combinar e reutilizar informação mais facilmente entre aplicações, organizações e comunidades. O objetivo da Web Semântica é providenciar aos computadores capacidade de executar trabalhos mais complexos através de princípios de Linked Data (ver capitulo 3). Nesse sentido, a W3C tem proposto a adoção de várias recomendações como o RDF, o OWL e o SPARQL. Estas tecnologias ajudam a expor os dados e a sua semântica usando estruturas lógicas, denominadas de Ontologias. De forma simples, uma ontologia captura/representa o vocabulário e restrições de interpretação de um determinado domínio de aplicação (i.e. os conceitos, suas relações e restrições) que posteriormente é usado para descrever um conjunto de dados concretos desse domínio. Neste contexto, o trabalho descrito neste documento visa analisar e explorar (i) o Vocabulário recomendado pela W3C para descrever um Cubo de Dados representado em RDF (ver capitulo 5) e (ii) as linguagens de mapeamento de Dados Relacionais (RDB) para RDF (ver capitulo 4), também recomendadas pela W3C, com o intuito de propor a sua aplicação num processo semiautomático que permita publicar semanticamente de forma rápida e fácil o conteúdo de um Armazém de Dados existente numa base de dados relacional de acordo com os princípios de Linked (Open) Data. O objetivo do processo semiautomático é criar um repositório de dados com uma ontologia, que poderá ser usada como “fachada” standard para o conteúdo do Armazém de Dados para ser usado em tecnologias de Web Semântica. O processo semiautomático proposto é constituído por 4 subprocessos (ver capitulo 6). O primeiro processo, chamado Setup and Configuration Process (ver secção 6.2.2), visa selecionar e categorizar as tabelas do Armazéns de Dados (ver capitulo 2), do qual se irá extrair os dados. O segundo processo, chamado RDF Data Cube Ontology Structure Definition Process (ver secção 6.2.3), cria uma ontologia sem dados cuja estrutura advém tanto (i) do vocabulário recomendado pela W3C para descrição de Cubos de Dados (ver capítulo 5) e (ii) do resultado obtido no Setup and Configuration Process . O terceiro processo, chamado Mappings Specification Process (ver secção 6.2.4), cria um mapeamento entre o Armazém de Dados e a ontologia resultado do processo anterior. Este mapeamento assenta na recomendação da W3C denominado R2RML. O último e quarto processo, chamado Mapping Execution Process (ver secção 6.2.5), expõe os dados do Armazém de Dados de acordo com a ontologia anterior, através do mapeamento gerado pelo Mappings Specification Process. Esta tese está dividida em sete capítulos. O primeiro capítulo providencia uma introdução ao contexto e ao objetivo deste documento. O segundo capítulo apresenta uma visão geral sobre Armazéns de Dados, do qual as suas estruturas e dados são usados pelo processo semiautomático para criar o repositório de dados. O terceiro capítulo apresenta uma análise sobre Linked Data, nomeadamente o seu conceito, os seus princípios e linguagens que podem ser usadas para o expressar. Uma dessas linguagens (RDF ou OWL) em combinação com uma serialização (e.g. XML, N-Triples, etc.) que é usado para descrever o repositório de dados que o processo semiautomático pode criar. O quarto capítulo apresenta um levantamento de linguagens e tecnologias de mapeamento de RDB para RDF, em que R2RML é usado pelo processo semiautomático para criar mapeamentos entre um Armazéns de Dados e o repositório de dados. O quinto capítulo apresenta o vocabulário recomendado pela W3C para descrever um Cubo de Dados que vai ser usado para classificar o repositório de dados, criado pelo processo semiautomático. O sexto capítulo apresenta e descreve o processo semiautomático proposto com um exemplo que decorre e evolui ao longo de cada passo implementado. E o ultimo e sétimo capítulo contém as conclusões obtidas deste trabalho e algumas limitações possíveis. Também contem algumas sugestões de possíveis futuros trabalhos que podem ser acrescentados ao processo semiautomático.Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto.Maio, Paulo Alexandre Fangueiro OliveiraSilva, Nuno Alexandre Pinto daRepositório Científico do Instituto Politécnico do PortoDourado, António Miguel Torres2015-02-09T17:25:49Z20142014-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/5607TID:201816059enginfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:45:43Zoai:recipp.ipp.pt:10400.22/5607Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:26:14.113248Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv	An Approach To Publish a Data Warehouse Content as Linked Data
title	An Approach To Publish a Data Warehouse Content as Linked Data
spellingShingle	An Approach To Publish a Data Warehouse Content as Linked Data Dourado, António Miguel Torres Data Warehouse Semantic Web Linked (Open) Data RDF Data Cube Vocabulary RDB to RDF Mapping Languages Armazém de Dados Web Semântica
title_short	An Approach To Publish a Data Warehouse Content as Linked Data
title_full	An Approach To Publish a Data Warehouse Content as Linked Data
title_fullStr	An Approach To Publish a Data Warehouse Content as Linked Data
title_full_unstemmed	An Approach To Publish a Data Warehouse Content as Linked Data
title_sort	An Approach To Publish a Data Warehouse Content as Linked Data
author	Dourado, António Miguel Torres
author_facet	Dourado, António Miguel Torres
author_role	author
dc.contributor.none.fl_str_mv	Maio, Paulo Alexandre Fangueiro Oliveira Silva, Nuno Alexandre Pinto da Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv	Dourado, António Miguel Torres
dc.subject.por.fl_str_mv	Data Warehouse Semantic Web Linked (Open) Data RDF Data Cube Vocabulary RDB to RDF Mapping Languages Armazém de Dados Web Semântica
topic	Data Warehouse Semantic Web Linked (Open) Data RDF Data Cube Vocabulary RDB to RDF Mapping Languages Armazém de Dados Web Semântica
description	Mestrado em Engenharia Informática - Área de Especialização em Tecnologias do Conhecimento e Decisão
publishDate	2014
dc.date.none.fl_str_mv	2014 2014-01-01T00:00:00Z 2015-02-09T17:25:49Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/masterThesis
format	masterThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10400.22/5607 TID:201816059
url	http://hdl.handle.net/10400.22/5607
identifier_str_mv	TID:201816059
dc.language.iso.fl_str_mv	eng
language	eng
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.publisher.none.fl_str_mv	Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto.
publisher.none.fl_str_mv	Instituto Politécnico do Porto. Instituto Superior de Engenharia do Porto.
dc.source.none.fl_str_mv	reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP
instname_str	Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str	RCAAP
institution	RCAAP
reponame_str	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv	Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_	1799131356556427264

An Approach To Publish a Data Warehouse Content as Linked Data

Registros relacionados