Etiquetagem e rastreio de fontes de dados num Big Data Warehouse

Detalhes bibliográficos
Autor(a) principal: Costa, Maria Inês Peixoto da
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/70190
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_5af3f90a13e2061928fbc3fd71ff8f63
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/70190
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Etiquetagem e rastreio de fontes de dados num Big Data WarehouseBig data warehouseEtiquetagemGovernança de dadosGrafosMetadadosRastreioData governanceGraphsLineageMetadataTaggingEngenharia e Tecnologia::Outras Engenharias e TecnologiasDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoOs avanços nas Tecnologias de Informação levam as organizações a procurar valor comercial e vantagem competitiva por meio da recolha, armazenamento, processamento e análise de dados. Os Data Warehouses surgem como uma peça fundamental no armazenamento dos dados, facilitando a sua análise sob diversas perspetivas e permitindo a extração de informação que poderá ser utilizada na tomada de decisão. A elevada disponibilidade de novas fontes de dados e os avanços que surgiram para a recolha e armazenamento dos mesmos, fazem com que seja produzida uma imensa quantidade de dados heterogéneos, gerados a taxas cada vez maiores. Adjacente a este facto surgiu o conceito de Big Data, associado ao volume, velocidade e variedade dos dados, ou seja, grandes volumes de dados com diferentes graus de complexidade, muitas vezes sem estrutura nem organização, caraterísticas estas que impossibilitam o uso de ferramentas tradicionais. Como tal, surge a necessidade de adotar o contexto de Big Data Warehouses, que naturalmente acarreta outros desafios, pois implica a adoção de novas tecnologias, assim como a adoção de novos modelos lógicos que permitem uma maior flexibilidade na gestão de dados não estruturados e desnormalizados. Por conseguinte, quando o volume de dados e a sua heterogeneidade começam a aumentar, uma vez que derivam de várias fontes que apresentam caraterísticas muito diferentes, emergem novos desafios associados ao Big Data, nomeadamente a Governança de Dados. A área de Governança de Dados abrange um grupo de subáreas, tais como Qualidade dos Dados e Gestão de Metadados, as quais oferecem um conjunto de processos para suportar a elevada complexidade inerente nos dados. À medida que o volume de dados num Big Data Warehouse começa a aumentar, os processos de negócio também aumentam, pelo que se torna necessário ter informação adicional sobre esses dados, por exemplo, que tabelas e atributos foram armazenados, quando e por quem foram criados e as diversas atualizações que sofreram. O objetivo desta dissertação é propor um sistema para a governança de um Big Data Warehouse, de modo a dar a conhecer o conteúdo do mesmo e a forma como este está a evoluir ao longo do tempo. Para tal, é proposto um sistema de catalogação de dados do Big Data Warehouse, baseado num grafo, através da etiquetagem e do rastreio de fontes de dados e posterior armazenamento dos metadados recolhidos numa base de dados. Para além de reunir as caraterísticas mais básicas dos dados, regista informações sobre políticas de acesso, profiling, a similaridade, key performance indicators e processos de negócio.Advances in Information Technologies lead organizations to search for commercial value and competitive advantage through collecting, storing, processing and analyzing data. Data Warehouses appear as a fundamental piece in data storage, facilitating data analysis from different perspectives and allowing the extraction of information that can be used in decision making. The high availability of new data sources and the advances that have been made for their collection and storage lead to the production of an enormous amount of heterogeneous data generated at increasing rates. Adjacent to this fact, the concept of Big Data appeared, associated to the volume, velocity and variety of data, that is, large volumes of data with different degrees of complexity, often without structure or organization, which makes it impossible to use traditional tools. Thus, the need arises to adopt the Big Data Warehouses context, which naturally brings other challenges, because it implies the adoption of new technologies, as well as the adoption of new logical models that allow greater flexibility in the management of unstructured and denormalized data. Therefore, when the volume of data and its heterogeneity start to increase, once they derive from several sources with very different characteristics, new challenges associated with Big Data emerge, namely Data Governance. The Data Governance domain covers a group of subdomains, such as Data Quality and Metadata Management, which provide a set of processes to support the high complexity inherent in the data. As the volume of data in a Big Data Warehouse starts to increase, the business processes also increase, meaning that it becomes important and necessary to know some additional information about these data, for example, which tables and attributes were stored, when and by whom were created and the several updates they suffered. The aim of this dissertation is to propose a governance system for the governance of a Big Data Warehouse, in order to make its content available, as well as how it is evolving over time. To this end, a graph-based Big Data Warehouse data cataloging system is proposed, by tagging and lineage of data sources and storing metadata in a database. In addition to gathering the basic characteristics of data, it records information about access policies, profiling, similarity, key performance indicators and business processes.Santos, Maribel YasminaUniversidade do MinhoCosta, Maria Inês Peixoto da20192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/70190por202557456info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:11:37Zoai:repositorium.sdum.uminho.pt:1822/70190Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:03:25.220110Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
title Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
spellingShingle Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
Costa, Maria Inês Peixoto da
Big data warehouse
Etiquetagem
Governança de dados
Grafos
Metadados
Rastreio
Data governance
Graphs
Lineage
Metadata
Tagging
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
title_short Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
title_full Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
title_fullStr Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
title_full_unstemmed Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
title_sort Etiquetagem e rastreio de fontes de dados num Big Data Warehouse
author Costa, Maria Inês Peixoto da
author_facet Costa, Maria Inês Peixoto da
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Universidade do Minho
dc.contributor.author.fl_str_mv Costa, Maria Inês Peixoto da
dc.subject.por.fl_str_mv Big data warehouse
Etiquetagem
Governança de dados
Grafos
Metadados
Rastreio
Data governance
Graphs
Lineage
Metadata
Tagging
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
topic Big data warehouse
Etiquetagem
Governança de dados
Grafos
Metadados
Rastreio
Data governance
Graphs
Lineage
Metadata
Tagging
Engenharia e Tecnologia::Outras Engenharias e Tecnologias
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2019
dc.date.none.fl_str_mv 2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/70190
url http://hdl.handle.net/1822/70190
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202557456
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132440515575808