Abordagem semântica para a integração de dados em Big Data Warehouses

Detalhes bibliográficos
Autor(a) principal: Magalhães, José Fernando Pereira
Data de Publicação: 2019
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/70162
Resumo: Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
id RCAP_60810e41662b48f5790b81772c7cfdde
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/70162
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Abordagem semântica para a integração de dados em Big Data WarehousesBig data warehouseData profilingGovernança de dadosIntegraçãoMetadadosData governanceData profilingIntegrationMetadataEngenharia e Tecnologia::Engenharia CivilDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoBig Data não é um domínio trivial, tanto ao nível de investigação, como de desenvolvimento. Atualmente, o volume de dados produzido tem aumentado exponencialmente devido à utilização de dispositivos como, por exemplo, smartphones, tablets, dispositivos inteligentes e sensores. Esta proliferação de dados que se apresentam em formatos estruturados, semiestruturados e não estruturados foi acompanhada pela popularidade do conceito de Big Data, que pode ser caracterizado como o volume, velocidade e variedade que os dados apresentam e que não conseguem ser processados, armazenados e analisados através de ferramentas e métodos tradicionais. As organizações, inseridas em ambientes altamente competitivos, visam a obtenção de vantagens competitivas perante os seus concorrentes, comprometendo-se a extrair o maior valor das tecnologias com o objetivo de melhorar a sua tomada de decisão. A título de exemplo, os Data Warehouses surgem como componentes centrais no armazenamento de dados, no entanto, estes repositórios de dados regem-se por modelos relacionais que os impossibilita de responder às exigências de Big Data. Consequentemente, surge a necessidade da adoção de novas tecnologias e modelos lógicos capazes de colmatar os desafios de Big Data, originando assim os Big Data Warehouses, que utilizados em tecnologias como Hadoop ou bases de dados NoSQL garantem uma maior flexibilidade e escalabilidade na manipulação de dados em contextos Big Data. A dimensão do Big Data Warehouse conduz a um acréscimo de complexidade nos domínios de Governança de Dados e Data Quality devido ao grande volume de dados que é continuamente armazenado. Contudo, inserido num domínio intrínseco a Data Quality, Data Profiling vem colmatar alguns destes desafios através da produção de metadados sobre os conjuntos de dados que chegam ao Big Data Warehouse, ganhando assim uma nova importância na integração entre as novas fontes de dados e os dados que já subsistem no Big Data Warehouse. Desta forma, o principal objetivo deste trabalho é propor, desenvolver e validar uma ferramenta de Data Profiling que permita inspecionar novas fontes de dados, derivando e armazenando informação relevante para a sua integração no Big Data Warehouse.Big Data is not a trivial domain regarding the research and development topic. Currently, the amount of data produced has increased due to the use of gadgets such as smartphones, tablets, smart devices, and sensors. Bearing that in mind, the proliferation of data presented in structured, semi-structured and unstructured formats was accompanied by the popularity of the Big Data concept that can be characterized by volume, velocity, and variety of data which cannot be processed, stored and analyzed through traditional tools. The organizations inserted in highly competitive environments aim to obtain competitive advantages over their competitors, committing themselves to extract the highest value of the technologies in order to improve their decision making. For example, Data Warehouses appear as central components in data storage supported by rigid models. However, these data repositories can no longer answer the high demand of Big Data reality. Therefore, there is the need to adopt new technologies and logical models capable of solving Big Data challenges, giving the rise to Big Data Warehouses which are used in technologies such as Hadoop or NoSQL databases to ensure higher flexibility and scalability in data manipulation in Big Data contexts. The Big Data Warehouse size leads to an increase in the complexity concerning the domains of Data Governance and Data Quality, due to the high volume of data that is continuously stored. Nevertheless, embedded in the Data Quality domain, Data Profiling approach solves some of these challenges producing metadata about datasets which are being sent to the Big Data Warehouse, raising awareness to the relevance of the integration between new data sources and data which is already stored in the Big Data Warehouse. Considering all information exposed, the main purpose of this work is to propose, develop and validate a Data Profiling tool that allows inspecting new data sources, storing and deriving relevant information to its integration in Big Data Warehouse.Santos, Maribel YasminaUniversidade do MinhoMagalhães, José Fernando Pereira20192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/70162por202556336info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:13:39Zoai:repositorium.sdum.uminho.pt:1822/70162Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:05:48.633947Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Abordagem semântica para a integração de dados em Big Data Warehouses
title Abordagem semântica para a integração de dados em Big Data Warehouses
spellingShingle Abordagem semântica para a integração de dados em Big Data Warehouses
Magalhães, José Fernando Pereira
Big data warehouse
Data profiling
Governança de dados
Integração
Metadados
Data governance
Data profiling
Integration
Metadata
Engenharia e Tecnologia::Engenharia Civil
title_short Abordagem semântica para a integração de dados em Big Data Warehouses
title_full Abordagem semântica para a integração de dados em Big Data Warehouses
title_fullStr Abordagem semântica para a integração de dados em Big Data Warehouses
title_full_unstemmed Abordagem semântica para a integração de dados em Big Data Warehouses
title_sort Abordagem semântica para a integração de dados em Big Data Warehouses
author Magalhães, José Fernando Pereira
author_facet Magalhães, José Fernando Pereira
author_role author
dc.contributor.none.fl_str_mv Santos, Maribel Yasmina
Universidade do Minho
dc.contributor.author.fl_str_mv Magalhães, José Fernando Pereira
dc.subject.por.fl_str_mv Big data warehouse
Data profiling
Governança de dados
Integração
Metadados
Data governance
Data profiling
Integration
Metadata
Engenharia e Tecnologia::Engenharia Civil
topic Big data warehouse
Data profiling
Governança de dados
Integração
Metadados
Data governance
Data profiling
Integration
Metadata
Engenharia e Tecnologia::Engenharia Civil
description Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação
publishDate 2019
dc.date.none.fl_str_mv 2019
2019-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/70162
url http://hdl.handle.net/1822/70162
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202556336
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132470857170944