Abordagem semântica para a integração de dados em Big Data Warehouses
Autor(a) principal: | |
---|---|
Data de Publicação: | 2019 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/1822/70162 |
Resumo: | Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação |
id |
RCAP_60810e41662b48f5790b81772c7cfdde |
---|---|
oai_identifier_str |
oai:repositorium.sdum.uminho.pt:1822/70162 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Abordagem semântica para a integração de dados em Big Data WarehousesBig data warehouseData profilingGovernança de dadosIntegraçãoMetadadosData governanceData profilingIntegrationMetadataEngenharia e Tecnologia::Engenharia CivilDissertação de mestrado integrado em Engenharia e Gestão de Sistemas de InformaçãoBig Data não é um domínio trivial, tanto ao nível de investigação, como de desenvolvimento. Atualmente, o volume de dados produzido tem aumentado exponencialmente devido à utilização de dispositivos como, por exemplo, smartphones, tablets, dispositivos inteligentes e sensores. Esta proliferação de dados que se apresentam em formatos estruturados, semiestruturados e não estruturados foi acompanhada pela popularidade do conceito de Big Data, que pode ser caracterizado como o volume, velocidade e variedade que os dados apresentam e que não conseguem ser processados, armazenados e analisados através de ferramentas e métodos tradicionais. As organizações, inseridas em ambientes altamente competitivos, visam a obtenção de vantagens competitivas perante os seus concorrentes, comprometendo-se a extrair o maior valor das tecnologias com o objetivo de melhorar a sua tomada de decisão. A título de exemplo, os Data Warehouses surgem como componentes centrais no armazenamento de dados, no entanto, estes repositórios de dados regem-se por modelos relacionais que os impossibilita de responder às exigências de Big Data. Consequentemente, surge a necessidade da adoção de novas tecnologias e modelos lógicos capazes de colmatar os desafios de Big Data, originando assim os Big Data Warehouses, que utilizados em tecnologias como Hadoop ou bases de dados NoSQL garantem uma maior flexibilidade e escalabilidade na manipulação de dados em contextos Big Data. A dimensão do Big Data Warehouse conduz a um acréscimo de complexidade nos domínios de Governança de Dados e Data Quality devido ao grande volume de dados que é continuamente armazenado. Contudo, inserido num domínio intrínseco a Data Quality, Data Profiling vem colmatar alguns destes desafios através da produção de metadados sobre os conjuntos de dados que chegam ao Big Data Warehouse, ganhando assim uma nova importância na integração entre as novas fontes de dados e os dados que já subsistem no Big Data Warehouse. Desta forma, o principal objetivo deste trabalho é propor, desenvolver e validar uma ferramenta de Data Profiling que permita inspecionar novas fontes de dados, derivando e armazenando informação relevante para a sua integração no Big Data Warehouse.Big Data is not a trivial domain regarding the research and development topic. Currently, the amount of data produced has increased due to the use of gadgets such as smartphones, tablets, smart devices, and sensors. Bearing that in mind, the proliferation of data presented in structured, semi-structured and unstructured formats was accompanied by the popularity of the Big Data concept that can be characterized by volume, velocity, and variety of data which cannot be processed, stored and analyzed through traditional tools. The organizations inserted in highly competitive environments aim to obtain competitive advantages over their competitors, committing themselves to extract the highest value of the technologies in order to improve their decision making. For example, Data Warehouses appear as central components in data storage supported by rigid models. However, these data repositories can no longer answer the high demand of Big Data reality. Therefore, there is the need to adopt new technologies and logical models capable of solving Big Data challenges, giving the rise to Big Data Warehouses which are used in technologies such as Hadoop or NoSQL databases to ensure higher flexibility and scalability in data manipulation in Big Data contexts. The Big Data Warehouse size leads to an increase in the complexity concerning the domains of Data Governance and Data Quality, due to the high volume of data that is continuously stored. Nevertheless, embedded in the Data Quality domain, Data Profiling approach solves some of these challenges producing metadata about datasets which are being sent to the Big Data Warehouse, raising awareness to the relevance of the integration between new data sources and data which is already stored in the Big Data Warehouse. Considering all information exposed, the main purpose of this work is to propose, develop and validate a Data Profiling tool that allows inspecting new data sources, storing and deriving relevant information to its integration in Big Data Warehouse.Santos, Maribel YasminaUniversidade do MinhoMagalhães, José Fernando Pereira20192019-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/70162por202556336info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:13:39Zoai:repositorium.sdum.uminho.pt:1822/70162Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:05:48.633947Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Abordagem semântica para a integração de dados em Big Data Warehouses |
title |
Abordagem semântica para a integração de dados em Big Data Warehouses |
spellingShingle |
Abordagem semântica para a integração de dados em Big Data Warehouses Magalhães, José Fernando Pereira Big data warehouse Data profiling Governança de dados Integração Metadados Data governance Data profiling Integration Metadata Engenharia e Tecnologia::Engenharia Civil |
title_short |
Abordagem semântica para a integração de dados em Big Data Warehouses |
title_full |
Abordagem semântica para a integração de dados em Big Data Warehouses |
title_fullStr |
Abordagem semântica para a integração de dados em Big Data Warehouses |
title_full_unstemmed |
Abordagem semântica para a integração de dados em Big Data Warehouses |
title_sort |
Abordagem semântica para a integração de dados em Big Data Warehouses |
author |
Magalhães, José Fernando Pereira |
author_facet |
Magalhães, José Fernando Pereira |
author_role |
author |
dc.contributor.none.fl_str_mv |
Santos, Maribel Yasmina Universidade do Minho |
dc.contributor.author.fl_str_mv |
Magalhães, José Fernando Pereira |
dc.subject.por.fl_str_mv |
Big data warehouse Data profiling Governança de dados Integração Metadados Data governance Data profiling Integration Metadata Engenharia e Tecnologia::Engenharia Civil |
topic |
Big data warehouse Data profiling Governança de dados Integração Metadados Data governance Data profiling Integration Metadata Engenharia e Tecnologia::Engenharia Civil |
description |
Dissertação de mestrado integrado em Engenharia e Gestão de Sistemas de Informação |
publishDate |
2019 |
dc.date.none.fl_str_mv |
2019 2019-01-01T00:00:00Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1822/70162 |
url |
http://hdl.handle.net/1822/70162 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.relation.none.fl_str_mv |
202556336 |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799132470857170944 |