Deteção de pontos negros em sistemas de ETL

Detalhes bibliográficos
Autor(a) principal: Dias, Nuno Miguel Monteiro Soares
Data de Publicação: 2017
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/60036
Resumo: Dissertação de mestrado em Computer Science
id RCAP_65ba0b29baf951124d490c2a8b5cdec4
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/60036
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Deteção de pontos negros em sistemas de ETLEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e InformáticaDissertação de mestrado em Computer ScienceOs sistemas de povoamento de data warehouses, vulgarmente designados por sistema de ETL – Extract-Transform-Load –, constituem a base de qualquer sistema de data warehousing. No entanto, poucas são as vezes em que a sua implementação ocorre de uma forma linear, metódica, seguindo um dado modelo de trabalho devidamente comprovado. Usualmente, estes sistemas estabelecem uma “ponte” entre os sistemas operacionais, muitas vezes de natureza diversa, e os sistemas de data warehousing, de forma a que seja possível assegurar o povoamento dos seus data warehouses, de uma forma regular e atual. Como tal, é muito normal terem que lidar com um volume de dados considerável e envolvendo processos de tratamento bastante complexos. Esses processos, que representam trabalho extra para o ETL, só são necessários devido à da elevada permeabilidade dos sistemas operacionais que facilitam a ocorrência de fenómenos de inconsistência e de omissão de valores. Para que tal não aconteça, as atuais técnicas e modelos de implementação baseados em processos típicos de “tentativa-erro” deverão ser abandonados desde início, dando lugar a uma arquitetura pensada com vista num melhor desempenho evitando, assim, situações em que um aumento no volume de dados do processo, tende a revelar um efeito “bola de neve” em termos do nível de performance do sistema. Neste trabalho de dissertação desenvolvemos uma técnica baseada em process mining que, recorrendo aos registos de execução detalhados de um processo ETL - logs -, permite descobrir todo o processo ETL a montante. Na posse dos dados relativos a cada passo de execução do processo ETL (tempo médio de execução, frequência absoluta, etc), podemos definir um modelo matemático que ilustra o “bem-estar”, ou seja, o desempenho do nosso sistema através da correlação de todas estas variáveis. Desta forma, ao torná-lo acessível aos administradores dos sistemas, introduzimos um novo paradigma no desenvolvimento e manutenção de processos ETL, mais preocupado com questões como a performance ou um conhecimento mais aprofundado do impacto das decisões arquiteturais que são tomadas, nomeadamente a nível da escolha de componentes para executar cada passo do nosso ETL.ETL – Extract – Transform – Load – systems is the common name for the systems behind the data warehouses’ populating process. In fact, they’re the core piece of any data warehousing system. However, most of the times its implementation does not occur in a regular way. Usually, these systems establish the “bridge” between the operational environment, most of the times a heterogeneous one, so that its populating process proceeds in a regular and up to date way. Therefore, it’s normal for these processes to cope with large volumes of data involving complex validation processes. These validation processes, that represent an extra effort for the ETL, are only necessary thanks to a high permeability of the operational systems, that facilitates the occurrence of value omissions or inconsistencies. In order to reverse the situation, the current adhoc technique must be abandoned from the very beginning, leaving place to a new one, much more pragmatic and performance oriented. This approach is going to avoid the “snowflake” effect regarding the decrease in performance that is usually notable as the volume of data increases. In this work, we introduced a new process mining based technique that, using the detailed execution records of an ETL process – the so-called logs, allows us to discover the nature of the ETL process behind these logs. In possession of detailed data concerning each step of our process (mean time, absolute frequency, etc), we can define a new mathematical model that illustrates the “well-being”, that is, the degree of performance of our system, by establishing the correlation between the collected variables. Thus, by making it accessible to the system admins, we’re introducing a new paradigm regarding the development and maintenance of ETL processes, much more concerned with issues like the performance or the knowledge behind the impact of our architectural decisions, mainly when we’re deciding about the components we’re going to use to execute each step of our ETL.Belo, OrlandoUniversidade do MinhoDias, Nuno Miguel Monteiro Soares20172017-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/60036por202209326info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:52:52Zoai:repositorium.sdum.uminho.pt:1822/60036Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:52:06.188912Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Deteção de pontos negros em sistemas de ETL
title Deteção de pontos negros em sistemas de ETL
spellingShingle Deteção de pontos negros em sistemas de ETL
Dias, Nuno Miguel Monteiro Soares
Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
title_short Deteção de pontos negros em sistemas de ETL
title_full Deteção de pontos negros em sistemas de ETL
title_fullStr Deteção de pontos negros em sistemas de ETL
title_full_unstemmed Deteção de pontos negros em sistemas de ETL
title_sort Deteção de pontos negros em sistemas de ETL
author Dias, Nuno Miguel Monteiro Soares
author_facet Dias, Nuno Miguel Monteiro Soares
author_role author
dc.contributor.none.fl_str_mv Belo, Orlando
Universidade do Minho
dc.contributor.author.fl_str_mv Dias, Nuno Miguel Monteiro Soares
dc.subject.por.fl_str_mv Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
topic Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
description Dissertação de mestrado em Computer Science
publishDate 2017
dc.date.none.fl_str_mv 2017
2017-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/60036
url http://hdl.handle.net/1822/60036
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 202209326
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799133112087609344