Escalonamento de Processos ETL em Ambientes Grid

Detalhes bibliográficos
Autor(a) principal: Silva, Rui Manuel Sousa da
Data de Publicação: 2012
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10400.22/11108
Resumo: Cada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis.
id RCAP_b3744552648c8f1c287d0199779456e8
oai_identifier_str oai:recipp.ipp.pt:10400.22/11108
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Escalonamento de Processos ETL em Ambientes GridData WarehouseETLAmbientes GridProcessamento em ParaleloEscalonamentoInformáticaCada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis.Organizations need to prepare themselves to a changing world, and gathering and storing information from the various business areas will enhance decision making processes that affect the organization's performance in its competitive environment. To do this, organizations use Data Warehousing Systems (DWS) as data repository, where they store and integrate data using an Extraction, Transformation and Loading (ETL) process. The ETL process is known for its great complexity, mainly because it has to access a set of source systems, often heterogeneous, in order to extract data, perform cleaning tasks and process the data according to business rules, which requires great computational power. With the growth of a DWS, its ETL component has increasingly more data to process. However, it is desired that the data processing time remains within its window of opportunity regardless of the volume of data to be processed. Using task parallelization, it is possible to reduce the data processing time, since some independent tasks can be performed by different machines at the same time. The main concept of Grid environments is to reuse and harness resources, making it possible to benefit from the distributed processing power to reduce the impact of data growth. Thus, it is possible to use a Grid environment to perform the scheduling of an ETL process, reducing the impact of the data growth, since Grid environments allow the use of available distributed resources.Belo, Orlando Manuel de OliveiraSantos, Vasco Nuno Caio dosRepositório Científico do Instituto Politécnico do PortoSilva, Rui Manuel Sousa da2018-03-13T16:45:27Z201220122012-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/11108TID:201947986porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:53:11Zoai:recipp.ipp.pt:10400.22/11108Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:31:29.640598Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Escalonamento de Processos ETL em Ambientes Grid
title Escalonamento de Processos ETL em Ambientes Grid
spellingShingle Escalonamento de Processos ETL em Ambientes Grid
Silva, Rui Manuel Sousa da
Data Warehouse
ETL
Ambientes Grid
Processamento em Paralelo
Escalonamento
Informática
title_short Escalonamento de Processos ETL em Ambientes Grid
title_full Escalonamento de Processos ETL em Ambientes Grid
title_fullStr Escalonamento de Processos ETL em Ambientes Grid
title_full_unstemmed Escalonamento de Processos ETL em Ambientes Grid
title_sort Escalonamento de Processos ETL em Ambientes Grid
author Silva, Rui Manuel Sousa da
author_facet Silva, Rui Manuel Sousa da
author_role author
dc.contributor.none.fl_str_mv Belo, Orlando Manuel de Oliveira
Santos, Vasco Nuno Caio dos
Repositório Científico do Instituto Politécnico do Porto
dc.contributor.author.fl_str_mv Silva, Rui Manuel Sousa da
dc.subject.por.fl_str_mv Data Warehouse
ETL
Ambientes Grid
Processamento em Paralelo
Escalonamento
Informática
topic Data Warehouse
ETL
Ambientes Grid
Processamento em Paralelo
Escalonamento
Informática
description Cada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis.
publishDate 2012
dc.date.none.fl_str_mv 2012
2012
2012-01-01T00:00:00Z
2018-03-13T16:45:27Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10400.22/11108
TID:201947986
url http://hdl.handle.net/10400.22/11108
identifier_str_mv TID:201947986
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799131410084134912