Escalonamento de Processos ETL em Ambientes Grid
Autor(a) principal: | |
---|---|
Data de Publicação: | 2012 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
Texto Completo: | http://hdl.handle.net/10400.22/11108 |
Resumo: | Cada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis. |
id |
RCAP_b3744552648c8f1c287d0199779456e8 |
---|---|
oai_identifier_str |
oai:recipp.ipp.pt:10400.22/11108 |
network_acronym_str |
RCAP |
network_name_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository_id_str |
7160 |
spelling |
Escalonamento de Processos ETL em Ambientes GridData WarehouseETLAmbientes GridProcessamento em ParaleloEscalonamentoInformáticaCada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis.Organizations need to prepare themselves to a changing world, and gathering and storing information from the various business areas will enhance decision making processes that affect the organization's performance in its competitive environment. To do this, organizations use Data Warehousing Systems (DWS) as data repository, where they store and integrate data using an Extraction, Transformation and Loading (ETL) process. The ETL process is known for its great complexity, mainly because it has to access a set of source systems, often heterogeneous, in order to extract data, perform cleaning tasks and process the data according to business rules, which requires great computational power. With the growth of a DWS, its ETL component has increasingly more data to process. However, it is desired that the data processing time remains within its window of opportunity regardless of the volume of data to be processed. Using task parallelization, it is possible to reduce the data processing time, since some independent tasks can be performed by different machines at the same time. The main concept of Grid environments is to reuse and harness resources, making it possible to benefit from the distributed processing power to reduce the impact of data growth. Thus, it is possible to use a Grid environment to perform the scheduling of an ETL process, reducing the impact of the data growth, since Grid environments allow the use of available distributed resources.Belo, Orlando Manuel de OliveiraSantos, Vasco Nuno Caio dosRepositório Científico do Instituto Politécnico do PortoSilva, Rui Manuel Sousa da2018-03-13T16:45:27Z201220122012-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10400.22/11108TID:201947986porinfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-03-13T12:53:11Zoai:recipp.ipp.pt:10400.22/11108Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T17:31:29.640598Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse |
dc.title.none.fl_str_mv |
Escalonamento de Processos ETL em Ambientes Grid |
title |
Escalonamento de Processos ETL em Ambientes Grid |
spellingShingle |
Escalonamento de Processos ETL em Ambientes Grid Silva, Rui Manuel Sousa da Data Warehouse ETL Ambientes Grid Processamento em Paralelo Escalonamento Informática |
title_short |
Escalonamento de Processos ETL em Ambientes Grid |
title_full |
Escalonamento de Processos ETL em Ambientes Grid |
title_fullStr |
Escalonamento de Processos ETL em Ambientes Grid |
title_full_unstemmed |
Escalonamento de Processos ETL em Ambientes Grid |
title_sort |
Escalonamento de Processos ETL em Ambientes Grid |
author |
Silva, Rui Manuel Sousa da |
author_facet |
Silva, Rui Manuel Sousa da |
author_role |
author |
dc.contributor.none.fl_str_mv |
Belo, Orlando Manuel de Oliveira Santos, Vasco Nuno Caio dos Repositório Científico do Instituto Politécnico do Porto |
dc.contributor.author.fl_str_mv |
Silva, Rui Manuel Sousa da |
dc.subject.por.fl_str_mv |
Data Warehouse ETL Ambientes Grid Processamento em Paralelo Escalonamento Informática |
topic |
Data Warehouse ETL Ambientes Grid Processamento em Paralelo Escalonamento Informática |
description |
Cada vez mais as organizações necessitam de estar preparadas para enfrentar um mundo em constante evolução, onde é necessário agregar um conjunto de informações provenientes de diversas áreas de negócio, de forma a tomar decisões que influenciam o desempenho da organização no seu meio competitivo. Para tal, as organizações utilizam Sistemas de Data Warehousing (SDW) que aglomeram e integram dados recorrendo a um processo de Extracção, Transformação e Carregamento (ETL). Os processos de ETL apresentam uma grande complexidade, pois têm de aceder a um conjunto de sistemas fonte, muitas vezes heterogéneos, de forma a realizar tarefas de transformação e limpeza de dados de acordo com as regras de negócio, exigindo para isso um elevado poder computacional. Com o crescimento de um SDW, o seu processo de ETL possui cada vez mais dados para processar. No entanto, é desejável que o tempo de processamento dos dados não comprometa o sistema, independentemente do volume de dados a tratar. Recorrendo à paralelização de tarefas, é possível reduzir o tempo de processamento dos dados, uma vez que algumas tarefas independentes podem ser executadas por máquinas diferentes ao mesmo tempo. O principal conceito dos ambientes Grid assenta na reutilização e aproveitamento de recursos, beneficiando assim do poder de processamento distribuído de forma a reduzir o impacto do crescimento de dados a tratar. Desta forma, é possível utilizar um ambiente Grid para realizar o escalonamento de um processo ETL, reduzindo o impacto oriundo do crescimento de dados, uma vez que os ambientes Grid permitem tirar partido dos recursos distribuídos disponíveis. |
publishDate |
2012 |
dc.date.none.fl_str_mv |
2012 2012 2012-01-01T00:00:00Z 2018-03-13T16:45:27Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10400.22/11108 TID:201947986 |
url |
http://hdl.handle.net/10400.22/11108 |
identifier_str_mv |
TID:201947986 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação instacron:RCAAP |
instname_str |
Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
instacron_str |
RCAAP |
institution |
RCAAP |
reponame_str |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
collection |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) |
repository.name.fl_str_mv |
Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação |
repository.mail.fl_str_mv |
|
_version_ |
1799131410084134912 |