Arquitetura em nuvem escalonável para coleta e processamento de dados

Haeffner, Yan Cescon

Arquitetura em nuvem escalonável para coleta e processamento de dados

Detalhes bibliográficos
Autor(a) principal:	Haeffner, Yan Cescon
Data de Publicação:	2022
Tipo de documento:	Trabalho de conclusão de curso
Idioma:	por
Título da fonte:	Repositório Institucional da UFRGS
Texto Completo:	http://hdl.handle.net/10183/251730
Resumo:	Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados.

Metadados do item

id	UFRGS-2_20f44620e3ca3a8a9762bb72cd562460
oai_identifier_str	oai:www.lume.ufrgs.br:10183/251730
network_acronym_str	UFRGS-2
network_name_str	Repositório Institucional da UFRGS
repository_id_str
spelling	Haeffner, Yan CesconGotz, Marcelo2022-11-24T04:47:10Z2022http://hdl.handle.net/10183/251730001153676Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados.This work aimed to propose a cloud architecture capable of processing data from different systems in an autonomous, efficient and scalable way, thus allowing the addition of new units of those systems without interfering with the architecture and its components. By making use of different services of AmazonWeb Services and the orchestrator of scheduled tasks, Apache Airflow, it was possible to automate the parallelism of the execution of different processes, developed in Python, of extraction, ingestion, transformation and aggregation of data from meteorological stations publicly available by the National Institute of Meteorology API and automatic irrigation stations developed in an undergraduate thesis prior to this one. All processes were orchestrated so that the data was centralized in an analytical relational database for on-demand and specialized consumption. The access to the available stations used the HTTP and MQTT protocols, allowing data to be extracted at different frequencies of execution for stations located in different cities and states of the country. Still, seeking to bring light to the benefits of data engineering in projects and demands with different systems, it was possible to evaluate the configuration of the controllers designed for the irrigation stations by verifying their behavior against the closest available meteorological data. Finally, the proposed architecture proved to be effective in scaling processing units to perform the various necessary tasks using code containerization services, such as Amazon Fargate, and distributed cloud storage such as Amazon S3, while keeping the data integrity through all the necessary processes.application/pdfporEngenharia de controle e automaçãoProcessamento de dadosComputação em nuvemIoTCloudData engineeringApache airflowAmazon web servicesAutomationELTArquitetura em nuvem escalonável para coleta e processamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPorto Alegre, BR-RS2022Engenharia de Controle e Automaçãograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001153676.pdf.txt001153676.pdf.txtExtracted Texttext/plain106914http://www.lume.ufrgs.br/bitstream/10183/251730/2/001153676.pdf.txt84466ec98304d26bac0b42190b800b01MD52ORIGINAL001153676.pdfTexto completoapplication/pdf2847010http://www.lume.ufrgs.br/bitstream/10183/251730/1/001153676.pdf81474c92653917da5c5b9d17fa518808MD5110183/2517302022-11-25 05:46:21.648933oai:www.lume.ufrgs.br:10183/251730Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-11-25T07:46:21Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv	Arquitetura em nuvem escalonável para coleta e processamento de dados
title	Arquitetura em nuvem escalonável para coleta e processamento de dados
spellingShingle	Arquitetura em nuvem escalonável para coleta e processamento de dados Haeffner, Yan Cescon Engenharia de controle e automação Processamento de dados Computação em nuvem IoT Cloud Data engineering Apache airflow Amazon web services Automation ELT
title_short	Arquitetura em nuvem escalonável para coleta e processamento de dados
title_full	Arquitetura em nuvem escalonável para coleta e processamento de dados
title_fullStr	Arquitetura em nuvem escalonável para coleta e processamento de dados
title_full_unstemmed	Arquitetura em nuvem escalonável para coleta e processamento de dados
title_sort	Arquitetura em nuvem escalonável para coleta e processamento de dados
author	Haeffner, Yan Cescon
author_facet	Haeffner, Yan Cescon
author_role	author
dc.contributor.author.fl_str_mv	Haeffner, Yan Cescon
dc.contributor.advisor1.fl_str_mv	Gotz, Marcelo
contributor_str_mv	Gotz, Marcelo
dc.subject.por.fl_str_mv	Engenharia de controle e automação Processamento de dados Computação em nuvem
topic	Engenharia de controle e automação Processamento de dados Computação em nuvem IoT Cloud Data engineering Apache airflow Amazon web services Automation ELT
dc.subject.eng.fl_str_mv	IoT Cloud Data engineering Apache airflow Amazon web services Automation ELT
description	Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados.
publishDate	2022
dc.date.accessioned.fl_str_mv	2022-11-24T04:47:10Z
dc.date.issued.fl_str_mv	2022
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/bachelorThesis
format	bachelorThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/10183/251730
dc.identifier.nrb.pt_BR.fl_str_mv	001153676
url	http://hdl.handle.net/10183/251730
identifier_str_mv	001153676
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.format.none.fl_str_mv	application/pdf
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS
instname_str	Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str	UFRGS
institution	UFRGS
reponame_str	Repositório Institucional da UFRGS
collection	Repositório Institucional da UFRGS
bitstream.url.fl_str_mv	http://www.lume.ufrgs.br/bitstream/10183/251730/2/001153676.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/251730/1/001153676.pdf
bitstream.checksum.fl_str_mv	84466ec98304d26bac0b42190b800b01 81474c92653917da5c5b9d17fa518808
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_	1801224644963860480

Arquitetura em nuvem escalonável para coleta e processamento de dados

Registros relacionados