Arquitetura em nuvem escalonável para coleta e processamento de dados

Detalhes bibliográficos
Autor(a) principal: Haeffner, Yan Cescon
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/251730
Resumo: Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados.
id UFRGS-2_20f44620e3ca3a8a9762bb72cd562460
oai_identifier_str oai:www.lume.ufrgs.br:10183/251730
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Haeffner, Yan CesconGotz, Marcelo2022-11-24T04:47:10Z2022http://hdl.handle.net/10183/251730001153676Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados.This work aimed to propose a cloud architecture capable of processing data from different systems in an autonomous, efficient and scalable way, thus allowing the addition of new units of those systems without interfering with the architecture and its components. By making use of different services of AmazonWeb Services and the orchestrator of scheduled tasks, Apache Airflow, it was possible to automate the parallelism of the execution of different processes, developed in Python, of extraction, ingestion, transformation and aggregation of data from meteorological stations publicly available by the National Institute of Meteorology API and automatic irrigation stations developed in an undergraduate thesis prior to this one. All processes were orchestrated so that the data was centralized in an analytical relational database for on-demand and specialized consumption. The access to the available stations used the HTTP and MQTT protocols, allowing data to be extracted at different frequencies of execution for stations located in different cities and states of the country. Still, seeking to bring light to the benefits of data engineering in projects and demands with different systems, it was possible to evaluate the configuration of the controllers designed for the irrigation stations by verifying their behavior against the closest available meteorological data. Finally, the proposed architecture proved to be effective in scaling processing units to perform the various necessary tasks using code containerization services, such as Amazon Fargate, and distributed cloud storage such as Amazon S3, while keeping the data integrity through all the necessary processes.application/pdfporEngenharia de controle e automaçãoProcessamento de dadosComputação em nuvemIoTCloudData engineeringApache airflowAmazon web servicesAutomationELTArquitetura em nuvem escalonável para coleta e processamento de dadosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulEscola de EngenhariaPorto Alegre, BR-RS2022Engenharia de Controle e Automaçãograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001153676.pdf.txt001153676.pdf.txtExtracted Texttext/plain106914http://www.lume.ufrgs.br/bitstream/10183/251730/2/001153676.pdf.txt84466ec98304d26bac0b42190b800b01MD52ORIGINAL001153676.pdfTexto completoapplication/pdf2847010http://www.lume.ufrgs.br/bitstream/10183/251730/1/001153676.pdf81474c92653917da5c5b9d17fa518808MD5110183/2517302022-11-25 05:46:21.648933oai:www.lume.ufrgs.br:10183/251730Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2022-11-25T07:46:21Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Arquitetura em nuvem escalonável para coleta e processamento de dados
title Arquitetura em nuvem escalonável para coleta e processamento de dados
spellingShingle Arquitetura em nuvem escalonável para coleta e processamento de dados
Haeffner, Yan Cescon
Engenharia de controle e automação
Processamento de dados
Computação em nuvem
IoT
Cloud
Data engineering
Apache airflow
Amazon web services
Automation
ELT
title_short Arquitetura em nuvem escalonável para coleta e processamento de dados
title_full Arquitetura em nuvem escalonável para coleta e processamento de dados
title_fullStr Arquitetura em nuvem escalonável para coleta e processamento de dados
title_full_unstemmed Arquitetura em nuvem escalonável para coleta e processamento de dados
title_sort Arquitetura em nuvem escalonável para coleta e processamento de dados
author Haeffner, Yan Cescon
author_facet Haeffner, Yan Cescon
author_role author
dc.contributor.author.fl_str_mv Haeffner, Yan Cescon
dc.contributor.advisor1.fl_str_mv Gotz, Marcelo
contributor_str_mv Gotz, Marcelo
dc.subject.por.fl_str_mv Engenharia de controle e automação
Processamento de dados
Computação em nuvem
topic Engenharia de controle e automação
Processamento de dados
Computação em nuvem
IoT
Cloud
Data engineering
Apache airflow
Amazon web services
Automation
ELT
dc.subject.eng.fl_str_mv IoT
Cloud
Data engineering
Apache airflow
Amazon web services
Automation
ELT
description Este trabalho tem como objetivo o desenvolvimento de uma arquitetura capaz de processar dados de diferentes sistemas de forma autônoma, eficaz e escalonável, permitindo, assim, a inclusão de novas unidades destes sistemas, sem a necessidade de alteração da arquitetura e de seus componentes. Por meio dos serviços da Amazon Web Services e do orquestrador de tarefas agendadas Apache Airflow foi possível automatizar o paralelismo da execução dos processos (desenvolvidos em Python para utilização no Airflow) de extração, ingestão, transformação e agregação de dados de estações meteorológicas disponibilizadas pelo Instituto Nacional de Meteorologia e de estações de irrigação automática desenvolvidas em um trabalho de conclusão de curso anterior a este. No desenvolvimento, todos os processos foram orquestrados de maneira que os dados fossem centralizados em um banco relacional analítico para consumo imediato e especializado. O acesso às estações disponíveis contou com o uso dos protocolos HTTP e MQTT, que permitiu a obtenção de dados em diferentes frequências de execução para estações localizadas em diferentes cidades e estados do país. Visando ao enfoque dos benefícios da engenharia de dados para projetos e demandas que necessitam de informações de diferentes sistemas, avaliou-se a configuração dos controladores projetados para as estações de irrigação mediante verificação do comportamento daquelas frente aos dados meteorológicos mais próximos disponíveis. Por fim, a arquitetura em análise se mostrou bastante eficaz no escalonamento de unidades de processamento para a execução das diversas tarefas necessárias utilizando serviços de conteinerização de código (como o Amazon Fargate) e armazenamento distribuído em nuvem (como o Amazon S3) sem prejudicar ou alterar os dados trabalhados ao longo dos processos utilizados.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-11-24T04:47:10Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/251730
dc.identifier.nrb.pt_BR.fl_str_mv 001153676
url http://hdl.handle.net/10183/251730
identifier_str_mv 001153676
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/251730/2/001153676.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/251730/1/001153676.pdf
bitstream.checksum.fl_str_mv 84466ec98304d26bac0b42190b800b01
81474c92653917da5c5b9d17fa518808
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1801224644963860480