Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable

Detalhes bibliográficos
Autor(a) principal: Pereira, Matheus Marotti
Data de Publicação: 2022
Outros Autores: Silva, Thiago do Prado
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da Universidade Federal Fluminense (RIUFF)
Texto Completo: http://app.uff.br/riuff/handle/1/26754
Resumo: A presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema.
id UFF-2_53460bc74dc3a54fd693017799a0dcaf
oai_identifier_str oai:app.uff.br:1/26754
network_acronym_str UFF-2
network_name_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository_id_str 2120
spelling Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais BurstableWeb ScrapingMáquina burstableNuvem AWSComputação em nuvemFramework (Programa de computador)Burstable instancesAWS CloudA presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema.This work describes a Web Scraping framework based on burstable virtual machines of AWS to reduce financial costs while meeting a given deadline. In addition to creating a system that takes advantage of the burst capacity of this instance type, this work compares it with other existing approaches, pointing out scenarios where the proposed framework can bring advantages over them. Web Scraping is a widely used technique for decision making, collecting and structuring public data on the internet that are not available via API. When the load of information needed for decisions increases, it is necessary to refine data extraction systems seeking more efficient methods. The framework defines a mixed cluster, with fixed and temporary burstable virtual machines. This same cluster can be elastically increased or decreased by varying the instances of the set of temporary burstable VMs, to meet the scraping requests Service Level Agreement (SLA) and reduce the financial cost. The proposed framework was evaluated in the AWS cloud environment, in versions with one and two fixed burstable machines, and compared to an entirely ondemand instances cluster (regular approach) and also to a Function as a Service (FaaS) approach. It was able of reducing the financial cost by up to 96% when compared to the FaaS approach, and by up to 95.59% when compared to the regular approach in the best cases. In addition, in all other cases, it achieved at least 93,26% of cost savings, showing that burstable instances can be an excellent tool for this problem.74 f.Drummond, Lúcia Maria de Assumpçãohttp://lattes.cnpq.br/9314029648579658Vieira, Bruno Lopeshttp://lattes.cnpq.br/7793315334001237Coutinho, Rafaelli de Carvalhohttp://lattes.cnpq.br/8871521490245734Pereira, Matheus MarottiSilva, Thiago do Prado2022-11-01T16:30:02Z2022-11-01T16:30:02Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfPEREIRA, Matheus Marotti; Silva, Thiago do Prado. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. 2022. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/26754CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-11-01T16:30:07Zoai:app.uff.br:1/26754Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:49:00.075858Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false
dc.title.none.fl_str_mv Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
title Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
spellingShingle Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
Pereira, Matheus Marotti
Web Scraping
Máquina burstable
Nuvem AWS
Computação em nuvem
Framework (Programa de computador)
Burstable instances
AWS Cloud
title_short Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
title_full Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
title_fullStr Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
title_full_unstemmed Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
title_sort Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
author Pereira, Matheus Marotti
author_facet Pereira, Matheus Marotti
Silva, Thiago do Prado
author_role author
author2 Silva, Thiago do Prado
author2_role author
dc.contributor.none.fl_str_mv Drummond, Lúcia Maria de Assumpção
http://lattes.cnpq.br/9314029648579658
Vieira, Bruno Lopes
http://lattes.cnpq.br/7793315334001237
Coutinho, Rafaelli de Carvalho
http://lattes.cnpq.br/8871521490245734
dc.contributor.author.fl_str_mv Pereira, Matheus Marotti
Silva, Thiago do Prado
dc.subject.por.fl_str_mv Web Scraping
Máquina burstable
Nuvem AWS
Computação em nuvem
Framework (Programa de computador)
Burstable instances
AWS Cloud
topic Web Scraping
Máquina burstable
Nuvem AWS
Computação em nuvem
Framework (Programa de computador)
Burstable instances
AWS Cloud
description A presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema.
publishDate 2022
dc.date.none.fl_str_mv 2022-11-01T16:30:02Z
2022-11-01T16:30:02Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv PEREIRA, Matheus Marotti; Silva, Thiago do Prado. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. 2022. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.
http://app.uff.br/riuff/handle/1/26754
identifier_str_mv PEREIRA, Matheus Marotti; Silva, Thiago do Prado. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. 2022. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.
url http://app.uff.br/riuff/handle/1/26754
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv CC-BY-SA
info:eu-repo/semantics/openAccess
rights_invalid_str_mv CC-BY-SA
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)
instname:Universidade Federal Fluminense (UFF)
instacron:UFF
instname_str Universidade Federal Fluminense (UFF)
instacron_str UFF
institution UFF
reponame_str Repositório Institucional da Universidade Federal Fluminense (RIUFF)
collection Repositório Institucional da Universidade Federal Fluminense (RIUFF)
repository.name.fl_str_mv Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)
repository.mail.fl_str_mv riuff@id.uff.br
_version_ 1811823577403490304