Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Outros Autores: | |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
Texto Completo: | http://app.uff.br/riuff/handle/1/26754 |
Resumo: | A presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema. |
id |
UFF-2_53460bc74dc3a54fd693017799a0dcaf |
---|---|
oai_identifier_str |
oai:app.uff.br:1/26754 |
network_acronym_str |
UFF-2 |
network_name_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository_id_str |
2120 |
spelling |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais BurstableWeb ScrapingMáquina burstableNuvem AWSComputação em nuvemFramework (Programa de computador)Burstable instancesAWS CloudA presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema.This work describes a Web Scraping framework based on burstable virtual machines of AWS to reduce financial costs while meeting a given deadline. In addition to creating a system that takes advantage of the burst capacity of this instance type, this work compares it with other existing approaches, pointing out scenarios where the proposed framework can bring advantages over them. Web Scraping is a widely used technique for decision making, collecting and structuring public data on the internet that are not available via API. When the load of information needed for decisions increases, it is necessary to refine data extraction systems seeking more efficient methods. The framework defines a mixed cluster, with fixed and temporary burstable virtual machines. This same cluster can be elastically increased or decreased by varying the instances of the set of temporary burstable VMs, to meet the scraping requests Service Level Agreement (SLA) and reduce the financial cost. The proposed framework was evaluated in the AWS cloud environment, in versions with one and two fixed burstable machines, and compared to an entirely ondemand instances cluster (regular approach) and also to a Function as a Service (FaaS) approach. It was able of reducing the financial cost by up to 96% when compared to the FaaS approach, and by up to 95.59% when compared to the regular approach in the best cases. In addition, in all other cases, it achieved at least 93,26% of cost savings, showing that burstable instances can be an excellent tool for this problem.74 f.Drummond, Lúcia Maria de Assumpçãohttp://lattes.cnpq.br/9314029648579658Vieira, Bruno Lopeshttp://lattes.cnpq.br/7793315334001237Coutinho, Rafaelli de Carvalhohttp://lattes.cnpq.br/8871521490245734Pereira, Matheus MarottiSilva, Thiago do Prado2022-11-01T16:30:02Z2022-11-01T16:30:02Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisapplication/pdfPEREIRA, Matheus Marotti; Silva, Thiago do Prado. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. 2022. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022.http://app.uff.br/riuff/handle/1/26754CC-BY-SAinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF)instname:Universidade Federal Fluminense (UFF)instacron:UFF2022-11-01T16:30:07Zoai:app.uff.br:1/26754Repositório InstitucionalPUBhttps://app.uff.br/oai/requestriuff@id.uff.bropendoar:21202024-08-19T10:49:00.075858Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF)false |
dc.title.none.fl_str_mv |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
title |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
spellingShingle |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable Pereira, Matheus Marotti Web Scraping Máquina burstable Nuvem AWS Computação em nuvem Framework (Programa de computador) Burstable instances AWS Cloud |
title_short |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
title_full |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
title_fullStr |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
title_full_unstemmed |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
title_sort |
Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable |
author |
Pereira, Matheus Marotti |
author_facet |
Pereira, Matheus Marotti Silva, Thiago do Prado |
author_role |
author |
author2 |
Silva, Thiago do Prado |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Drummond, Lúcia Maria de Assumpção http://lattes.cnpq.br/9314029648579658 Vieira, Bruno Lopes http://lattes.cnpq.br/7793315334001237 Coutinho, Rafaelli de Carvalho http://lattes.cnpq.br/8871521490245734 |
dc.contributor.author.fl_str_mv |
Pereira, Matheus Marotti Silva, Thiago do Prado |
dc.subject.por.fl_str_mv |
Web Scraping Máquina burstable Nuvem AWS Computação em nuvem Framework (Programa de computador) Burstable instances AWS Cloud |
topic |
Web Scraping Máquina burstable Nuvem AWS Computação em nuvem Framework (Programa de computador) Burstable instances AWS Cloud |
description |
A presente pesquisa tem por objetivo propor um sistema de Web Scraping, baseado na nuvem computacional da AWS, utilizando as, até então pouco exploradas, máquinas EC2 burstable. Além da criação de um sistema que se aproveita das qualidades expansíveis desse tipo de máquina, o trabalho busca trazer uma comparação com outras abordagens existentes, apontando cenários onde o sistema proposto pode trazer vantagens sobre as mesmas, levando em consideração o tempo de processamento de pedidos e custo financeiro. O Web Scraping é uma técnica amplamente utilizada para tomada de decisões, recolhendo e estruturando dados públicos na internet, mas não disponibilizados via API. Quando a carga de informação necessária para decisões fica cada vez mais intensa, é necessário refinar os sistemas de extração de dados buscando métodos mais eficientes. O framework define um cluster misto com instâncias burstable fixas e temporárias. Esse mesmo cluster pode variar o número de instâncias burstable temporárias, adicionando ou removendo VMs, para garantir o Service Level Agreement (SLA) das mensagens e minimização dos custos. O framework proposto foi avaliado na nuvem AWS, com uma e duas instâncias burstable fixas e comparado a uma abordagem apenas com instâncias on-demand não expansíveis e também a outra solução baseada em Function as a Service (FaaS). Os resultados mostraram que todos os testes atendem o SLA definido, alcançando uma redução de 96% de custo financeiro, em seu melhor caso quando comparado à abordagem FaaS, e redução de 95,59%, em seu melhor caso quando comparado à abordagem on-demand. Além disso, houve redução de custos de no mínimo 93,26% em todos os demais casos de teste, mostrando que máquinas burstable podem ser um ótimo recurso para esse problema. |
publishDate |
2022 |
dc.date.none.fl_str_mv |
2022-11-01T16:30:02Z 2022-11-01T16:30:02Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
PEREIRA, Matheus Marotti; Silva, Thiago do Prado. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. 2022. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022. http://app.uff.br/riuff/handle/1/26754 |
identifier_str_mv |
PEREIRA, Matheus Marotti; Silva, Thiago do Prado. Web Scraping na Nuvem AWS: Uma Abordagem com Máquinas Virtuais Burstable. 2022. 74 f. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Instituto de Ciência da Computação, Universidade Federal Fluminense, Niterói, 2022. |
url |
http://app.uff.br/riuff/handle/1/26754 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
CC-BY-SA info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
CC-BY-SA |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da Universidade Federal Fluminense (RIUFF) instname:Universidade Federal Fluminense (UFF) instacron:UFF |
instname_str |
Universidade Federal Fluminense (UFF) |
instacron_str |
UFF |
institution |
UFF |
reponame_str |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
collection |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) |
repository.name.fl_str_mv |
Repositório Institucional da Universidade Federal Fluminense (RIUFF) - Universidade Federal Fluminense (UFF) |
repository.mail.fl_str_mv |
riuff@id.uff.br |
_version_ |
1811823577403490304 |