A framework for scalable web data collection

Detalhes bibliográficos
Autor(a) principal: Sand, David Steiner
Data de Publicação: 2022
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFSC
Texto Completo: https://repositorio.ufsc.br/handle/123456789/243322
Resumo: TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Controle e Automação.
id UFSC_ce6748e29f1a14c03e1867f80afd00d6
oai_identifier_str oai:repositorio.ufsc.br:123456789/243322
network_acronym_str UFSC
network_name_str Repositório Institucional da UFSC
repository_id_str 2373
spelling Universidade Federal de Santa Catarina.Sand, David SteinerMontez, Carlos BarrosJung, Rafael2022-12-21T14:27:27Z2022-12-21T14:27:27Z2022-12-12https://repositorio.ufsc.br/handle/123456789/243322TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Controle e Automação.A fim de se destacar no mercado europeu altamente competitivo de hoje, empresas tendem a depender cada vez mais em informações relativas ao próprio mercado e aos seus concorrentes. A Jungsoft GmbH é uma empresa de desenvolvimento de software de longo prazo para projetos altamente exigentes, que trabalha com o autor deste documento e com um cliente europeu focado em transformar dados em vantagem competitiva, combinando \textit{big data} de alta qualidade, análises modernas e profunda experiência automotiva. O cliente vende muitos produtos para resolver seu objetivo, todos os quais dependem de ter dados abundantes e de alta qualidade. O projeto aqui apresentado visa fornecer a base para estes produtos, permitindo a rápida coleta de dados na web. Para isso, foi criada uma ferramenta distribuída, escalável, fácil de usar e com interfaces bem definidas. Como em toda nova criação, muitos obstáculos surgiram no caminho, tais como: como projetar uma arquitetura de software escalável; quão rápido poderiam ser incluídos novos websites na coleta de dados; e como desenvolvedores inexperientes poderiam contribuir para o crescimento do projeto. O projeto foi implementado com sucesso e atualmente está em produção, sendo utilizado por muitos desenvolvedores e coletando milhões de pontos de dados por dia.In order to stand out in today’s highly competitive European market, companies tend to rely more and more on information regarding the market itself and competitors. Jungsoft GmbH is a long-term focused technology development company for highly demanding projects, which works with the author of this document and with a European client focused on turning data into a competitive advantage by combining high-quality big data, modern analytics and deep automotive expertise. The client sells many products to solve its objective, all of which rely on having abundant, high-quality data. The project hereby presented aims to provide the basis to these products, by allowing the fast collection of data on the web. To do so, a distributed, scalable, easy-to-use and with well-defined interfaces tool was created from scratch. As with every new creation, many obstacles arose in the way, such as: how to design, implement and deploy a scalable software architecture; how fast could new websites be included in the data collection pipeline; and how could inexperienced developers contribute to the project’s growth. The project was successfully implemented and currently runs in production, being used by many developers and collecting millions of data points per day.70 f.Florianópolis, SC.Open Access.info:eu-repo/semantics/openAccessScalabilityBig dataSoftware ArchitectureEscalabilidadeBig DataArquitetura de SoftwareA framework for scalable web data collectioninfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisengreponame:Repositório Institucional da UFSCinstname:Universidade Federal de Santa Catarina (UFSC)instacron:UFSCLICENSElicense.txtlicense.txttext/plain; charset=utf-81383https://repositorio.ufsc.br/bitstream/123456789/243322/2/license.txt11ee89cd31d893362820eab7c4d46734MD52ORIGINALPFC.pdfPFC.pdfapplication/pdf4679962https://repositorio.ufsc.br/bitstream/123456789/243322/1/PFC.pdf881ef0ee83345f4e0c6682a903090aebMD51123456789/2433222022-12-21 11:27:27.388oai:repositorio.ufsc.br:123456789/243322Vm9jw6ogdGVtIGEgbGliZXJkYWRlIGRlOiBDb21wYXJ0aWxoYXIg4oCUIGNvcGlhciwgZGlzdHJpYnVpciBlIHRyYW5zbWl0aXIgYSBvYnJhLiBSZW1peGFyIOKAlCBjcmlhciBvYnJhcyBkZXJpdmFkYXMuClNvYiBhcyBzZWd1aW50ZXMgY29uZGnDp8O1ZXM6IEF0cmlidWnDp8OjbyDigJQgVm9jw6ogZGV2ZSBjcmVkaXRhciBhIG9icmEgZGEgZm9ybWEgZXNwZWNpZmljYWRhIHBlbG8gYXV0b3Igb3UgbGljZW5jaWFudGUgKG1hcyBuw6NvIGRlIG1hbmVpcmEgcXVlIHN1Z2lyYSBxdWUgZXN0ZXMgY29uY2VkZW0gcXVhbHF1ZXIgYXZhbCBhIHZvY8OqIG91IGFvIHNldSB1c28gZGEgb2JyYSkuIFVzbyBuw6NvLWNvbWVyY2lhbCDigJQgVm9jw6ogbsOjbyBwb2RlIHVzYXIgZXN0YSBvYnJhIHBhcmEgZmlucyBjb21lcmNpYWlzLgpGaWNhbmRvIGNsYXJvIHF1ZTogUmVuw7puY2lhIOKAlCBRdWFscXVlciBkYXMgY29uZGnDp8O1ZXMgYWNpbWEgcG9kZSBzZXIgcmVudW5jaWFkYSBzZSB2b2PDqiBvYnRpdmVyIHBlcm1pc3PDo28gZG8gdGl0dWxhciBkb3MgZGlyZWl0b3MgYXV0b3JhaXMuIERvbcOtbmlvIFDDumJsaWNvIOKAlCBPbmRlIGEgb2JyYSBvdSBxdWFscXVlciBkZSBzZXVzIGVsZW1lbnRvcyBlc3RpdmVyIGVtIGRvbcOtbmlvIHDDumJsaWNvIHNvYiBvIGRpcmVpdG8gYXBsaWPDoXZlbCwgZXN0YSBjb25kacOnw6NvIG7Do28gw6ksIGRlIG1hbmVpcmEgYWxndW1hLCBhZmV0YWRhIHBlbGEgbGljZW7Dp2EuIE91dHJvcyBEaXJlaXRvcyDigJQgT3Mgc2VndWludGVzIGRpcmVpdG9zIG7Do28gc8OjbywgZGUgbWFuZWlyYSBhbGd1bWEsIGFmZXRhZG9zIHBlbGEgbGljZW7Dp2E6IExpbWl0YcOnw7VlcyBlIGV4Y2XDp8O1ZXMgYW9zIGRpcmVpdG9zIGF1dG9yYWlzIG91IHF1YWlzcXVlciB1c29zIGxpdnJlcyBhcGxpY8OhdmVpczsgT3MgZGlyZWl0b3MgbW9yYWlzIGRvIGF1dG9yOyBEaXJlaXRvcyBxdWUgb3V0cmFzIHBlc3NvYXMgcG9kZW0gdGVyIHNvYnJlIGEgb2JyYSBvdSBzb2JyZSBhIHV0aWxpemHDp8OjbyBkYSBvYnJhLCB0YWlzIGNvbW8gZGlyZWl0b3MgZGUgaW1hZ2VtIG91IHByaXZhY2lkYWRlLiBBdmlzbyDigJQgUGFyYSBxdWFscXVlciByZXV0aWxpemHDp8OjbyBvdSBkaXN0cmlidWnDp8Ojbywgdm9jw6ogZGV2ZSBkZWl4YXIgY2xhcm8gYSB0ZXJjZWlyb3Mgb3MgdGVybW9zIGRhIGxpY2Vuw6dhIGEgcXVlIHNlIGVuY29udHJhIHN1Ym1ldGlkYSBlc3RhIG9icmEuIEEgbWVsaG9yIG1hbmVpcmEgZGUgZmF6ZXIgaXNzbyDDqSBjb20gdW0gbGluayBwYXJhIGVzdGEgcMOhZ2luYS4KTGljZW7Dp2EgQ3JlYXRpdmUgQ29tbW9ucyAtIGh0dHA6Ly9jcmVhdGl2ZWNvbW1vbnMub3JnL2xpY2Vuc2VzL2J5LW5jLzMuMC9ici8KRepositório de PublicaçõesPUBhttp://150.162.242.35/oai/requestopendoar:23732022-12-21T14:27:27Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)false
dc.title.pt_BR.fl_str_mv A framework for scalable web data collection
title A framework for scalable web data collection
spellingShingle A framework for scalable web data collection
Sand, David Steiner
Scalability
Big data
Software Architecture
Escalabilidade
Big Data
Arquitetura de Software
title_short A framework for scalable web data collection
title_full A framework for scalable web data collection
title_fullStr A framework for scalable web data collection
title_full_unstemmed A framework for scalable web data collection
title_sort A framework for scalable web data collection
author Sand, David Steiner
author_facet Sand, David Steiner
author_role author
dc.contributor.pt_BR.fl_str_mv Universidade Federal de Santa Catarina.
dc.contributor.author.fl_str_mv Sand, David Steiner
dc.contributor.advisor1.fl_str_mv Montez, Carlos Barros
dc.contributor.advisor-co1.fl_str_mv Jung, Rafael
contributor_str_mv Montez, Carlos Barros
Jung, Rafael
dc.subject.por.fl_str_mv Scalability
Big data
Software Architecture
Escalabilidade
Big Data
Arquitetura de Software
topic Scalability
Big data
Software Architecture
Escalabilidade
Big Data
Arquitetura de Software
description TCC (graduação) - Universidade Federal de Santa Catarina, Centro Tecnológico, Engenharia de Controle e Automação.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-12-21T14:27:27Z
dc.date.available.fl_str_mv 2022-12-21T14:27:27Z
dc.date.issued.fl_str_mv 2022-12-12
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv https://repositorio.ufsc.br/handle/123456789/243322
url https://repositorio.ufsc.br/handle/123456789/243322
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv Open Access.
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Open Access.
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 70 f.
dc.publisher.none.fl_str_mv Florianópolis, SC.
publisher.none.fl_str_mv Florianópolis, SC.
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFSC
instname:Universidade Federal de Santa Catarina (UFSC)
instacron:UFSC
instname_str Universidade Federal de Santa Catarina (UFSC)
instacron_str UFSC
institution UFSC
reponame_str Repositório Institucional da UFSC
collection Repositório Institucional da UFSC
bitstream.url.fl_str_mv https://repositorio.ufsc.br/bitstream/123456789/243322/2/license.txt
https://repositorio.ufsc.br/bitstream/123456789/243322/1/PFC.pdf
bitstream.checksum.fl_str_mv 11ee89cd31d893362820eab7c4d46734
881ef0ee83345f4e0c6682a903090aeb
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFSC - Universidade Federal de Santa Catarina (UFSC)
repository.mail.fl_str_mv
_version_ 1766804950597238784