Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces

Detalhes bibliográficos
Autor(a) principal: Thums, Bruno Brill
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)
Texto Completo: http://hdl.handle.net/10737/3556
Resumo: Em meio a inúmeros e-commerces, com produtos vendidos por numerosos vendedores, além da própria plataforma, fica difícil para o consumidor encontrar o melhor preço para o produto que está buscando, exigindo uma árdua pesquisa em vários sites, por meio de uma infinda quantidade de cliques. Este estudo teve como objetivo desenvolver um comparador de preços de produtos de e-commerces, utilizando técnicas de web crawling e web scraping, incorporando a funcionalidade de cashback para impulsionar a economia do consumidor. O foco foi na navegação entre páginas, extração, tratamento, armazenamento e disponibilização das informações. O framework Scrapy foi utilizado para a aplicação destas técnicas. O Scrapy faz requisições aos quatro principais e-commerces definidos pelo autor, resgatando os dados de cada um e armazenando-os localmente em um arquivo CSV. Em seguida, é feita uma requisição ao site comparemania.com.br para resgatar as três melhores ofertas de cashback e as respectivas plataformas, para cada e-commerce. O cálculo do cashback sobre o valor final do produto de cada e-commerce é realizado, e as informações são apresentadas em uma planilha, incluindo informações como, principalmente: o e-commerce anunciante, o vendedor, o valor final, o cashback (de três plataformas) e o valor final com cashback. A obtenção dos dados para cada e-commerce leva 15 segundos, sendo disparadas até 4 requisições no máximo. Os resultados obtidos evidenciaram a importância de aplicar corretamente os fundamentos em cada etapa do projeto. A elaboração e teste das spiders foram cruciais para o aperfeiçoamento do projeto, permitindo ajustes, correções e análises detalhadas da lógica do código. Cada e-commerce apresentou suas peculiaridades, exigindo uma análise cuidadosa do HTML, seleção precisa dos elementos e atributos e desenvolvimento de um código XPath consistente e resistente a modificações. Após um extenso processo de testes, as spiders foram consolidadas, realizando com precisão as requisições, extração de informações e funcionando eficientemente.
id UVAT_235e3621479d522431eae61f2aacd532
oai_identifier_str oai:univates.br:10737/3556
network_acronym_str UVAT
network_name_str Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)
repository_id_str 1
spelling Ahlert, Edson Moacirhttp://lattes.cnpq.br/2547339011790564Pretto, FabrícioDertzbacher, JulianoThums, Bruno Brill2023-07-03T13:52:08Z2023-07-03T13:52:08Z2023-062023-06-29Em meio a inúmeros e-commerces, com produtos vendidos por numerosos vendedores, além da própria plataforma, fica difícil para o consumidor encontrar o melhor preço para o produto que está buscando, exigindo uma árdua pesquisa em vários sites, por meio de uma infinda quantidade de cliques. Este estudo teve como objetivo desenvolver um comparador de preços de produtos de e-commerces, utilizando técnicas de web crawling e web scraping, incorporando a funcionalidade de cashback para impulsionar a economia do consumidor. O foco foi na navegação entre páginas, extração, tratamento, armazenamento e disponibilização das informações. O framework Scrapy foi utilizado para a aplicação destas técnicas. O Scrapy faz requisições aos quatro principais e-commerces definidos pelo autor, resgatando os dados de cada um e armazenando-os localmente em um arquivo CSV. Em seguida, é feita uma requisição ao site comparemania.com.br para resgatar as três melhores ofertas de cashback e as respectivas plataformas, para cada e-commerce. O cálculo do cashback sobre o valor final do produto de cada e-commerce é realizado, e as informações são apresentadas em uma planilha, incluindo informações como, principalmente: o e-commerce anunciante, o vendedor, o valor final, o cashback (de três plataformas) e o valor final com cashback. A obtenção dos dados para cada e-commerce leva 15 segundos, sendo disparadas até 4 requisições no máximo. Os resultados obtidos evidenciaram a importância de aplicar corretamente os fundamentos em cada etapa do projeto. A elaboração e teste das spiders foram cruciais para o aperfeiçoamento do projeto, permitindo ajustes, correções e análises detalhadas da lógica do código. Cada e-commerce apresentou suas peculiaridades, exigindo uma análise cuidadosa do HTML, seleção precisa dos elementos e atributos e desenvolvimento de um código XPath consistente e resistente a modificações. Após um extenso processo de testes, as spiders foram consolidadas, realizando com precisão as requisições, extração de informações e funcionando eficientemente.In the midst of numerous e-commerces, with products sold by numerous sellers, in addition to the platform itself, it is difficult for the consumer to find the best price for the product he is looking for, requiring an arduous search on several sites, through an endless amount of clicks. This study aimed to develop a price comparison tool for e-commerce products, using web crawling and web scraping techniques, incorporating the cashback functionality to boost the consumer's economy. The focus was on navigation between pages, extraction, treatment, storage and availability of information. The Scrapy framework was used to apply these techniques. Scrapy makes requests to the four main e-commerces defined by the author, retrieving data from each one and storing them locally in a CSV file. Then, a request is made to the comparemania.com.br website to redeem the three best cashback offers and the respective platforms, for each e-commerce. The calculation of the cashback on the final value of the product of each e-commerce is carried out, and the information is presented in a spreadsheet, including information such as, mainly: the advertiser e-commerce, the seller, the final value, the cashback (from three platforms) and the final value with cashback. Obtaining data for each e-commerce takes 15 seconds, triggering up to 4 requests at most. The results obtained showed the importance of correctly applying the fundamentals in each stage of the project. The elaboration and testing of the spiders were crucial for the improvement of the project, allowing adjustments, corrections and detailed analysis of the code's logic. Each e-commerce had its peculiarities, requiring careful analysis of the HTML, precise selection of elements and attributes, and development of a consistent XPath code that is resistant to modifications. After an extensive testing process, the spiders were consolidated, accurately performing requests, extracting information and working efficiently.-1THUMS, Bruno Brill. Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces. 2023. Monografia (Graduação em Engenharia da Computação) – Universidade do Vale do Taquari - Univates, Lajeado, 29 jun. 2023. Disponível em: http://hdl.handle.net/10737/3556. http://hdl.handle.net/10737/3556Attribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessCETComparador de sitesWeb scrapingE-commerceSite comparatorAplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commercesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)instname:Centro Universitário Univates (UNIVATES)instacron:UNIVATESORIGINAL2023BrunoBrillThums.pdf2023BrunoBrillThums.pdfapplication/pdf5607979https://www.univates.br/bdu/bitstreams/982b56af-788e-424d-b3f8-fe6383a86b32/download38b887c66a68e676fdc4a0f7594267acMD51LICENSElicense.txtlicense.txttext/plain1082https://www.univates.br/bdu/bitstreams/42d7a651-2dce-4292-8cdb-1d6a6c483b4e/download01978bf0e057630b32edd4f9d41e68e8MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://www.univates.br/bdu/bitstreams/a775d819-dea8-413e-95d0-ce4559ebd488/download4d2950bda3d176f570a9f8b328dfbbefMD53TEXT2023BrunoBrillThums.pdf.txt2023BrunoBrillThums.pdf.txtExtracted texttext/plain102766https://www.univates.br/bdu/bitstreams/4bbdc2e3-bece-43e8-a45b-012f2aa6c51a/downloadfac86ac7182a0ce89458a1f8dca74e71MD54THUMBNAIL2023BrunoBrillThums.pdf.jpg2023BrunoBrillThums.pdf.jpgGenerated Thumbnailimage/jpeg4544https://www.univates.br/bdu/bitstreams/5aa6aecd-e991-4322-980b-1abd2df90f75/download8c70848bbb38a0fa01b0fd1973d97e37MD5510737/35562023-07-04 03:03:57.743http://creativecommons.org/licenses/by/3.0/br/Attribution 3.0 Braziloai:univates.br:10737/3556https://www.univates.br/bduRepositório InstitucionalPRIhttp://www.univates.br/bdu_oai/requestopendoar:12023-07-04T03:03:57Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) - Centro Universitário Univates (UNIVATES)falseMS4gTyBBVVRPUiBkZWNsYXJhIHF1ZSDDqSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBPQlJBIGUgdGVtIHBsZW5hIGRpc3BvbmliaWxpZGFkZSBkb3MgbWVzbW9zLCBleGltaW5kbyBhIFVOSVZBVEVTIGRlIHRvZGEgZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlLjxiciAvPgoyLiBPIEFVVE9SIGRlY2xhcmEgcXVlLCByZWxhdGl2YW1lbnRlIMOgIE9CUkEsIHJlc3BlaXRvdSBvcyBkaXJlaXRvcyBpbnRlbGVjdHVhaXMgZGUgdGVyY2Vpcm9zIGUgY3VtcHJpdSBjb20gYXMgb2JyaWdhw6fDtWVzIGxlZ2FpcyBvdSBjb250cmF0dWFpcyBjb3JyZWxhdGFzLCBleGltaW5kbyBhIFVOSVZBVEVTIGRlIHRvZGEgZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlLjxiciAvPgozLiBPIEFVVE9SIGxpY2VuY2lhIGEgcmVwcm9kdcOnw6NvIGdyYXR1aXRhIGVtIGZvcm1hdG8gZGlnaXRhbCBlIGEgZGlzcG9uaWJpbGl6YcOnw6NvIGdyYXR1aXRhIG91IG9uZXJvc2EgZGEgT0JSQSBuYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGEgVW5pdmF0ZXMsIHBhcmEgdG9kb3Mgb3MgdXN1w6FyaW9zLCBuYSBmb3JtYSBkZWZpbmlkYSBwZWxhIFVOSVZBVEVTLCBjaWVudGUgZGUgcXVlIGEgaW5jbHVzw6NvIGRhIE9CUkEgbmEgQmlibGlvdGVjYSBpbXBvcnRhcsOhIHRhbWLDqW0gbm8gbGljZW5jaWFtZW50byBwb3IgbWVpbyBkYSBDcmVhdGl2ZSBDb21tb25zLjxiciAvPgo0LiBBIFVOSVZBVEVTIG5hZGEgZGV2ZXLDoSBhbyBBVVRPUiBwZWxhIHJlcHJvZHXDp8OjbyBlIGRpc3BvbmliaWxpemHDp8OjbyBkYSBPQlJBLCBjb25mb3JtZSBhY2ltYSBwcmV2aXN0bywgbWVzbW8gc2UgbyBhY2Vzc28gZG9zIHVzdcOhcmlvcyBkYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGEgVW5pdmF0ZXMgZm9yIGEgdMOtdHVsbyBvbmVyb3NvLjxiciAvPgo1LiBPIEFVVE9SIGZpY2EgY2llbnRlIGRlIHF1ZSwgZGlzcG9uaWJpbGl6YWRhIGEgT0JSQSBuYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGEgVW5pdmF0ZXMsIG9zIHVzdcOhcmlvcyBwb2RlcsOjbyB1dGlsaXrDoS1sYSBjb25mb3JtZSBhcyBub3JtYXMgZGEgQ3JlYXRpdmUgQ29tbW9ucy4=
dc.title.none.fl_str_mv Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
title Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
spellingShingle Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
Thums, Bruno Brill
CET
Comparador de sites
Web scraping
E-commerce
Site comparator
title_short Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
title_full Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
title_fullStr Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
title_full_unstemmed Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
title_sort Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
author Thums, Bruno Brill
author_facet Thums, Bruno Brill
author_role author
dc.contributor.advisor1.fl_str_mv Ahlert, Edson Moacir
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/2547339011790564
dc.contributor.referee1.fl_str_mv Pretto, Fabrício
Dertzbacher, Juliano
dc.contributor.author.fl_str_mv Thums, Bruno Brill
contributor_str_mv Ahlert, Edson Moacir
Pretto, Fabrício
Dertzbacher, Juliano
dc.subject.cnpq.fl_str_mv CET
topic CET
Comparador de sites
Web scraping
E-commerce
Site comparator
dc.subject.por.fl_str_mv Comparador de sites
Web scraping
E-commerce
Site comparator
description Em meio a inúmeros e-commerces, com produtos vendidos por numerosos vendedores, além da própria plataforma, fica difícil para o consumidor encontrar o melhor preço para o produto que está buscando, exigindo uma árdua pesquisa em vários sites, por meio de uma infinda quantidade de cliques. Este estudo teve como objetivo desenvolver um comparador de preços de produtos de e-commerces, utilizando técnicas de web crawling e web scraping, incorporando a funcionalidade de cashback para impulsionar a economia do consumidor. O foco foi na navegação entre páginas, extração, tratamento, armazenamento e disponibilização das informações. O framework Scrapy foi utilizado para a aplicação destas técnicas. O Scrapy faz requisições aos quatro principais e-commerces definidos pelo autor, resgatando os dados de cada um e armazenando-os localmente em um arquivo CSV. Em seguida, é feita uma requisição ao site comparemania.com.br para resgatar as três melhores ofertas de cashback e as respectivas plataformas, para cada e-commerce. O cálculo do cashback sobre o valor final do produto de cada e-commerce é realizado, e as informações são apresentadas em uma planilha, incluindo informações como, principalmente: o e-commerce anunciante, o vendedor, o valor final, o cashback (de três plataformas) e o valor final com cashback. A obtenção dos dados para cada e-commerce leva 15 segundos, sendo disparadas até 4 requisições no máximo. Os resultados obtidos evidenciaram a importância de aplicar corretamente os fundamentos em cada etapa do projeto. A elaboração e teste das spiders foram cruciais para o aperfeiçoamento do projeto, permitindo ajustes, correções e análises detalhadas da lógica do código. Cada e-commerce apresentou suas peculiaridades, exigindo uma análise cuidadosa do HTML, seleção precisa dos elementos e atributos e desenvolvimento de um código XPath consistente e resistente a modificações. Após um extenso processo de testes, as spiders foram consolidadas, realizando com precisão as requisições, extração de informações e funcionando eficientemente.
publishDate 2023
dc.date.submitted.none.fl_str_mv 2023-06-29
dc.date.accessioned.fl_str_mv 2023-07-03T13:52:08Z
dc.date.available.fl_str_mv 2023-07-03T13:52:08Z
dc.date.issued.fl_str_mv 2023-06
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv THUMS, Bruno Brill. Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces. 2023. Monografia (Graduação em Engenharia da Computação) – Universidade do Vale do Taquari - Univates, Lajeado, 29 jun. 2023. Disponível em: http://hdl.handle.net/10737/3556.
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10737/3556
identifier_str_mv THUMS, Bruno Brill. Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces. 2023. Monografia (Graduação em Engenharia da Computação) – Universidade do Vale do Taquari - Univates, Lajeado, 29 jun. 2023. Disponível em: http://hdl.handle.net/10737/3556.
url http://hdl.handle.net/10737/3556
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv Attribution 3.0 Brazil
http://creativecommons.org/licenses/by/3.0/br/
info:eu-repo/semantics/openAccess
rights_invalid_str_mv Attribution 3.0 Brazil
http://creativecommons.org/licenses/by/3.0/br/
eu_rights_str_mv openAccess
dc.source.none.fl_str_mv reponame:Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)
instname:Centro Universitário Univates (UNIVATES)
instacron:UNIVATES
instname_str Centro Universitário Univates (UNIVATES)
instacron_str UNIVATES
institution UNIVATES
reponame_str Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)
collection Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)
bitstream.url.fl_str_mv https://www.univates.br/bdu/bitstreams/982b56af-788e-424d-b3f8-fe6383a86b32/download
https://www.univates.br/bdu/bitstreams/42d7a651-2dce-4292-8cdb-1d6a6c483b4e/download
https://www.univates.br/bdu/bitstreams/a775d819-dea8-413e-95d0-ce4559ebd488/download
https://www.univates.br/bdu/bitstreams/4bbdc2e3-bece-43e8-a45b-012f2aa6c51a/download
https://www.univates.br/bdu/bitstreams/5aa6aecd-e991-4322-980b-1abd2df90f75/download
bitstream.checksum.fl_str_mv 38b887c66a68e676fdc4a0f7594267ac
01978bf0e057630b32edd4f9d41e68e8
4d2950bda3d176f570a9f8b328dfbbef
fac86ac7182a0ce89458a1f8dca74e71
8c70848bbb38a0fa01b0fd1973d97e37
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) - Centro Universitário Univates (UNIVATES)
repository.mail.fl_str_mv
_version_ 1813262411639029760