Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces
Autor(a) principal: | |
---|---|
Data de Publicação: | 2023 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) |
Texto Completo: | http://hdl.handle.net/10737/3556 |
Resumo: | Em meio a inúmeros e-commerces, com produtos vendidos por numerosos vendedores, além da própria plataforma, fica difícil para o consumidor encontrar o melhor preço para o produto que está buscando, exigindo uma árdua pesquisa em vários sites, por meio de uma infinda quantidade de cliques. Este estudo teve como objetivo desenvolver um comparador de preços de produtos de e-commerces, utilizando técnicas de web crawling e web scraping, incorporando a funcionalidade de cashback para impulsionar a economia do consumidor. O foco foi na navegação entre páginas, extração, tratamento, armazenamento e disponibilização das informações. O framework Scrapy foi utilizado para a aplicação destas técnicas. O Scrapy faz requisições aos quatro principais e-commerces definidos pelo autor, resgatando os dados de cada um e armazenando-os localmente em um arquivo CSV. Em seguida, é feita uma requisição ao site comparemania.com.br para resgatar as três melhores ofertas de cashback e as respectivas plataformas, para cada e-commerce. O cálculo do cashback sobre o valor final do produto de cada e-commerce é realizado, e as informações são apresentadas em uma planilha, incluindo informações como, principalmente: o e-commerce anunciante, o vendedor, o valor final, o cashback (de três plataformas) e o valor final com cashback. A obtenção dos dados para cada e-commerce leva 15 segundos, sendo disparadas até 4 requisições no máximo. Os resultados obtidos evidenciaram a importância de aplicar corretamente os fundamentos em cada etapa do projeto. A elaboração e teste das spiders foram cruciais para o aperfeiçoamento do projeto, permitindo ajustes, correções e análises detalhadas da lógica do código. Cada e-commerce apresentou suas peculiaridades, exigindo uma análise cuidadosa do HTML, seleção precisa dos elementos e atributos e desenvolvimento de um código XPath consistente e resistente a modificações. Após um extenso processo de testes, as spiders foram consolidadas, realizando com precisão as requisições, extração de informações e funcionando eficientemente. |
id |
UVAT_235e3621479d522431eae61f2aacd532 |
---|---|
oai_identifier_str |
oai:univates.br:10737/3556 |
network_acronym_str |
UVAT |
network_name_str |
Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) |
repository_id_str |
1 |
spelling |
Ahlert, Edson Moacirhttp://lattes.cnpq.br/2547339011790564Pretto, FabrícioDertzbacher, JulianoThums, Bruno Brill2023-07-03T13:52:08Z2023-07-03T13:52:08Z2023-062023-06-29Em meio a inúmeros e-commerces, com produtos vendidos por numerosos vendedores, além da própria plataforma, fica difícil para o consumidor encontrar o melhor preço para o produto que está buscando, exigindo uma árdua pesquisa em vários sites, por meio de uma infinda quantidade de cliques. Este estudo teve como objetivo desenvolver um comparador de preços de produtos de e-commerces, utilizando técnicas de web crawling e web scraping, incorporando a funcionalidade de cashback para impulsionar a economia do consumidor. O foco foi na navegação entre páginas, extração, tratamento, armazenamento e disponibilização das informações. O framework Scrapy foi utilizado para a aplicação destas técnicas. O Scrapy faz requisições aos quatro principais e-commerces definidos pelo autor, resgatando os dados de cada um e armazenando-os localmente em um arquivo CSV. Em seguida, é feita uma requisição ao site comparemania.com.br para resgatar as três melhores ofertas de cashback e as respectivas plataformas, para cada e-commerce. O cálculo do cashback sobre o valor final do produto de cada e-commerce é realizado, e as informações são apresentadas em uma planilha, incluindo informações como, principalmente: o e-commerce anunciante, o vendedor, o valor final, o cashback (de três plataformas) e o valor final com cashback. A obtenção dos dados para cada e-commerce leva 15 segundos, sendo disparadas até 4 requisições no máximo. Os resultados obtidos evidenciaram a importância de aplicar corretamente os fundamentos em cada etapa do projeto. A elaboração e teste das spiders foram cruciais para o aperfeiçoamento do projeto, permitindo ajustes, correções e análises detalhadas da lógica do código. Cada e-commerce apresentou suas peculiaridades, exigindo uma análise cuidadosa do HTML, seleção precisa dos elementos e atributos e desenvolvimento de um código XPath consistente e resistente a modificações. Após um extenso processo de testes, as spiders foram consolidadas, realizando com precisão as requisições, extração de informações e funcionando eficientemente.In the midst of numerous e-commerces, with products sold by numerous sellers, in addition to the platform itself, it is difficult for the consumer to find the best price for the product he is looking for, requiring an arduous search on several sites, through an endless amount of clicks. This study aimed to develop a price comparison tool for e-commerce products, using web crawling and web scraping techniques, incorporating the cashback functionality to boost the consumer's economy. The focus was on navigation between pages, extraction, treatment, storage and availability of information. The Scrapy framework was used to apply these techniques. Scrapy makes requests to the four main e-commerces defined by the author, retrieving data from each one and storing them locally in a CSV file. Then, a request is made to the comparemania.com.br website to redeem the three best cashback offers and the respective platforms, for each e-commerce. The calculation of the cashback on the final value of the product of each e-commerce is carried out, and the information is presented in a spreadsheet, including information such as, mainly: the advertiser e-commerce, the seller, the final value, the cashback (from three platforms) and the final value with cashback. Obtaining data for each e-commerce takes 15 seconds, triggering up to 4 requests at most. The results obtained showed the importance of correctly applying the fundamentals in each stage of the project. The elaboration and testing of the spiders were crucial for the improvement of the project, allowing adjustments, corrections and detailed analysis of the code's logic. Each e-commerce had its peculiarities, requiring careful analysis of the HTML, precise selection of elements and attributes, and development of a consistent XPath code that is resistant to modifications. After an extensive testing process, the spiders were consolidated, accurately performing requests, extracting information and working efficiently.-1THUMS, Bruno Brill. Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces. 2023. Monografia (Graduação em Engenharia da Computação) – Universidade do Vale do Taquari - Univates, Lajeado, 29 jun. 2023. Disponível em: http://hdl.handle.net/10737/3556. http://hdl.handle.net/10737/3556Attribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessCETComparador de sitesWeb scrapingE-commerceSite comparatorAplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commercesinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisporreponame:Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD)instname:Centro Universitário Univates (UNIVATES)instacron:UNIVATESORIGINAL2023BrunoBrillThums.pdf2023BrunoBrillThums.pdfapplication/pdf5607979https://www.univates.br/bdu/bitstreams/982b56af-788e-424d-b3f8-fe6383a86b32/download38b887c66a68e676fdc4a0f7594267acMD51LICENSElicense.txtlicense.txttext/plain1082https://www.univates.br/bdu/bitstreams/42d7a651-2dce-4292-8cdb-1d6a6c483b4e/download01978bf0e057630b32edd4f9d41e68e8MD52CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://www.univates.br/bdu/bitstreams/a775d819-dea8-413e-95d0-ce4559ebd488/download4d2950bda3d176f570a9f8b328dfbbefMD53TEXT2023BrunoBrillThums.pdf.txt2023BrunoBrillThums.pdf.txtExtracted texttext/plain102766https://www.univates.br/bdu/bitstreams/4bbdc2e3-bece-43e8-a45b-012f2aa6c51a/downloadfac86ac7182a0ce89458a1f8dca74e71MD54THUMBNAIL2023BrunoBrillThums.pdf.jpg2023BrunoBrillThums.pdf.jpgGenerated Thumbnailimage/jpeg4544https://www.univates.br/bdu/bitstreams/5aa6aecd-e991-4322-980b-1abd2df90f75/download8c70848bbb38a0fa01b0fd1973d97e37MD5510737/35562023-07-04 03:03:57.743http://creativecommons.org/licenses/by/3.0/br/Attribution 3.0 Braziloai:univates.br:10737/3556https://www.univates.br/bduRepositório InstitucionalPRIhttp://www.univates.br/bdu_oai/requestopendoar:12023-07-04T03:03:57Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) - Centro Universitário Univates (UNIVATES)falseMS4gTyBBVVRPUiBkZWNsYXJhIHF1ZSDDqSB0aXR1bGFyIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBPQlJBIGUgdGVtIHBsZW5hIGRpc3BvbmliaWxpZGFkZSBkb3MgbWVzbW9zLCBleGltaW5kbyBhIFVOSVZBVEVTIGRlIHRvZGEgZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlLjxiciAvPgoyLiBPIEFVVE9SIGRlY2xhcmEgcXVlLCByZWxhdGl2YW1lbnRlIMOgIE9CUkEsIHJlc3BlaXRvdSBvcyBkaXJlaXRvcyBpbnRlbGVjdHVhaXMgZGUgdGVyY2Vpcm9zIGUgY3VtcHJpdSBjb20gYXMgb2JyaWdhw6fDtWVzIGxlZ2FpcyBvdSBjb250cmF0dWFpcyBjb3JyZWxhdGFzLCBleGltaW5kbyBhIFVOSVZBVEVTIGRlIHRvZGEgZSBxdWFscXVlciByZXNwb25zYWJpbGlkYWRlLjxiciAvPgozLiBPIEFVVE9SIGxpY2VuY2lhIGEgcmVwcm9kdcOnw6NvIGdyYXR1aXRhIGVtIGZvcm1hdG8gZGlnaXRhbCBlIGEgZGlzcG9uaWJpbGl6YcOnw6NvIGdyYXR1aXRhIG91IG9uZXJvc2EgZGEgT0JSQSBuYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGEgVW5pdmF0ZXMsIHBhcmEgdG9kb3Mgb3MgdXN1w6FyaW9zLCBuYSBmb3JtYSBkZWZpbmlkYSBwZWxhIFVOSVZBVEVTLCBjaWVudGUgZGUgcXVlIGEgaW5jbHVzw6NvIGRhIE9CUkEgbmEgQmlibGlvdGVjYSBpbXBvcnRhcsOhIHRhbWLDqW0gbm8gbGljZW5jaWFtZW50byBwb3IgbWVpbyBkYSBDcmVhdGl2ZSBDb21tb25zLjxiciAvPgo0LiBBIFVOSVZBVEVTIG5hZGEgZGV2ZXLDoSBhbyBBVVRPUiBwZWxhIHJlcHJvZHXDp8OjbyBlIGRpc3BvbmliaWxpemHDp8OjbyBkYSBPQlJBLCBjb25mb3JtZSBhY2ltYSBwcmV2aXN0bywgbWVzbW8gc2UgbyBhY2Vzc28gZG9zIHVzdcOhcmlvcyBkYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGEgVW5pdmF0ZXMgZm9yIGEgdMOtdHVsbyBvbmVyb3NvLjxiciAvPgo1LiBPIEFVVE9SIGZpY2EgY2llbnRlIGRlIHF1ZSwgZGlzcG9uaWJpbGl6YWRhIGEgT0JSQSBuYSBCaWJsaW90ZWNhIERpZ2l0YWwgZGEgVW5pdmF0ZXMsIG9zIHVzdcOhcmlvcyBwb2RlcsOjbyB1dGlsaXrDoS1sYSBjb25mb3JtZSBhcyBub3JtYXMgZGEgQ3JlYXRpdmUgQ29tbW9ucy4= |
dc.title.none.fl_str_mv |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
title |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
spellingShingle |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces Thums, Bruno Brill CET Comparador de sites Web scraping E-commerce Site comparator |
title_short |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
title_full |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
title_fullStr |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
title_full_unstemmed |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
title_sort |
Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces |
author |
Thums, Bruno Brill |
author_facet |
Thums, Bruno Brill |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Ahlert, Edson Moacir |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/2547339011790564 |
dc.contributor.referee1.fl_str_mv |
Pretto, Fabrício Dertzbacher, Juliano |
dc.contributor.author.fl_str_mv |
Thums, Bruno Brill |
contributor_str_mv |
Ahlert, Edson Moacir Pretto, Fabrício Dertzbacher, Juliano |
dc.subject.cnpq.fl_str_mv |
CET |
topic |
CET Comparador de sites Web scraping E-commerce Site comparator |
dc.subject.por.fl_str_mv |
Comparador de sites Web scraping E-commerce Site comparator |
description |
Em meio a inúmeros e-commerces, com produtos vendidos por numerosos vendedores, além da própria plataforma, fica difícil para o consumidor encontrar o melhor preço para o produto que está buscando, exigindo uma árdua pesquisa em vários sites, por meio de uma infinda quantidade de cliques. Este estudo teve como objetivo desenvolver um comparador de preços de produtos de e-commerces, utilizando técnicas de web crawling e web scraping, incorporando a funcionalidade de cashback para impulsionar a economia do consumidor. O foco foi na navegação entre páginas, extração, tratamento, armazenamento e disponibilização das informações. O framework Scrapy foi utilizado para a aplicação destas técnicas. O Scrapy faz requisições aos quatro principais e-commerces definidos pelo autor, resgatando os dados de cada um e armazenando-os localmente em um arquivo CSV. Em seguida, é feita uma requisição ao site comparemania.com.br para resgatar as três melhores ofertas de cashback e as respectivas plataformas, para cada e-commerce. O cálculo do cashback sobre o valor final do produto de cada e-commerce é realizado, e as informações são apresentadas em uma planilha, incluindo informações como, principalmente: o e-commerce anunciante, o vendedor, o valor final, o cashback (de três plataformas) e o valor final com cashback. A obtenção dos dados para cada e-commerce leva 15 segundos, sendo disparadas até 4 requisições no máximo. Os resultados obtidos evidenciaram a importância de aplicar corretamente os fundamentos em cada etapa do projeto. A elaboração e teste das spiders foram cruciais para o aperfeiçoamento do projeto, permitindo ajustes, correções e análises detalhadas da lógica do código. Cada e-commerce apresentou suas peculiaridades, exigindo uma análise cuidadosa do HTML, seleção precisa dos elementos e atributos e desenvolvimento de um código XPath consistente e resistente a modificações. Após um extenso processo de testes, as spiders foram consolidadas, realizando com precisão as requisições, extração de informações e funcionando eficientemente. |
publishDate |
2023 |
dc.date.submitted.none.fl_str_mv |
2023-06-29 |
dc.date.accessioned.fl_str_mv |
2023-07-03T13:52:08Z |
dc.date.available.fl_str_mv |
2023-07-03T13:52:08Z |
dc.date.issued.fl_str_mv |
2023-06 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
THUMS, Bruno Brill. Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces. 2023. Monografia (Graduação em Engenharia da Computação) – Universidade do Vale do Taquari - Univates, Lajeado, 29 jun. 2023. Disponível em: http://hdl.handle.net/10737/3556. |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10737/3556 |
identifier_str_mv |
THUMS, Bruno Brill. Aplicando técnicas de web scraping e web crawling para comparar preços de produtos de E-commerces. 2023. Monografia (Graduação em Engenharia da Computação) – Universidade do Vale do Taquari - Univates, Lajeado, 29 jun. 2023. Disponível em: http://hdl.handle.net/10737/3556. |
url |
http://hdl.handle.net/10737/3556 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) instname:Centro Universitário Univates (UNIVATES) instacron:UNIVATES |
instname_str |
Centro Universitário Univates (UNIVATES) |
instacron_str |
UNIVATES |
institution |
UNIVATES |
reponame_str |
Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) |
collection |
Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) |
bitstream.url.fl_str_mv |
https://www.univates.br/bdu/bitstreams/982b56af-788e-424d-b3f8-fe6383a86b32/download https://www.univates.br/bdu/bitstreams/42d7a651-2dce-4292-8cdb-1d6a6c483b4e/download https://www.univates.br/bdu/bitstreams/a775d819-dea8-413e-95d0-ce4559ebd488/download https://www.univates.br/bdu/bitstreams/4bbdc2e3-bece-43e8-a45b-012f2aa6c51a/download https://www.univates.br/bdu/bitstreams/5aa6aecd-e991-4322-980b-1abd2df90f75/download |
bitstream.checksum.fl_str_mv |
38b887c66a68e676fdc4a0f7594267ac 01978bf0e057630b32edd4f9d41e68e8 4d2950bda3d176f570a9f8b328dfbbef fac86ac7182a0ce89458a1f8dca74e71 8c70848bbb38a0fa01b0fd1973d97e37 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UNIVATES (Biblioteca Digital da Univates - BD) - Centro Universitário Univates (UNIVATES) |
repository.mail.fl_str_mv |
|
_version_ |
1813262411639029760 |