Ferramenta de web scraping para produtos e-commerce
Autor(a) principal: | |
---|---|
Data de Publicação: | 2021 |
Tipo de documento: | Trabalho de conclusão de curso |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da PUC_SP |
Texto Completo: | https://repositorio.pucsp.br/jspui/handle/handle/42573 |
Resumo: | The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysis |
id |
PUC_SP-1_deda5238b3fe10d4259b1f6d6b27e505 |
---|---|
oai_identifier_str |
oai:repositorio.pucsp.br:handle/42573 |
network_acronym_str |
PUC_SP-1 |
network_name_str |
Biblioteca Digital de Teses e Dissertações da PUC_SP |
repository_id_str |
|
spelling |
Morgado, Flaviohttp://lattes.cnpq.br/9168856141182145Campos, Alexandre Ricardo de2024-08-21T19:04:18Z2024-08-21T19:04:18Z2021-08-12Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.https://repositorio.pucsp.br/jspui/handle/handle/42573The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysisA utilização da internet é cada vez mais frequente no cotidiano das pessoas. Em particular, o e-commerce vem gradualmente se consolidando como um segmento de transação comercial altamente popular. Este imenso mercado digital é objeto de estudo para diversas implementações tecnológicas. A coleta de dados, ou scraping, permite a extração de dados dos sites de e-commerce, convertendo-os em informação estruturada, para os mais diversos tipos de análises. Aplicativos de scraping com funcionalidades específicas tendem-se a se tornar softwares proprietários e de difícil utilização didática. Este trabalho desenvolveu um protótipo de scraping de produtos de e-commerce, com código aberto, personalizável, escalável e que demonstra todas as áreas de estudo envolvidas. O trabalho descreveu a estrutura e os componentes de um site de e-commerce, os componentes de um web scraping em duas perspectivas diferentes e a manipulação da comunicação entre o protótipo e os sites. Foram descritas e implementadas as técnicas de CSS Selectors, para o scraping de dados, e de parsing de API JSON, além de uma base em código aberto para um usuário utilizar qualquer outra técnica, se desejar. As funcionalidades desenvolvidas são: cadastro e configuração personalizável de cada scraper, teste de scraper, execução de scraper, consulta dos dados obtidos em relatórios e em comparação de preço. O estudo testou a hipótese de que o paralelismo computacional melhora a performance da coleta de dados. Após a implementação, os testes demonstraram que quanto mais processos forem utilizados, menor o tempo de execução, embora a diferença entre cada performance diminua à medida que mais processos são adicionados. De maneira geral, este estudo propiciou descrever o funcionamento de um web scraper desde a concepção até a análise dos dados.porPontifícia Universidade Católica de São PauloGraduação em Ciência da ComputaçãoPUC-SPBrasilFaculdade de Ciências Exatas e TecnologiaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOE-commerceWeb scrapingArquitetura da informaçãoDOMCSS SelectorsE-commerceWeb scrapingInformation ArchitectureDOMCSS SelectorsParallel computingFerramenta de web scraping para produtos e-commerceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_SPinstname:Pontifícia Universidade Católica de São Paulo (PUC-SP)instacron:PUC_SPORIGINALTCC_Alexandre_Final_Flavio Morgado.pdfapplication/pdf3811958https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/1/TCC_Alexandre_Final_Flavio%20Morgado.pdf5a7839acfd15cc4fcc3205a11f7a3643MD51TEXTTCC_Alexandre_Final_Flavio Morgado.pdf.txtTCC_Alexandre_Final_Flavio Morgado.pdf.txtExtracted texttext/plain109867https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/2/TCC_Alexandre_Final_Flavio%20Morgado.pdf.txt6a53930479a6f9fbdff1d0931dcc1f3cMD52THUMBNAILTCC_Alexandre_Final_Flavio Morgado.pdf.jpgTCC_Alexandre_Final_Flavio Morgado.pdf.jpgGenerated Thumbnailimage/jpeg1184https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/3/TCC_Alexandre_Final_Flavio%20Morgado.pdf.jpga2d9f3f30289b5d63c5b49f16e293387MD53handle/425732024-08-22 01:06:43.195oai:repositorio.pucsp.br:handle/42573Biblioteca Digital de Teses e Dissertaçõeshttps://sapientia.pucsp.br/https://sapientia.pucsp.br/oai/requestbngkatende@pucsp.br||rapassi@pucsp.bropendoar:2024-08-22T04:06:43Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP)false |
dc.title.pt_BR.fl_str_mv |
Ferramenta de web scraping para produtos e-commerce |
title |
Ferramenta de web scraping para produtos e-commerce |
spellingShingle |
Ferramenta de web scraping para produtos e-commerce Campos, Alexandre Ricardo de CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO E-commerce Web scraping Arquitetura da informação DOM CSS Selectors E-commerce Web scraping Information Architecture DOM CSS Selectors Parallel computing |
title_short |
Ferramenta de web scraping para produtos e-commerce |
title_full |
Ferramenta de web scraping para produtos e-commerce |
title_fullStr |
Ferramenta de web scraping para produtos e-commerce |
title_full_unstemmed |
Ferramenta de web scraping para produtos e-commerce |
title_sort |
Ferramenta de web scraping para produtos e-commerce |
author |
Campos, Alexandre Ricardo de |
author_facet |
Campos, Alexandre Ricardo de |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Morgado, Flavio |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/9168856141182145 |
dc.contributor.author.fl_str_mv |
Campos, Alexandre Ricardo de |
contributor_str_mv |
Morgado, Flavio |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO E-commerce Web scraping Arquitetura da informação DOM CSS Selectors E-commerce Web scraping Information Architecture DOM CSS Selectors Parallel computing |
dc.subject.por.fl_str_mv |
E-commerce Web scraping Arquitetura da informação DOM CSS Selectors |
dc.subject.eng.fl_str_mv |
E-commerce Web scraping Information Architecture DOM CSS Selectors Parallel computing |
description |
The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysis |
publishDate |
2021 |
dc.date.issued.fl_str_mv |
2021-08-12 |
dc.date.accessioned.fl_str_mv |
2024-08-21T19:04:18Z |
dc.date.available.fl_str_mv |
2024-08-21T19:04:18Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/bachelorThesis |
format |
bachelorThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021. |
dc.identifier.uri.fl_str_mv |
https://repositorio.pucsp.br/jspui/handle/handle/42573 |
identifier_str_mv |
Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021. |
url |
https://repositorio.pucsp.br/jspui/handle/handle/42573 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Pontifícia Universidade Católica de São Paulo |
dc.publisher.program.fl_str_mv |
Graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
PUC-SP |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
Faculdade de Ciências Exatas e Tecnologia |
publisher.none.fl_str_mv |
Pontifícia Universidade Católica de São Paulo |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da PUC_SP instname:Pontifícia Universidade Católica de São Paulo (PUC-SP) instacron:PUC_SP |
instname_str |
Pontifícia Universidade Católica de São Paulo (PUC-SP) |
instacron_str |
PUC_SP |
institution |
PUC_SP |
reponame_str |
Biblioteca Digital de Teses e Dissertações da PUC_SP |
collection |
Biblioteca Digital de Teses e Dissertações da PUC_SP |
bitstream.url.fl_str_mv |
https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/1/TCC_Alexandre_Final_Flavio%20Morgado.pdf https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/2/TCC_Alexandre_Final_Flavio%20Morgado.pdf.txt https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/3/TCC_Alexandre_Final_Flavio%20Morgado.pdf.jpg |
bitstream.checksum.fl_str_mv |
5a7839acfd15cc4fcc3205a11f7a3643 6a53930479a6f9fbdff1d0931dcc1f3c a2d9f3f30289b5d63c5b49f16e293387 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP) |
repository.mail.fl_str_mv |
bngkatende@pucsp.br||rapassi@pucsp.br |
_version_ |
1809277812572422144 |