Ferramenta de web scraping para produtos e-commerce

Detalhes bibliográficos
Autor(a) principal: Campos, Alexandre Ricardo de
Data de Publicação: 2021
Tipo de documento: Trabalho de conclusão de curso
Idioma: por
Título da fonte: Biblioteca Digital de Teses e Dissertações da PUC_SP
Texto Completo: https://repositorio.pucsp.br/jspui/handle/handle/42573
Resumo: The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysis
id PUC_SP-1_deda5238b3fe10d4259b1f6d6b27e505
oai_identifier_str oai:repositorio.pucsp.br:handle/42573
network_acronym_str PUC_SP-1
network_name_str Biblioteca Digital de Teses e Dissertações da PUC_SP
repository_id_str
spelling Morgado, Flaviohttp://lattes.cnpq.br/9168856141182145Campos, Alexandre Ricardo de2024-08-21T19:04:18Z2024-08-21T19:04:18Z2021-08-12Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.https://repositorio.pucsp.br/jspui/handle/handle/42573The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysisA utilização da internet é cada vez mais frequente no cotidiano das pessoas. Em particular, o e-commerce vem gradualmente se consolidando como um segmento de transação comercial altamente popular. Este imenso mercado digital é objeto de estudo para diversas implementações tecnológicas. A coleta de dados, ou scraping, permite a extração de dados dos sites de e-commerce, convertendo-os em informação estruturada, para os mais diversos tipos de análises. Aplicativos de scraping com funcionalidades específicas tendem-se a se tornar softwares proprietários e de difícil utilização didática. Este trabalho desenvolveu um protótipo de scraping de produtos de e-commerce, com código aberto, personalizável, escalável e que demonstra todas as áreas de estudo envolvidas. O trabalho descreveu a estrutura e os componentes de um site de e-commerce, os componentes de um web scraping em duas perspectivas diferentes e a manipulação da comunicação entre o protótipo e os sites. Foram descritas e implementadas as técnicas de CSS Selectors, para o scraping de dados, e de parsing de API JSON, além de uma base em código aberto para um usuário utilizar qualquer outra técnica, se desejar. As funcionalidades desenvolvidas são: cadastro e configuração personalizável de cada scraper, teste de scraper, execução de scraper, consulta dos dados obtidos em relatórios e em comparação de preço. O estudo testou a hipótese de que o paralelismo computacional melhora a performance da coleta de dados. Após a implementação, os testes demonstraram que quanto mais processos forem utilizados, menor o tempo de execução, embora a diferença entre cada performance diminua à medida que mais processos são adicionados. De maneira geral, este estudo propiciou descrever o funcionamento de um web scraper desde a concepção até a análise dos dados.porPontifícia Universidade Católica de São PauloGraduação em Ciência da ComputaçãoPUC-SPBrasilFaculdade de Ciências Exatas e TecnologiaCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOE-commerceWeb scrapingArquitetura da informaçãoDOMCSS SelectorsE-commerceWeb scrapingInformation ArchitectureDOMCSS SelectorsParallel computingFerramenta de web scraping para produtos e-commerceinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da PUC_SPinstname:Pontifícia Universidade Católica de São Paulo (PUC-SP)instacron:PUC_SPORIGINALTCC_Alexandre_Final_Flavio Morgado.pdfapplication/pdf3811958https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/1/TCC_Alexandre_Final_Flavio%20Morgado.pdf5a7839acfd15cc4fcc3205a11f7a3643MD51TEXTTCC_Alexandre_Final_Flavio Morgado.pdf.txtTCC_Alexandre_Final_Flavio Morgado.pdf.txtExtracted texttext/plain109867https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/2/TCC_Alexandre_Final_Flavio%20Morgado.pdf.txt6a53930479a6f9fbdff1d0931dcc1f3cMD52THUMBNAILTCC_Alexandre_Final_Flavio Morgado.pdf.jpgTCC_Alexandre_Final_Flavio Morgado.pdf.jpgGenerated Thumbnailimage/jpeg1184https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/3/TCC_Alexandre_Final_Flavio%20Morgado.pdf.jpga2d9f3f30289b5d63c5b49f16e293387MD53handle/425732024-08-22 01:06:43.195oai:repositorio.pucsp.br:handle/42573Biblioteca Digital de Teses e Dissertaçõeshttps://sapientia.pucsp.br/https://sapientia.pucsp.br/oai/requestbngkatende@pucsp.br||rapassi@pucsp.bropendoar:2024-08-22T04:06:43Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP)false
dc.title.pt_BR.fl_str_mv Ferramenta de web scraping para produtos e-commerce
title Ferramenta de web scraping para produtos e-commerce
spellingShingle Ferramenta de web scraping para produtos e-commerce
Campos, Alexandre Ricardo de
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
E-commerce
Web scraping
Arquitetura da informação
DOM
CSS Selectors
E-commerce
Web scraping
Information Architecture
DOM
CSS Selectors
Parallel computing
title_short Ferramenta de web scraping para produtos e-commerce
title_full Ferramenta de web scraping para produtos e-commerce
title_fullStr Ferramenta de web scraping para produtos e-commerce
title_full_unstemmed Ferramenta de web scraping para produtos e-commerce
title_sort Ferramenta de web scraping para produtos e-commerce
author Campos, Alexandre Ricardo de
author_facet Campos, Alexandre Ricardo de
author_role author
dc.contributor.advisor1.fl_str_mv Morgado, Flavio
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/9168856141182145
dc.contributor.author.fl_str_mv Campos, Alexandre Ricardo de
contributor_str_mv Morgado, Flavio
dc.subject.cnpq.fl_str_mv CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
topic CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO
E-commerce
Web scraping
Arquitetura da informação
DOM
CSS Selectors
E-commerce
Web scraping
Information Architecture
DOM
CSS Selectors
Parallel computing
dc.subject.por.fl_str_mv E-commerce
Web scraping
Arquitetura da informação
DOM
CSS Selectors
dc.subject.eng.fl_str_mv E-commerce
Web scraping
Information Architecture
DOM
CSS Selectors
Parallel computing
description The use of the internet is increasingly frequent in people's daily lives. In particular, e-commerce has gradually established itself as a highly popular business transaction segment. This huge digital market is object of study for several technological implementations. Scraping allows the extraction of data from e-commerce sites, converting them into structured information for the most diverse types of analysis. Scraping applications with specific functionality tend to become proprietary software and difficult to use for teaching. This work developed a prototype for scraping e-commerce products, with open source, customizable, scalable and that demonstrates all areas of study involved. The work described the structure and components of an e-commerce site, the components of a web scraping from two different perspectives and the manipulation of communication between the prototype and the sites. CSS Selectors techniques for data scraping and JSON API parsing were described and implemented, as well as an open-source base for a user to use any other technique, if desired. The features developed are registration and customizable configuration of each scraper, scraper testing, scraper execution, consultation of product data obtained in reports and in price comparison. The study tested the hypothesis that computational parallelism improves data collection performance. After implementation, the scrapers execution tests showed that the more processes are used, the lower the execution time, although the difference between each performance decreases as more processes are added. In general, this study provided a description of the functioning of a web scraper from conception to data analysis
publishDate 2021
dc.date.issued.fl_str_mv 2021-08-12
dc.date.accessioned.fl_str_mv 2024-08-21T19:04:18Z
dc.date.available.fl_str_mv 2024-08-21T19:04:18Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.citation.fl_str_mv Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.
dc.identifier.uri.fl_str_mv https://repositorio.pucsp.br/jspui/handle/handle/42573
identifier_str_mv Campos, Alexandre Ricardo de. Ferramenta de web scraping para produtos e-commerce. 2021. Trabalho de Conclusão de Curso (Graduação em Ciência da Computação) - Faculdade de Ciências Exatas e Tecnologia da Pontifícia Universidade Católica de São Paulo, São Paulo, 2021.
url https://repositorio.pucsp.br/jspui/handle/handle/42573
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Pontifícia Universidade Católica de São Paulo
dc.publisher.program.fl_str_mv Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv PUC-SP
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv Faculdade de Ciências Exatas e Tecnologia
publisher.none.fl_str_mv Pontifícia Universidade Católica de São Paulo
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da PUC_SP
instname:Pontifícia Universidade Católica de São Paulo (PUC-SP)
instacron:PUC_SP
instname_str Pontifícia Universidade Católica de São Paulo (PUC-SP)
instacron_str PUC_SP
institution PUC_SP
reponame_str Biblioteca Digital de Teses e Dissertações da PUC_SP
collection Biblioteca Digital de Teses e Dissertações da PUC_SP
bitstream.url.fl_str_mv https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/1/TCC_Alexandre_Final_Flavio%20Morgado.pdf
https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/2/TCC_Alexandre_Final_Flavio%20Morgado.pdf.txt
https://repositorio.pucsp.br/xmlui/bitstream/handle/42573/3/TCC_Alexandre_Final_Flavio%20Morgado.pdf.jpg
bitstream.checksum.fl_str_mv 5a7839acfd15cc4fcc3205a11f7a3643
6a53930479a6f9fbdff1d0931dcc1f3c
a2d9f3f30289b5d63c5b49f16e293387
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da PUC_SP - Pontifícia Universidade Católica de São Paulo (PUC-SP)
repository.mail.fl_str_mv bngkatende@pucsp.br||rapassi@pucsp.br
_version_ 1809277812572422144