Extração de dados de produtos em páginas de comércio eletrônico

Detalhes bibliográficos
Autor(a) principal: Godoy, Lucas Antonio Toledo [UNESP]
Data de Publicação: 2015
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UNESP
Texto Completo: http://hdl.handle.net/11449/127761
http://www.athena.biblioteca.unesp.br/exlibris/bd/cathedra/14-09-2015/000845512.pdf
Resumo: Web data extraction is an imp ortant issue which started b ecoming a strong line of study in the mid 90s. A sub domain of that category of study is the pro duct data extraction from online sales pages, given the wealth of information provided by stores through their websites. Data extraction of pro ducts contained in these kind of pages, like pro duct name and prices, enables the creation of a wide variety of other to ols that are able to use such data in order to provide a semantic interpretation to them, such as prices comparison among different stores and consumption habits analysis. Several approaches have b een applied to reach the target data extraction from Web pages. These approaches, in turn, use a wide range of techniques to reach their goals, and Tree Matching technique has great prominence due to its go o d results. This dissertation aimed to implement and evaluate the Tree Matching technique for the extraction of pro duct data, sp ecifically the pro duct name, its price and, p erhaps, the promotional price, on e-commerce pages, in order to determine its applicability to a commercial system. Improvements have b een prop osed to the extraction pro cess in order to reduce the resp onse time and increase the accuracy of the Generalized Simple Tree Matching algorithm. Experimental results demonstrated that the extraction process got an accuracy of about 93.6% on pages contained in Ecommerce Database and an average gain in response time of about 36% when the pages were reduced by the methods proposed in this study
id UNSP_7adab8e29eb7b0bbe5bf39312c15b526
oai_identifier_str oai:repositorio.unesp.br:11449/127761
network_acronym_str UNSP
network_name_str Repositório Institucional da UNESP
repository_id_str 2946
spelling Extração de dados de produtos em páginas de comércio eletrônicoComputação - MatematicaWorld Wide Web (Sistema de recuperação da informação)Comércio eletrônicoAlgoritmos de computadorWeb data extraction is an imp ortant issue which started b ecoming a strong line of study in the mid 90s. A sub domain of that category of study is the pro duct data extraction from online sales pages, given the wealth of information provided by stores through their websites. Data extraction of pro ducts contained in these kind of pages, like pro duct name and prices, enables the creation of a wide variety of other to ols that are able to use such data in order to provide a semantic interpretation to them, such as prices comparison among different stores and consumption habits analysis. Several approaches have b een applied to reach the target data extraction from Web pages. These approaches, in turn, use a wide range of techniques to reach their goals, and Tree Matching technique has great prominence due to its go o d results. This dissertation aimed to implement and evaluate the Tree Matching technique for the extraction of pro duct data, sp ecifically the pro duct name, its price and, p erhaps, the promotional price, on e-commerce pages, in order to determine its applicability to a commercial system. Improvements have b een prop osed to the extraction pro cess in order to reduce the resp onse time and increase the accuracy of the Generalized Simple Tree Matching algorithm. Experimental results demonstrated that the extraction process got an accuracy of about 93.6% on pages contained in Ecommerce Database and an average gain in response time of about 36% when the pages were reduced by the methods proposed in this studyA extração de dados em páginas Web é um imp ortante problema que começou a ganhar força a partir da metade da década de 90. Um dos sub domínios dessa categoria de extração de dados p ossui como fo co os pro dutos em páginas de vendas online, dada a riqueza de informações disponibilizadas pelas lojas de e-commerce, ou comércio eletrônico, em seus portais de vendas. A extração dos dados dos produtos contidos nessas páginas, como nomes e preços, permite a criação de uma grande variedade de outras ferramentas que façam uso de tais dados com o objetivo de fornecer uma interpretação semântica a eles, como comparações entre preços praticados por diferentes lojas ou análises de hábitos de consumo. Diversas abordagens têm sido empregadas para se chegar à correta extração dos dados de interesse das páginas, fazendo uso de uma gama variada de técnicas para alcançarem seus objetivos, sendo que a técnica de Tree Matching apresenta grande destaque devido aos bons resultados. Este trabalho teve como objetivo implementar e avaliar o uso da técnica de Tree Matching para a extração de dados de produtos, especificamente o nome do produto, seu preço e, porventura, o preço promocional, em páginas de comércio eletrônico, a fim de determinar sua aplicabilidade a um sistema comercial. Foram propostas melhorias ao processo de extração com a finalidade de reduzir o tempo de resposta e aumentar a acurácia do algoritmo Generalized Simple Tree Matching. Resultados experimentais demonstraram uma precisão na extração dos dados de produtos na ordem de 93.6% sobre as páginas contidas na base Ecommerce DB e um ganho médio no tempo de resposta na ordem de 36% quando as páginas são reduzidas pelos métodos propostos neste trabalhoUniversidade Estadual Paulista (Unesp)Guilherme, Ivan Rizzo [UNESP]Pedronette, Daniel C. G. [UNESP]Universidade Estadual Paulista (Unesp)Godoy, Lucas Antonio Toledo [UNESP]2015-09-17T15:25:27Z2015-09-17T15:25:27Z2015-02-26info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesis103 f. : il.application/pdfGODOY, Lucas Antonio Toledo. Extração de dados de produtos em páginas de comércio eletrônico. 2015. 103 f. Dissertação (mestrado) - Universidade Estadual Paulista Julio de Mesquita Filho, Instituto de Biociências, Letras e Ciências Exatas, 2015.http://hdl.handle.net/11449/127761000845512http://www.athena.biblioteca.unesp.br/exlibris/bd/cathedra/14-09-2015/000845512.pdf33004153073P2Alephreponame:Repositório Institucional da UNESPinstname:Universidade Estadual Paulista (UNESP)instacron:UNESPporinfo:eu-repo/semantics/openAccess2024-01-07T06:27:58Zoai:repositorio.unesp.br:11449/127761Repositório InstitucionalPUBhttp://repositorio.unesp.br/oai/requestopendoar:29462024-08-05T22:21:27.489346Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)false
dc.title.none.fl_str_mv Extração de dados de produtos em páginas de comércio eletrônico
title Extração de dados de produtos em páginas de comércio eletrônico
spellingShingle Extração de dados de produtos em páginas de comércio eletrônico
Godoy, Lucas Antonio Toledo [UNESP]
Computação - Matematica
World Wide Web (Sistema de recuperação da informação)
Comércio eletrônico
Algoritmos de computador
title_short Extração de dados de produtos em páginas de comércio eletrônico
title_full Extração de dados de produtos em páginas de comércio eletrônico
title_fullStr Extração de dados de produtos em páginas de comércio eletrônico
title_full_unstemmed Extração de dados de produtos em páginas de comércio eletrônico
title_sort Extração de dados de produtos em páginas de comércio eletrônico
author Godoy, Lucas Antonio Toledo [UNESP]
author_facet Godoy, Lucas Antonio Toledo [UNESP]
author_role author
dc.contributor.none.fl_str_mv Guilherme, Ivan Rizzo [UNESP]
Pedronette, Daniel C. G. [UNESP]
Universidade Estadual Paulista (Unesp)
dc.contributor.author.fl_str_mv Godoy, Lucas Antonio Toledo [UNESP]
dc.subject.por.fl_str_mv Computação - Matematica
World Wide Web (Sistema de recuperação da informação)
Comércio eletrônico
Algoritmos de computador
topic Computação - Matematica
World Wide Web (Sistema de recuperação da informação)
Comércio eletrônico
Algoritmos de computador
description Web data extraction is an imp ortant issue which started b ecoming a strong line of study in the mid 90s. A sub domain of that category of study is the pro duct data extraction from online sales pages, given the wealth of information provided by stores through their websites. Data extraction of pro ducts contained in these kind of pages, like pro duct name and prices, enables the creation of a wide variety of other to ols that are able to use such data in order to provide a semantic interpretation to them, such as prices comparison among different stores and consumption habits analysis. Several approaches have b een applied to reach the target data extraction from Web pages. These approaches, in turn, use a wide range of techniques to reach their goals, and Tree Matching technique has great prominence due to its go o d results. This dissertation aimed to implement and evaluate the Tree Matching technique for the extraction of pro duct data, sp ecifically the pro duct name, its price and, p erhaps, the promotional price, on e-commerce pages, in order to determine its applicability to a commercial system. Improvements have b een prop osed to the extraction pro cess in order to reduce the resp onse time and increase the accuracy of the Generalized Simple Tree Matching algorithm. Experimental results demonstrated that the extraction process got an accuracy of about 93.6% on pages contained in Ecommerce Database and an average gain in response time of about 36% when the pages were reduced by the methods proposed in this study
publishDate 2015
dc.date.none.fl_str_mv 2015-09-17T15:25:27Z
2015-09-17T15:25:27Z
2015-02-26
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv GODOY, Lucas Antonio Toledo. Extração de dados de produtos em páginas de comércio eletrônico. 2015. 103 f. Dissertação (mestrado) - Universidade Estadual Paulista Julio de Mesquita Filho, Instituto de Biociências, Letras e Ciências Exatas, 2015.
http://hdl.handle.net/11449/127761
000845512
http://www.athena.biblioteca.unesp.br/exlibris/bd/cathedra/14-09-2015/000845512.pdf
33004153073P2
identifier_str_mv GODOY, Lucas Antonio Toledo. Extração de dados de produtos em páginas de comércio eletrônico. 2015. 103 f. Dissertação (mestrado) - Universidade Estadual Paulista Julio de Mesquita Filho, Instituto de Biociências, Letras e Ciências Exatas, 2015.
000845512
33004153073P2
url http://hdl.handle.net/11449/127761
http://www.athena.biblioteca.unesp.br/exlibris/bd/cathedra/14-09-2015/000845512.pdf
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv 103 f. : il.
application/pdf
dc.publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
publisher.none.fl_str_mv Universidade Estadual Paulista (Unesp)
dc.source.none.fl_str_mv Aleph
reponame:Repositório Institucional da UNESP
instname:Universidade Estadual Paulista (UNESP)
instacron:UNESP
instname_str Universidade Estadual Paulista (UNESP)
instacron_str UNESP
institution UNESP
reponame_str Repositório Institucional da UNESP
collection Repositório Institucional da UNESP
repository.name.fl_str_mv Repositório Institucional da UNESP - Universidade Estadual Paulista (UNESP)
repository.mail.fl_str_mv
_version_ 1808129419602034688