Learning to schedule web page updates using genetic programming

Detalhes bibliográficos
Autor(a) principal: Aécio Solano Rodrigues Santos
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/ESBF-97GJSQ
Resumo: Um dos principais desafios enfrentados durante o desenvolvimento de políticas de escalonamento para atualizações de páginas web é estimar a probabilidade de uma página que já foi coletada previamente ser modificada na Web. Esta informação pode ser usada pelo escalonador de um coletor de páginas web para determinar a ordem na qual as páginas devem ser recoletadas, permitindo ao sistema reduzir o custo total de monitoramento das páginas coletadas para mantê-las atualizadas. Nesta dissertação é apresentada uma nova abordagem que usa aprendizado de máquina para gerar funções de score que produzem listas ordenadas de páginas com relação a probabilidade deterem sido modificadas na Web quando comparado com a última versão coletada. É proposto um arcabouço flexível que usa Programação Genética para evoluir funções que estimam a probabilidade de a página ter sido modificada. É apresentado ainda uma avaliação experimental dos benefícios de usar o arcabouço proposto em relação a cinco abordagens estado-da-arte. Considerando a métrica Change Ratio, os valores produzidos pela melhor função gerada pelo arcabouço proposto mostram uma melhora de 0.52 para 0.71, em média, em relação aos baselines.
id UFMG_e81a2f242dc9f7c14dcb8337f2dae633
oai_identifier_str oai:repositorio.ufmg.br:1843/ESBF-97GJSQ
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Nivio ZivianiEdleno Silva de MouraWagner Meira JuniorAna Carolina Brandao SalgadoAécio Solano Rodrigues Santos2019-08-12T08:06:19Z2019-08-12T08:06:19Z2013-03-11http://hdl.handle.net/1843/ESBF-97GJSQUm dos principais desafios enfrentados durante o desenvolvimento de políticas de escalonamento para atualizações de páginas web é estimar a probabilidade de uma página que já foi coletada previamente ser modificada na Web. Esta informação pode ser usada pelo escalonador de um coletor de páginas web para determinar a ordem na qual as páginas devem ser recoletadas, permitindo ao sistema reduzir o custo total de monitoramento das páginas coletadas para mantê-las atualizadas. Nesta dissertação é apresentada uma nova abordagem que usa aprendizado de máquina para gerar funções de score que produzem listas ordenadas de páginas com relação a probabilidade deterem sido modificadas na Web quando comparado com a última versão coletada. É proposto um arcabouço flexível que usa Programação Genética para evoluir funções que estimam a probabilidade de a página ter sido modificada. É apresentado ainda uma avaliação experimental dos benefícios de usar o arcabouço proposto em relação a cinco abordagens estado-da-arte. Considerando a métrica Change Ratio, os valores produzidos pela melhor função gerada pelo arcabouço proposto mostram uma melhora de 0.52 para 0.71, em média, em relação aos baselines.One of the main challenges endured when designing a scheduling policy regarding freshness is to estimate the likelihood of a previously crawled web page being modified on the web, so that the scheduler can use this estimation to determine the order in which those pages should be visited. A good estimation of which pages have more chance of being modified allows the system to reduce the overall cost of monitoring its crawled web pages for keeping updated versions. In this work we present a novel approach that uses machine learning to generate score functions that produce accurate rankings of pages regarding their probability of being modified on the Web when compared to their previously crawled versions. We propose a flexible framework that uses Genetic Programming to evolve score functions to estimate the likelihood that a web page has been modified. We present a thorough experimental evaluation of the benefits of using the framework over five state-of-the-art baselines. Considering the Change Ratio metric, the values produced by our best evolved function show an improvement from 0.52 to 0.71 on average over the baselines.Universidade Federal de Minas GeraisUFMGProgramação genética (Computação)ComputaçãoSistemas de recuperação da informaçãoColeta incremental de páginas webProgramação genéticaPolíticas de escalonamentoLearning to schedule web page updates using genetic programminginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALaecio_solano_rodrigues_santos.pdfapplication/pdf604687https://repositorio.ufmg.br/bitstream/1843/ESBF-97GJSQ/1/aecio_solano_rodrigues_santos.pdf83633ff094e14eb442be2920f97ccbd1MD51TEXTaecio_solano_rodrigues_santos.pdf.txtaecio_solano_rodrigues_santos.pdf.txtExtracted texttext/plain94435https://repositorio.ufmg.br/bitstream/1843/ESBF-97GJSQ/2/aecio_solano_rodrigues_santos.pdf.txtd7daa643e67745dc931a4afce8523451MD521843/ESBF-97GJSQ2019-11-14 13:57:18.298oai:repositorio.ufmg.br:1843/ESBF-97GJSQRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T16:57:18Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Learning to schedule web page updates using genetic programming
title Learning to schedule web page updates using genetic programming
spellingShingle Learning to schedule web page updates using genetic programming
Aécio Solano Rodrigues Santos
Coleta incremental de páginas web
Programação genética
Políticas de escalonamento
Programação genética (Computação)
Computação
Sistemas de recuperação da informação
title_short Learning to schedule web page updates using genetic programming
title_full Learning to schedule web page updates using genetic programming
title_fullStr Learning to schedule web page updates using genetic programming
title_full_unstemmed Learning to schedule web page updates using genetic programming
title_sort Learning to schedule web page updates using genetic programming
author Aécio Solano Rodrigues Santos
author_facet Aécio Solano Rodrigues Santos
author_role author
dc.contributor.advisor1.fl_str_mv Nivio Ziviani
dc.contributor.referee1.fl_str_mv Edleno Silva de Moura
dc.contributor.referee2.fl_str_mv Wagner Meira Junior
dc.contributor.referee3.fl_str_mv Ana Carolina Brandao Salgado
dc.contributor.author.fl_str_mv Aécio Solano Rodrigues Santos
contributor_str_mv Nivio Ziviani
Edleno Silva de Moura
Wagner Meira Junior
Ana Carolina Brandao Salgado
dc.subject.por.fl_str_mv Coleta incremental de páginas web
Programação genética
Políticas de escalonamento
topic Coleta incremental de páginas web
Programação genética
Políticas de escalonamento
Programação genética (Computação)
Computação
Sistemas de recuperação da informação
dc.subject.other.pt_BR.fl_str_mv Programação genética (Computação)
Computação
Sistemas de recuperação da informação
description Um dos principais desafios enfrentados durante o desenvolvimento de políticas de escalonamento para atualizações de páginas web é estimar a probabilidade de uma página que já foi coletada previamente ser modificada na Web. Esta informação pode ser usada pelo escalonador de um coletor de páginas web para determinar a ordem na qual as páginas devem ser recoletadas, permitindo ao sistema reduzir o custo total de monitoramento das páginas coletadas para mantê-las atualizadas. Nesta dissertação é apresentada uma nova abordagem que usa aprendizado de máquina para gerar funções de score que produzem listas ordenadas de páginas com relação a probabilidade deterem sido modificadas na Web quando comparado com a última versão coletada. É proposto um arcabouço flexível que usa Programação Genética para evoluir funções que estimam a probabilidade de a página ter sido modificada. É apresentado ainda uma avaliação experimental dos benefícios de usar o arcabouço proposto em relação a cinco abordagens estado-da-arte. Considerando a métrica Change Ratio, os valores produzidos pela melhor função gerada pelo arcabouço proposto mostram uma melhora de 0.52 para 0.71, em média, em relação aos baselines.
publishDate 2013
dc.date.issued.fl_str_mv 2013-03-11
dc.date.accessioned.fl_str_mv 2019-08-12T08:06:19Z
dc.date.available.fl_str_mv 2019-08-12T08:06:19Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/ESBF-97GJSQ
url http://hdl.handle.net/1843/ESBF-97GJSQ
dc.language.iso.fl_str_mv por
language por
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv UFMG
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/ESBF-97GJSQ/1/aecio_solano_rodrigues_santos.pdf
https://repositorio.ufmg.br/bitstream/1843/ESBF-97GJSQ/2/aecio_solano_rodrigues_santos.pdf.txt
bitstream.checksum.fl_str_mv 83633ff094e14eb442be2920f97ccbd1
d7daa643e67745dc931a4afce8523451
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589520157835264