Uma abordagem baseada em gênero para coleta temática de páginas da web

Guilherme Tavares de Assis

Uma abordagem baseada em gênero para coleta temática de páginas da web

Detalhes bibliográficos
Autor(a) principal:	Guilherme Tavares de Assis
Data de Publicação:	2008
Tipo de documento:	Tese
Idioma:	por
Título da fonte:	Repositório Institucional da UFMG
Texto Completo:	http://hdl.handle.net/1843/RVMR-7K6PEN
Resumo:	Coletores temáticos apresentam o propósito maior de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário, sendo importantes para uma grande variedade de aplicações. Em geral, eles funcionam tentando localizar e coletar todos os tipos de páginas que estejam relacionadas a um determinado tópico de interesse. Contudo, alguns usuários podem não estar simplesmente interessados em algum documento sobre um tópico; na verdade, podem estar interessados em recuperar documentos de um determinado estilo ou gênero referente ao tópico. Nesta tese, descrevemos uma abordagem para coleta temática que explora não somente informação relacionada ao conteúdo, mas também informação de gênero presente em páginas Web para guiar o processo de coleta. Essa abordagem foi projetada para situações em que o tópico específico de interesse pode ser expresso por dois conjuntos de termos: o primeiro conjunto descrevendo aspectos de gênero das páginas desejadas e o segundo conjunto relacionado ao assunto ou conteúdo destas páginas. Além disso, uma das características da nossa abordagem consiste no fato de não necessitar de algum treinamento a priori nem de algum outro tipo de processamento prévio. A eficácia, a eficiência e a escalabilidade da abordagem proposta são demonstradas por um conjunto de experimentos, envolvendo a coleta de páginas Web referentes a planos de ensino de disciplinas do curso de ciência da computação, ofertas de trabalho na área de ciência da computação e ofertas de venda de equipamentos de informática. Tais experimentos mostram que coletores temáticos construídos de acordo com a nossa abordagem baseada em gênero alcançam níveis de F1 superiores a 88%, necessitando a análise de não mais do que 60% das páginas visitadas para localizar 90% das páginas relevantes. Além disso, analisamos experimentalmente o impacto da seleção de termos em nossa abordagem, variando a quantidade de termos de gênero e conteúdo usados para guiar um processo de coleta e avaliando uma estratégia proposta para geração semi-automática de tais termos. A análise mostra que um pequeno conjunto de termos selecionados por um especialista é geralmente suficiente para produzir resultados bons e que tal estratégia para geração semi-automática de termos é muito eficaz em suportar a tarefa de selecionar os conjuntos de termos necessários para guiar um processo de coleta utilizando nossa abordagem.

Metadados do item

id	UFMG_2125af09994dbc51827fbd235af5f061
oai_identifier_str	oai:repositorio.ufmg.br:1843/RVMR-7K6PEN
network_acronym_str	UFMG
network_name_str	Repositório Institucional da UFMG
repository_id_str
spelling	Alberto Henrique Frade LaenderMarcos Andre GoncalvesAltigran Soares da SilvaEduardo Sany LaberViviane Moreira OrengoNivio ZivianiGuilherme Tavares de Assis2019-08-12T11:29:37Z2019-08-12T11:29:37Z2008-03-27http://hdl.handle.net/1843/RVMR-7K6PENColetores temáticos apresentam o propósito maior de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário, sendo importantes para uma grande variedade de aplicações. Em geral, eles funcionam tentando localizar e coletar todos os tipos de páginas que estejam relacionadas a um determinado tópico de interesse. Contudo, alguns usuários podem não estar simplesmente interessados em algum documento sobre um tópico; na verdade, podem estar interessados em recuperar documentos de um determinado estilo ou gênero referente ao tópico. Nesta tese, descrevemos uma abordagem para coleta temática que explora não somente informação relacionada ao conteúdo, mas também informação de gênero presente em páginas Web para guiar o processo de coleta. Essa abordagem foi projetada para situações em que o tópico específico de interesse pode ser expresso por dois conjuntos de termos: o primeiro conjunto descrevendo aspectos de gênero das páginas desejadas e o segundo conjunto relacionado ao assunto ou conteúdo destas páginas. Além disso, uma das características da nossa abordagem consiste no fato de não necessitar de algum treinamento a priori nem de algum outro tipo de processamento prévio. A eficácia, a eficiência e a escalabilidade da abordagem proposta são demonstradas por um conjunto de experimentos, envolvendo a coleta de páginas Web referentes a planos de ensino de disciplinas do curso de ciência da computação, ofertas de trabalho na área de ciência da computação e ofertas de venda de equipamentos de informática. Tais experimentos mostram que coletores temáticos construídos de acordo com a nossa abordagem baseada em gênero alcançam níveis de F1 superiores a 88%, necessitando a análise de não mais do que 60% das páginas visitadas para localizar 90% das páginas relevantes. Além disso, analisamos experimentalmente o impacto da seleção de termos em nossa abordagem, variando a quantidade de termos de gênero e conteúdo usados para guiar um processo de coleta e avaliando uma estratégia proposta para geração semi-automática de tais termos. A análise mostra que um pequeno conjunto de termos selecionados por um especialista é geralmente suficiente para produzir resultados bons e que tal estratégia para geração semi-automática de termos é muito eficaz em suportar a tarefa de selecionar os conjuntos de termos necessários para guiar um processo de coleta utilizando nossa abordagem.Focused crawlers have as their main goal to crawl pages that are relevant to a specific topic or user interest, playing an important role for a great variety of applications. In general, they work by trying to find and crawl all kinds of pages deemed as related to an implicitly declared topic. However, users are often not simply interested in any document about a topic, but instead they may want only documents of a given type or genre on that topic to be retrieved. In this thesis, we describe an approach to focused crawling that exploits not only content-related information but also genre information present in Web pages to guide the crawling process. This approach has been designed to address situations in which the specific topic of interest can be expressed by specifying two sets of terms, the first describing genre aspects of the desired pages and the second related to the subject or content of these pages. Moreover, our approach does not require training or any kind of preprocessing. The effectiveness, efficiency and scalability of the proposed approach are demonstrated by a set of experiments involving the crawling of pages related to syllabi of computer science courses, job offers in the computer science field and sale offers of computer equipments. These experiments show that focused crawlers constructed according to our genre-aware approach achieve levels of F1 superior to 88%, requiring the analysis of no more than 60% of the visited pages in order to find 90% of the relevant pages. In addition, we experimentally analyze the impact of term selection on our approach by varying the number of genre and content terms used to guide a crawling process and evaluate a proposed strategy for semi-automatic generation of such terms. This analysis shows that a small set of terms selected by an expert is usually enough to produce good results and that such a strategy is very effective in supporting the task of selecting the sets of terms required to guide a crawling process using our approach.Universidade Federal de Minas GeraisUFMGSistemas de coleta automatica de dadosFerramentas de busca na WebIndexação automaticaWorld Wide Web (Sistema de recuperação da informação)Computaçãocoleta de páginas webUma abordagem baseada em gênero para coleta temática de páginas da webinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALguilhermetavaresassis.pdfapplication/pdf1322056https://repositorio.ufmg.br/bitstream/1843/RVMR-7K6PEN/1/guilhermetavaresassis.pdfd149a27a2cc245f8d150be93b686ef00MD51TEXTguilhermetavaresassis.pdf.txtguilhermetavaresassis.pdf.txtExtracted texttext/plain152400https://repositorio.ufmg.br/bitstream/1843/RVMR-7K6PEN/2/guilhermetavaresassis.pdf.txt8b6273c28f9fbcc8bdee1cbfbee4bd5fMD521843/RVMR-7K6PEN2019-11-14 17:42:24.119oai:repositorio.ufmg.br:1843/RVMR-7K6PENRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T20:42:24Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv	Uma abordagem baseada em gênero para coleta temática de páginas da web
title	Uma abordagem baseada em gênero para coleta temática de páginas da web
spellingShingle	Uma abordagem baseada em gênero para coleta temática de páginas da web Guilherme Tavares de Assis coleta de páginas web Sistemas de coleta automatica de dados Ferramentas de busca na Web Indexação automatica World Wide Web (Sistema de recuperação da informação) Computação
title_short	Uma abordagem baseada em gênero para coleta temática de páginas da web
title_full	Uma abordagem baseada em gênero para coleta temática de páginas da web
title_fullStr	Uma abordagem baseada em gênero para coleta temática de páginas da web
title_full_unstemmed	Uma abordagem baseada em gênero para coleta temática de páginas da web
title_sort	Uma abordagem baseada em gênero para coleta temática de páginas da web
author	Guilherme Tavares de Assis
author_facet	Guilherme Tavares de Assis
author_role	author
dc.contributor.advisor1.fl_str_mv	Alberto Henrique Frade Laender
dc.contributor.referee1.fl_str_mv	Marcos Andre Goncalves
dc.contributor.referee2.fl_str_mv	Altigran Soares da Silva
dc.contributor.referee3.fl_str_mv	Eduardo Sany Laber
dc.contributor.referee4.fl_str_mv	Viviane Moreira Orengo
dc.contributor.referee5.fl_str_mv	Nivio Ziviani
dc.contributor.author.fl_str_mv	Guilherme Tavares de Assis
contributor_str_mv	Alberto Henrique Frade Laender Marcos Andre Goncalves Altigran Soares da Silva Eduardo Sany Laber Viviane Moreira Orengo Nivio Ziviani
dc.subject.por.fl_str_mv	coleta de páginas web
topic	coleta de páginas web Sistemas de coleta automatica de dados Ferramentas de busca na Web Indexação automatica World Wide Web (Sistema de recuperação da informação) Computação
dc.subject.other.pt_BR.fl_str_mv	Sistemas de coleta automatica de dados Ferramentas de busca na Web Indexação automatica World Wide Web (Sistema de recuperação da informação) Computação
description	Coletores temáticos apresentam o propósito maior de coletar páginas da Web que sejam relevantes a um tópico ou interesse específico do usuário, sendo importantes para uma grande variedade de aplicações. Em geral, eles funcionam tentando localizar e coletar todos os tipos de páginas que estejam relacionadas a um determinado tópico de interesse. Contudo, alguns usuários podem não estar simplesmente interessados em algum documento sobre um tópico; na verdade, podem estar interessados em recuperar documentos de um determinado estilo ou gênero referente ao tópico. Nesta tese, descrevemos uma abordagem para coleta temática que explora não somente informação relacionada ao conteúdo, mas também informação de gênero presente em páginas Web para guiar o processo de coleta. Essa abordagem foi projetada para situações em que o tópico específico de interesse pode ser expresso por dois conjuntos de termos: o primeiro conjunto descrevendo aspectos de gênero das páginas desejadas e o segundo conjunto relacionado ao assunto ou conteúdo destas páginas. Além disso, uma das características da nossa abordagem consiste no fato de não necessitar de algum treinamento a priori nem de algum outro tipo de processamento prévio. A eficácia, a eficiência e a escalabilidade da abordagem proposta são demonstradas por um conjunto de experimentos, envolvendo a coleta de páginas Web referentes a planos de ensino de disciplinas do curso de ciência da computação, ofertas de trabalho na área de ciência da computação e ofertas de venda de equipamentos de informática. Tais experimentos mostram que coletores temáticos construídos de acordo com a nossa abordagem baseada em gênero alcançam níveis de F1 superiores a 88%, necessitando a análise de não mais do que 60% das páginas visitadas para localizar 90% das páginas relevantes. Além disso, analisamos experimentalmente o impacto da seleção de termos em nossa abordagem, variando a quantidade de termos de gênero e conteúdo usados para guiar um processo de coleta e avaliando uma estratégia proposta para geração semi-automática de tais termos. A análise mostra que um pequeno conjunto de termos selecionados por um especialista é geralmente suficiente para produzir resultados bons e que tal estratégia para geração semi-automática de termos é muito eficaz em suportar a tarefa de selecionar os conjuntos de termos necessários para guiar um processo de coleta utilizando nossa abordagem.
publishDate	2008
dc.date.issued.fl_str_mv	2008-03-27
dc.date.accessioned.fl_str_mv	2019-08-12T11:29:37Z
dc.date.available.fl_str_mv	2019-08-12T11:29:37Z
dc.type.status.fl_str_mv	info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv	info:eu-repo/semantics/doctoralThesis
format	doctoralThesis
status_str	publishedVersion
dc.identifier.uri.fl_str_mv	http://hdl.handle.net/1843/RVMR-7K6PEN
url	http://hdl.handle.net/1843/RVMR-7K6PEN
dc.language.iso.fl_str_mv	por
language	por
dc.rights.driver.fl_str_mv	info:eu-repo/semantics/openAccess
eu_rights_str_mv	openAccess
dc.publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.publisher.initials.fl_str_mv	UFMG
publisher.none.fl_str_mv	Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv	reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG
instname_str	Universidade Federal de Minas Gerais (UFMG)
instacron_str	UFMG
institution	UFMG
reponame_str	Repositório Institucional da UFMG
collection	Repositório Institucional da UFMG
bitstream.url.fl_str_mv	https://repositorio.ufmg.br/bitstream/1843/RVMR-7K6PEN/1/guilhermetavaresassis.pdf https://repositorio.ufmg.br/bitstream/1843/RVMR-7K6PEN/2/guilhermetavaresassis.pdf.txt
bitstream.checksum.fl_str_mv	d149a27a2cc245f8d150be93b686ef00 8b6273c28f9fbcc8bdee1cbfbee4bd5f
bitstream.checksumAlgorithm.fl_str_mv	MD5 MD5
repository.name.fl_str_mv	Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_	1803589446557237248

Uma abordagem baseada em gênero para coleta temática de páginas da web

Registros relacionados