Geração automática de padrões de navegação para web sites de conteúdo dinâmico
Autor(a) principal: | |
---|---|
Data de Publicação: | 2006 |
Outros Autores: | |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFAM |
Texto Completo: | http://tede.ufam.edu.br/handle/tede/2940 |
Resumo: | Um crescente número de aplicações para Web necessitam processar coleções de páginas similares obtidas de Web sites. O objetivo final destas aplicações é tirar proveito de informações valiosas que estas páginas implicitamente contêm para realizar tarefas como consulta, busca, extração de dados, mineração de dados e análise de características de uso e popularidade. Para algumas destas aplicações os critérios para determinar quando uma página deve estar presente na coleção estão relacionados a características do conteúdo da página. Contudo, exitem muitas outras importantes situações em que características inerentes à estrutura das páginas, ao invés de seu conteúdo, provêm um critério melhor para guiar a coleta de páginas. Motivados por este problema, propomos nesta dissertação uma nova abordagem para geração de coletores guiados por estrutura que requer um esforço mínimo do usuário, pois são necessário apenas um exemplo das páginas a coletar e um ponto de entrada no Web site. Uma outra característica importante de nossa abordagem, é o fato de ser capaz de lidar com sites onde as páginas a serem coletadas são geradas dinamicamente através do preenchimento de formulários. Ao contrário dos métodos existentes na literatura, no nosso caso não é necessária a existência de um banco de dados de amostra para auxiliar no processo de preenchimento do formulário, nem tão pouco é necessária grande iteração com o usuário. Resultados obtidos em experimento com nossa abordagem demonstraram um valor de 100% de precisão em coletas realizadas sobre 17 Web sites reais de conteúdo estático e dinâmico, e pelo menos 95% de revocação para 11 sites estáticos utilizados nos experimentos. |
id |
UFAM_486be958ba3c981c26df2ba7912d8ccd |
---|---|
oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/2940 |
network_acronym_str |
UFAM |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository_id_str |
6592 |
spelling |
Geração automática de padrões de navegação para web sites de conteúdo dinâmicoAutomatic generation of search patterns on dynamic contents web sitesGeração AutomáticaPadrões de NavegaçãoConteúdo DinâmicoGeração AutomáticaPadrões de NavegaçãoConteúdo DinâmicoAutomatic generationSearch patternsDynamic contentsCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃOUm crescente número de aplicações para Web necessitam processar coleções de páginas similares obtidas de Web sites. O objetivo final destas aplicações é tirar proveito de informações valiosas que estas páginas implicitamente contêm para realizar tarefas como consulta, busca, extração de dados, mineração de dados e análise de características de uso e popularidade. Para algumas destas aplicações os critérios para determinar quando uma página deve estar presente na coleção estão relacionados a características do conteúdo da página. Contudo, exitem muitas outras importantes situações em que características inerentes à estrutura das páginas, ao invés de seu conteúdo, provêm um critério melhor para guiar a coleta de páginas. Motivados por este problema, propomos nesta dissertação uma nova abordagem para geração de coletores guiados por estrutura que requer um esforço mínimo do usuário, pois são necessário apenas um exemplo das páginas a coletar e um ponto de entrada no Web site. Uma outra característica importante de nossa abordagem, é o fato de ser capaz de lidar com sites onde as páginas a serem coletadas são geradas dinamicamente através do preenchimento de formulários. Ao contrário dos métodos existentes na literatura, no nosso caso não é necessária a existência de um banco de dados de amostra para auxiliar no processo de preenchimento do formulário, nem tão pouco é necessária grande iteração com o usuário. Resultados obtidos em experimento com nossa abordagem demonstraram um valor de 100% de precisão em coletas realizadas sobre 17 Web sites reais de conteúdo estático e dinâmico, e pelo menos 95% de revocação para 11 sites estáticos utilizados nos experimentos.A growing number of Web applications need to process collection of similar pages obtained from Web sites. These applications have the ultimate goal of taking advantage of the valuable information implicitly available in these pages to perform such tasks as querying, searching, data extraction and mining. For some of these applications, the criteria to determine when a Web page must be present in a collection are related to features of the content of the page. However, there are many other important applications in which the inherent structure of the pages, instead of its content, provides a better criterion for gathering the pages. Motivated by this problem, we propose in this work a new approach for generating structure-driven crawlers that requires a minimum effort from the user, since it only require an example of the page to be crawled and an entry point to the Web site. Another important feature in our approach is that it is capable of dealing with Web sites in which the pages to be collected are dynamically generated through the filling of forms. Contrary to existing methods in the literature, our approach does not require a sample database to help in the process of filling out forms and it also does not demand a great interaction with users. Results obtained in experiments with our approach demonstrate a 100% value of precision in craws performed over 17 real Web sites with static and dynamic contents and at least 95% of recall in all 11 static Web sites.Fundação de Amparo à Pesquisa do Estado do AmazonasUniversidade Federal do AmazonasInstituto de ComputaçãoBRUFAMPrograma de Pós-graduação em InformáticaSilva, Altigran Soares dahttp://lattes.cnpq.br/3405503472010994Vidal, Márcio Luiz Assishttp://lattes.cnpq.br/08701981016046902015-04-11T14:03:06Z2007-07-062006-03-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfVIDAL, Márcio Luiz Assis.Geração automática de padrões de navegação para web sites de conteúdo dinâmico. 2006. 61 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2006.http://tede.ufam.edu.br/handle/tede/2940porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-04-22T14:34:30Zoai:https://tede.ufam.edu.br/handle/:tede/2940Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922016-04-22T14:34:30Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
dc.title.none.fl_str_mv |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico Automatic generation of search patterns on dynamic contents web sites |
title |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico |
spellingShingle |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico Vidal, Márcio Luiz Assis Geração Automática Padrões de Navegação Conteúdo Dinâmico Geração Automática Padrões de Navegação Conteúdo Dinâmico Automatic generation Search patterns Dynamic contents CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
title_short |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico |
title_full |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico |
title_fullStr |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico |
title_full_unstemmed |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico |
title_sort |
Geração automática de padrões de navegação para web sites de conteúdo dinâmico |
author |
Vidal, Márcio Luiz Assis |
author_facet |
Vidal, Márcio Luiz Assis http://lattes.cnpq.br/0870198101604690 |
author_role |
author |
author2 |
http://lattes.cnpq.br/0870198101604690 |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Silva, Altigran Soares da http://lattes.cnpq.br/3405503472010994 |
dc.contributor.author.fl_str_mv |
Vidal, Márcio Luiz Assis http://lattes.cnpq.br/0870198101604690 |
dc.subject.por.fl_str_mv |
Geração Automática Padrões de Navegação Conteúdo Dinâmico Geração Automática Padrões de Navegação Conteúdo Dinâmico Automatic generation Search patterns Dynamic contents CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
topic |
Geração Automática Padrões de Navegação Conteúdo Dinâmico Geração Automática Padrões de Navegação Conteúdo Dinâmico Automatic generation Search patterns Dynamic contents CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
description |
Um crescente número de aplicações para Web necessitam processar coleções de páginas similares obtidas de Web sites. O objetivo final destas aplicações é tirar proveito de informações valiosas que estas páginas implicitamente contêm para realizar tarefas como consulta, busca, extração de dados, mineração de dados e análise de características de uso e popularidade. Para algumas destas aplicações os critérios para determinar quando uma página deve estar presente na coleção estão relacionados a características do conteúdo da página. Contudo, exitem muitas outras importantes situações em que características inerentes à estrutura das páginas, ao invés de seu conteúdo, provêm um critério melhor para guiar a coleta de páginas. Motivados por este problema, propomos nesta dissertação uma nova abordagem para geração de coletores guiados por estrutura que requer um esforço mínimo do usuário, pois são necessário apenas um exemplo das páginas a coletar e um ponto de entrada no Web site. Uma outra característica importante de nossa abordagem, é o fato de ser capaz de lidar com sites onde as páginas a serem coletadas são geradas dinamicamente através do preenchimento de formulários. Ao contrário dos métodos existentes na literatura, no nosso caso não é necessária a existência de um banco de dados de amostra para auxiliar no processo de preenchimento do formulário, nem tão pouco é necessária grande iteração com o usuário. Resultados obtidos em experimento com nossa abordagem demonstraram um valor de 100% de precisão em coletas realizadas sobre 17 Web sites reais de conteúdo estático e dinâmico, e pelo menos 95% de revocação para 11 sites estáticos utilizados nos experimentos. |
publishDate |
2006 |
dc.date.none.fl_str_mv |
2006-03-22 2007-07-06 2015-04-11T14:03:06Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
VIDAL, Márcio Luiz Assis.Geração automática de padrões de navegação para web sites de conteúdo dinâmico. 2006. 61 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2006. http://tede.ufam.edu.br/handle/tede/2940 |
identifier_str_mv |
VIDAL, Márcio Luiz Assis.Geração automática de padrões de navegação para web sites de conteúdo dinâmico. 2006. 61 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2006. |
url |
http://tede.ufam.edu.br/handle/tede/2940 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática |
publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
instname_str |
Universidade Federal do Amazonas (UFAM) |
instacron_str |
UFAM |
institution |
UFAM |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
_version_ |
1809732004638359552 |