Descarga temporal de páginas web

Detalhes bibliográficos
Autor(a) principal: Pereira, Pedro Vasco Neto
Data de Publicação: 2013
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/1822/27872
Resumo: Dissertação de mestrado em Engenharia Informática
id RCAP_65ab9153f2f2bd8a42078b3321fe14e8
oai_identifier_str oai:repositorium.sdum.uminho.pt:1822/27872
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Descarga temporal de páginas web681.324Dissertação de mestrado em Engenharia InformáticaThere is a plethora of information inside the Web. Even the most famous commercial search engines cannot download and index all available information. For this reason, from the last years until now, there are several research works on the design and implementation of focused crawlers in a particular topic, and also on geographic scope crawlers. Those who follow carefully the research on the area of Web crawling are witnessing that the temporal dimension has not the importance it deserves in the literature.In the opposite direction, there is an increasing interest on time dimension in other areas of information retrieval namely retrieval models, result sets presentation, clustering, classification, and others. Therefore, the challenge we have set ourselves in this work, was to develop a crawler whose purpose is to deal with time constraints. The importance of this dimension is certainly quite amplified when combined with the topic or geography, but now we wanted to study it in isolation. The used approach is quite direct. It is based on an algorithm for temporal segmentation ofWeb pages and follows links only in segments within the temporal scope of the restriction. This system is designed forWeb pages written in Portuguese though its design philosophy can be applied to other languages. In addition and for increase results effectiveness, the used algorithm prioritized the downloading of pages with more links within the temporal scope. The precision of results is around 75%.Existe uma infinidade de informações dentro da Web. Até mesmo os motores de busca mais famosos não podem descarregar e indexar toda a informação disponível. Por esta razão, desde há já alguns anos que há vários trabalhos de investigação sobre o desenho e implementação de robôs focados num tópico em particular mas também em robôs de âmbito geográfico. Aqueles que seguem com atenção a investigação na área de descargas Web podem constatar que a dimensão temporal não tem a importância que merece na literatura. Na direcção oposta, há um interesse crescente sobre a dimensão temporal em outras áreas da recolha de informação, nomeadamente modelos de recolha, apresentação de conjuntos de resultados, agrupamento, classificação entre outros. O desafio para que este trabalho aponta é desenvolver um robô cujo propósito seja lidar com as restrições temporais. A importância desta dimensão é certamente amplificada quando combinada com o tópico ou a geografia, mas agora apenas a iremos estudar isoladamente. A abordagem aplicada é muito directa. É baseada num algoritmo de segmentação temporal de textos e segue apenas as ligações em segmentos dentro do âmbito temporal imposto pela restrição. Este sistema está concebido para páginas Web em português, embora a sua filosofia possa ser aplicada a outras línguas. Além disso, e para melhorar os resultados, o algoritmo utilizado prioriza o descarregamento de páginas com mais ligações dentro do âmbito temporal. A precisão dos resultados ronda os 75%.Macedo, JoaquimUniversidade do MinhoPereira, Pedro Vasco Neto20132013-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1822/27872por201195810info:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-07-21T12:39:18Zoai:repositorium.sdum.uminho.pt:1822/27872Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T19:35:54.091166Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Descarga temporal de páginas web
title Descarga temporal de páginas web
spellingShingle Descarga temporal de páginas web
Pereira, Pedro Vasco Neto
681.324
title_short Descarga temporal de páginas web
title_full Descarga temporal de páginas web
title_fullStr Descarga temporal de páginas web
title_full_unstemmed Descarga temporal de páginas web
title_sort Descarga temporal de páginas web
author Pereira, Pedro Vasco Neto
author_facet Pereira, Pedro Vasco Neto
author_role author
dc.contributor.none.fl_str_mv Macedo, Joaquim
Universidade do Minho
dc.contributor.author.fl_str_mv Pereira, Pedro Vasco Neto
dc.subject.por.fl_str_mv 681.324
topic 681.324
description Dissertação de mestrado em Engenharia Informática
publishDate 2013
dc.date.none.fl_str_mv 2013
2013-01-01T00:00:00Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1822/27872
url http://hdl.handle.net/1822/27872
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv 201195810
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799132886290399232