Métodos de poda estática para índices de máquinas de busca.
Autor(a) principal: | |
---|---|
Data de Publicação: | 2006 |
Outros Autores: | |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFAM |
Texto Completo: | http://tede.ufam.edu.br/handle/tede/2944 |
Resumo: | Neste trabalho são propostos e avaliados experimentalmente novos métodos de poda estática especialmente projetados para máquinas de busca web. Os métodos levam em consideração a localidade de ocorrência dos termos nos documentos para realizar a poda em índices de máquinas de busca e, por esta razão, são chamados de "métodos de poda baseados em localidade". Quatro novos métodos de poda que utilizam informação de localidade são propostos aqui: two-pass lbpm, full coverage, top fragments e random. O método two-pass lbpm é o mais efetivo dentre os métodos baseados em localidade, mas requer uma construção completa dos índices antes de realizar o processo de poda. Por outro lado, full coverage, top fragments e random são métodos single-pass que executam a poda dos índices sem requerer uma construção prévia dos índices originais. Os métodos single-pass são úteis para ambientes onde a base de documentos sofre alterações contínuas, como em máquinas de busca de grande escala desenvolvidas para a web. Experimentos utilizando uma máquina de busca real mostram que os métodos propostos neste trabalho podem reduzir o custo de armazenamento dos índices em até 60%, enquanto mantém uma perda mínima de precisão. Mais importante, os resultados dos experimentos indicam que esta mesma redução de 60% no tamanho dos índices pode reduzir o tempo de processamento de consultas para quase 57% do tempo original. Além disso, os experimentos mostram que, para consultas conjuntivas e frases, os métodos baseados em localidade produzem resultados melhores do que o método de Carmel, melhor método proposto na literatura. Por exemplo, utilizando apenas consultas com frases, com uma redução de 67% no tamanho dos índices, o método baseados em localidade two-pass lbpm produziu resultados com uma grau de similaridade de 0.71, em relação aos resultados obtidos com os índices originais, enquanto o método de Carmel produziu resultados com um grau de similaridade de apenas 0.39. Os resultados obtidos mostram que os métodos de poda baseados em localidade são mais efetivos em manter a qualidade dos resultados providos por máquinas de busca. |
id |
UFAM_a7582329f9411799d68906291e548416 |
---|---|
oai_identifier_str |
oai:https://tede.ufam.edu.br/handle/:tede/2944 |
network_acronym_str |
UFAM |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository_id_str |
6592 |
spelling |
Métodos de poda estática para índices de máquinas de busca.Static Pruning Method for Search Index EnginesRecuperação de InformaçãoMáquina de BuscaWebPoda em ÍndicesRecuperação de InformaçãoMáquina de BuscaWebInformation RetrievalSearch EngineWebIndex PruningCIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃONeste trabalho são propostos e avaliados experimentalmente novos métodos de poda estática especialmente projetados para máquinas de busca web. Os métodos levam em consideração a localidade de ocorrência dos termos nos documentos para realizar a poda em índices de máquinas de busca e, por esta razão, são chamados de "métodos de poda baseados em localidade". Quatro novos métodos de poda que utilizam informação de localidade são propostos aqui: two-pass lbpm, full coverage, top fragments e random. O método two-pass lbpm é o mais efetivo dentre os métodos baseados em localidade, mas requer uma construção completa dos índices antes de realizar o processo de poda. Por outro lado, full coverage, top fragments e random são métodos single-pass que executam a poda dos índices sem requerer uma construção prévia dos índices originais. Os métodos single-pass são úteis para ambientes onde a base de documentos sofre alterações contínuas, como em máquinas de busca de grande escala desenvolvidas para a web. Experimentos utilizando uma máquina de busca real mostram que os métodos propostos neste trabalho podem reduzir o custo de armazenamento dos índices em até 60%, enquanto mantém uma perda mínima de precisão. Mais importante, os resultados dos experimentos indicam que esta mesma redução de 60% no tamanho dos índices pode reduzir o tempo de processamento de consultas para quase 57% do tempo original. Além disso, os experimentos mostram que, para consultas conjuntivas e frases, os métodos baseados em localidade produzem resultados melhores do que o método de Carmel, melhor método proposto na literatura. Por exemplo, utilizando apenas consultas com frases, com uma redução de 67% no tamanho dos índices, o método baseados em localidade two-pass lbpm produziu resultados com uma grau de similaridade de 0.71, em relação aos resultados obtidos com os índices originais, enquanto o método de Carmel produziu resultados com um grau de similaridade de apenas 0.39. Os resultados obtidos mostram que os métodos de poda baseados em localidade são mais efetivos em manter a qualidade dos resultados providos por máquinas de busca.Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorUniversidade Federal do AmazonasInstituto de ComputaçãoBRUFAMPrograma de Pós-graduação em InformáticaMoura, Edleno Silva dehttp://lattes.cnpq.br/4737852130924504Santos, Célia Francisca doshttp://lattes.cnpq.br/61229676497787102015-04-11T14:03:08Z2007-07-062006-02-22info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfSANTOS, Célia Francisca dos. Métodos de poda estática para índices de máquinas de busca. 2006. 61 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2006.http://tede.ufam.edu.br/handle/tede/2944porinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFAMinstname:Universidade Federal do Amazonas (UFAM)instacron:UFAM2016-04-22T14:34:27Zoai:https://tede.ufam.edu.br/handle/:tede/2944Biblioteca Digital de Teses e Dissertaçõeshttp://200.129.163.131:8080/PUBhttp://200.129.163.131:8080/oai/requestddbc@ufam.edu.br||ddbc@ufam.edu.bropendoar:65922016-04-22T14:34:27Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM)false |
dc.title.none.fl_str_mv |
Métodos de poda estática para índices de máquinas de busca. Static Pruning Method for Search Index Engines |
title |
Métodos de poda estática para índices de máquinas de busca. |
spellingShingle |
Métodos de poda estática para índices de máquinas de busca. Santos, Célia Francisca dos Recuperação de Informação Máquina de Busca Web Poda em Índices Recuperação de Informação Máquina de Busca Web Information Retrieval Search Engine Web Index Pruning CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
title_short |
Métodos de poda estática para índices de máquinas de busca. |
title_full |
Métodos de poda estática para índices de máquinas de busca. |
title_fullStr |
Métodos de poda estática para índices de máquinas de busca. |
title_full_unstemmed |
Métodos de poda estática para índices de máquinas de busca. |
title_sort |
Métodos de poda estática para índices de máquinas de busca. |
author |
Santos, Célia Francisca dos |
author_facet |
Santos, Célia Francisca dos http://lattes.cnpq.br/6122967649778710 |
author_role |
author |
author2 |
http://lattes.cnpq.br/6122967649778710 |
author2_role |
author |
dc.contributor.none.fl_str_mv |
Moura, Edleno Silva de http://lattes.cnpq.br/4737852130924504 |
dc.contributor.author.fl_str_mv |
Santos, Célia Francisca dos http://lattes.cnpq.br/6122967649778710 |
dc.subject.por.fl_str_mv |
Recuperação de Informação Máquina de Busca Web Poda em Índices Recuperação de Informação Máquina de Busca Web Information Retrieval Search Engine Web Index Pruning CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
topic |
Recuperação de Informação Máquina de Busca Web Poda em Índices Recuperação de Informação Máquina de Busca Web Information Retrieval Search Engine Web Index Pruning CIÊNCIAS EXATAS E DA TERRA: CIÊNCIA DA COMPUTAÇÃO |
description |
Neste trabalho são propostos e avaliados experimentalmente novos métodos de poda estática especialmente projetados para máquinas de busca web. Os métodos levam em consideração a localidade de ocorrência dos termos nos documentos para realizar a poda em índices de máquinas de busca e, por esta razão, são chamados de "métodos de poda baseados em localidade". Quatro novos métodos de poda que utilizam informação de localidade são propostos aqui: two-pass lbpm, full coverage, top fragments e random. O método two-pass lbpm é o mais efetivo dentre os métodos baseados em localidade, mas requer uma construção completa dos índices antes de realizar o processo de poda. Por outro lado, full coverage, top fragments e random são métodos single-pass que executam a poda dos índices sem requerer uma construção prévia dos índices originais. Os métodos single-pass são úteis para ambientes onde a base de documentos sofre alterações contínuas, como em máquinas de busca de grande escala desenvolvidas para a web. Experimentos utilizando uma máquina de busca real mostram que os métodos propostos neste trabalho podem reduzir o custo de armazenamento dos índices em até 60%, enquanto mantém uma perda mínima de precisão. Mais importante, os resultados dos experimentos indicam que esta mesma redução de 60% no tamanho dos índices pode reduzir o tempo de processamento de consultas para quase 57% do tempo original. Além disso, os experimentos mostram que, para consultas conjuntivas e frases, os métodos baseados em localidade produzem resultados melhores do que o método de Carmel, melhor método proposto na literatura. Por exemplo, utilizando apenas consultas com frases, com uma redução de 67% no tamanho dos índices, o método baseados em localidade two-pass lbpm produziu resultados com uma grau de similaridade de 0.71, em relação aos resultados obtidos com os índices originais, enquanto o método de Carmel produziu resultados com um grau de similaridade de apenas 0.39. Os resultados obtidos mostram que os métodos de poda baseados em localidade são mais efetivos em manter a qualidade dos resultados providos por máquinas de busca. |
publishDate |
2006 |
dc.date.none.fl_str_mv |
2006-02-22 2007-07-06 2015-04-11T14:03:08Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
SANTOS, Célia Francisca dos. Métodos de poda estática para índices de máquinas de busca. 2006. 61 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2006. http://tede.ufam.edu.br/handle/tede/2944 |
identifier_str_mv |
SANTOS, Célia Francisca dos. Métodos de poda estática para índices de máquinas de busca. 2006. 61 f. Dissertação (Mestrado em Informática) - Universidade Federal do Amazonas, Manaus, 2006. |
url |
http://tede.ufam.edu.br/handle/tede/2944 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática |
publisher.none.fl_str_mv |
Universidade Federal do Amazonas Instituto de Computação BR UFAM Programa de Pós-graduação em Informática |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFAM instname:Universidade Federal do Amazonas (UFAM) instacron:UFAM |
instname_str |
Universidade Federal do Amazonas (UFAM) |
instacron_str |
UFAM |
institution |
UFAM |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFAM |
collection |
Biblioteca Digital de Teses e Dissertações da UFAM |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFAM - Universidade Federal do Amazonas (UFAM) |
repository.mail.fl_str_mv |
ddbc@ufam.edu.br||ddbc@ufam.edu.br |
_version_ |
1800234093433061376 |