Poda estática para índices invertidos baseada em logs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2005 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFMG |
Texto Completo: | http://hdl.handle.net/1843/RVMR-6EAG2L |
Resumo: | O crescimento inexorável do volume de documentos na World Wide Web coloca um grande desafio para as máquinas de busca, não apenas com relação a eficácia as também com relação a eficiência de espaço e de tempo. Esta dissertação apresenta um novo método de compressão com perda (poda) para arquivos invertidos que considera o aspecto eficiência sem desconsiderar a eficácia. O método proposto é baseado na análise de 'logs' de consultas passadas para obter uma grande redução no espaço ocupado pelo índice. O método pode ser utilizado em qualquer máquina de busca para melhorar sua eficiência em termos de tempo de processamento e espaço ocupado pelo índice, praticamente sem perdas na qualidade dos resultados da consulta. Experimentos utilizando uma máquina de busca real mostram que a técnica apresentada reduz os custos de armazenamento do índice em até 50% com relação ao índice sem compressão. Uma consequência dessa redução no tamanho do índice é que o tempo de processamento de uma consulta pode ser reduzido a aproximadamente 45% do tempo original, sem perda na precisão média. Considerando a qualidade do 'ranking' produzido, o espaço ocupado pelo índice e o tempo de resposta a consultas, estudos comparativos com os dois melhores algoritmos de compressão de índices conhecidos na literatura mostram que o algoritmo proposto é bastante competitivo. Por exemplo, tanto a curva de similaridade entre os 'rankings' quanto a precisão média das respostas do algoritmo proposto e o melhor algoritmo dentre os dois considerados na comparação se mantêm aproximadamente iguais para os diferentes níveis de poda. Quanto ao tempo de resposta o algoritmo proposto é mais rápido do que o melhor algoritmo dentre os dois considerados na comparação. |
id |
UFMG_d5494cff335c9e616ea32c964db49620 |
---|---|
oai_identifier_str |
oai:repositorio.ufmg.br:1843/RVMR-6EAG2L |
network_acronym_str |
UFMG |
network_name_str |
Repositório Institucional da UFMG |
repository_id_str |
|
spelling |
Poda estática para índices invertidos baseada em logsrecuperação de informaçãoRecuperação da informaçãoWorld Wide Web (Sistema de recuperação da informação)ComputaçãoSistema de recuperação da informaçãoO crescimento inexorável do volume de documentos na World Wide Web coloca um grande desafio para as máquinas de busca, não apenas com relação a eficácia as também com relação a eficiência de espaço e de tempo. Esta dissertação apresenta um novo método de compressão com perda (poda) para arquivos invertidos que considera o aspecto eficiência sem desconsiderar a eficácia. O método proposto é baseado na análise de 'logs' de consultas passadas para obter uma grande redução no espaço ocupado pelo índice. O método pode ser utilizado em qualquer máquina de busca para melhorar sua eficiência em termos de tempo de processamento e espaço ocupado pelo índice, praticamente sem perdas na qualidade dos resultados da consulta. Experimentos utilizando uma máquina de busca real mostram que a técnica apresentada reduz os custos de armazenamento do índice em até 50% com relação ao índice sem compressão. Uma consequência dessa redução no tamanho do índice é que o tempo de processamento de uma consulta pode ser reduzido a aproximadamente 45% do tempo original, sem perda na precisão média. Considerando a qualidade do 'ranking' produzido, o espaço ocupado pelo índice e o tempo de resposta a consultas, estudos comparativos com os dois melhores algoritmos de compressão de índices conhecidos na literatura mostram que o algoritmo proposto é bastante competitivo. Por exemplo, tanto a curva de similaridade entre os 'rankings' quanto a precisão média das respostas do algoritmo proposto e o melhor algoritmo dentre os dois considerados na comparação se mantêm aproximadamente iguais para os diferentes níveis de poda. Quanto ao tempo de resposta o algoritmo proposto é mais rápido do que o melhor algoritmo dentre os dois considerados na comparação.Universidade Federal de Minas GeraisUFMGNivio ZivianiEdleno Silva de MouraBerthier Ribeiro de Araujo NetoRenato Antonio Celso FerreiraCharles Ornelas Almeida2019-08-13T00:30:23Z2019-08-13T00:30:23Z2005-07-07info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/1843/RVMR-6EAG2Linfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMG2019-11-14T23:26:23Zoai:repositorio.ufmg.br:1843/RVMR-6EAG2LRepositório InstitucionalPUBhttps://repositorio.ufmg.br/oairepositorio@ufmg.bropendoar:2019-11-14T23:26:23Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false |
dc.title.none.fl_str_mv |
Poda estática para índices invertidos baseada em logs |
title |
Poda estática para índices invertidos baseada em logs |
spellingShingle |
Poda estática para índices invertidos baseada em logs Charles Ornelas Almeida recuperação de informação Recuperação da informação World Wide Web (Sistema de recuperação da informação) Computação Sistema de recuperação da informação |
title_short |
Poda estática para índices invertidos baseada em logs |
title_full |
Poda estática para índices invertidos baseada em logs |
title_fullStr |
Poda estática para índices invertidos baseada em logs |
title_full_unstemmed |
Poda estática para índices invertidos baseada em logs |
title_sort |
Poda estática para índices invertidos baseada em logs |
author |
Charles Ornelas Almeida |
author_facet |
Charles Ornelas Almeida |
author_role |
author |
dc.contributor.none.fl_str_mv |
Nivio Ziviani Edleno Silva de Moura Berthier Ribeiro de Araujo Neto Renato Antonio Celso Ferreira |
dc.contributor.author.fl_str_mv |
Charles Ornelas Almeida |
dc.subject.por.fl_str_mv |
recuperação de informação Recuperação da informação World Wide Web (Sistema de recuperação da informação) Computação Sistema de recuperação da informação |
topic |
recuperação de informação Recuperação da informação World Wide Web (Sistema de recuperação da informação) Computação Sistema de recuperação da informação |
description |
O crescimento inexorável do volume de documentos na World Wide Web coloca um grande desafio para as máquinas de busca, não apenas com relação a eficácia as também com relação a eficiência de espaço e de tempo. Esta dissertação apresenta um novo método de compressão com perda (poda) para arquivos invertidos que considera o aspecto eficiência sem desconsiderar a eficácia. O método proposto é baseado na análise de 'logs' de consultas passadas para obter uma grande redução no espaço ocupado pelo índice. O método pode ser utilizado em qualquer máquina de busca para melhorar sua eficiência em termos de tempo de processamento e espaço ocupado pelo índice, praticamente sem perdas na qualidade dos resultados da consulta. Experimentos utilizando uma máquina de busca real mostram que a técnica apresentada reduz os custos de armazenamento do índice em até 50% com relação ao índice sem compressão. Uma consequência dessa redução no tamanho do índice é que o tempo de processamento de uma consulta pode ser reduzido a aproximadamente 45% do tempo original, sem perda na precisão média. Considerando a qualidade do 'ranking' produzido, o espaço ocupado pelo índice e o tempo de resposta a consultas, estudos comparativos com os dois melhores algoritmos de compressão de índices conhecidos na literatura mostram que o algoritmo proposto é bastante competitivo. Por exemplo, tanto a curva de similaridade entre os 'rankings' quanto a precisão média das respostas do algoritmo proposto e o melhor algoritmo dentre os dois considerados na comparação se mantêm aproximadamente iguais para os diferentes níveis de poda. Quanto ao tempo de resposta o algoritmo proposto é mais rápido do que o melhor algoritmo dentre os dois considerados na comparação. |
publishDate |
2005 |
dc.date.none.fl_str_mv |
2005-07-07 2019-08-13T00:30:23Z 2019-08-13T00:30:23Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/1843/RVMR-6EAG2L |
url |
http://hdl.handle.net/1843/RVMR-6EAG2L |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais UFMG |
publisher.none.fl_str_mv |
Universidade Federal de Minas Gerais UFMG |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFMG instname:Universidade Federal de Minas Gerais (UFMG) instacron:UFMG |
instname_str |
Universidade Federal de Minas Gerais (UFMG) |
instacron_str |
UFMG |
institution |
UFMG |
reponame_str |
Repositório Institucional da UFMG |
collection |
Repositório Institucional da UFMG |
repository.name.fl_str_mv |
Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG) |
repository.mail.fl_str_mv |
repositorio@ufmg.br |
_version_ |
1816829905158012928 |