VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree
Autor(a) principal: | |
---|---|
Data de Publicação: | 2003 |
Tipo de documento: | Dissertação |
Idioma: | por |
Título da fonte: | Repositório Institucional da UFPE |
Texto Completo: | https://repositorio.ufpe.br/handle/123456789/2507 |
Resumo: | A explosão de uso da World Wide Web (Web) e seu crescimento exponencial são fatos reais hoje em dia. A grande quantidade de dados em formato textual disponível de forma dispersa na Web tornou o uso de sistemas de busca bastante popular. Pesquisas mostram que cerca de 57% de usuários da internet fazem uma consulta a cada dia. Esta necessidade de uso tem sido a alavanca da popularidade dos sistemas de busca que, mesmo tendo evoluído de forma significativa nos últimos anos, precisam manter-se atualizados com estruturas capazes de indexar toda essa informação para atender esta demanda de crescimento da Web. Esta dissertação apresenta um levantamento de técnicas no estado-da-arte sobre estruturas de índices para sistemas de Recuperação de Informação (RI) apresentando as estruturas: Arquivo invertido, que é o foco principal deste trabalho; Array de sufixos. que, mesmo oferecendo facilidades na busca em consultas por proximidade, tem um custo de espaço de armazenamento muito alto; e Arquivo de assinaturas, que foi amplamente utilizada em sistemas de RI na década de 80, porém foi superada pelas técnicas modernas aplicadas a estruturas de arquivo invertido. Dentre estas técnicas cita-se a compressão do índice através do uso de codificação Elias e Golomb os quais, além de trazer economia de espaço, melhoram o desempenho tanto no processo de consulta quanto no processo de construção do índice. Além disso, são descritos em detalhes métodos eficientes de acesso e de construção e manipulação do índice. Como resultado do trabalho é proposto o VIF - Vertical Inverted File - implementado na prática a partir de experiência pessoal adquirida durante o trabalho realizado no engenho de busca Radix. O VIF é uma estrutura de índice invertido organizada em blocos baseada em uma estrutura de dados dinâmica B+-Tree que possibilita a inserção eficiente de pequenas quantidades de documentos HTML e, também, oferece uma forma nativa de otimização no processamento de consultas através de salto de blocos. No Radix foram feitos testes sobre a estrutura onde obteve-se ganhos de cerca de 78% de espaço utilizado comparado com a estrutura utilizada anteriormente. Outros testes mostraram melhoria média de 26.5% no tempo de processamento consultas usando salto em blocos comparado com processamento sem otimização, considerando o tempo no processamento das consultas mais realizadas pelos usuários do sistema |
id |
UFPE_614b152bbdca6637978324a6d50522ba |
---|---|
oai_identifier_str |
oai:repositorio.ufpe.br:123456789/2507 |
network_acronym_str |
UFPE |
network_name_str |
Repositório Institucional da UFPE |
repository_id_str |
2221 |
spelling |
MIRANDA, Oscar Gomes deSALGADO, Ana Carolina Brandão2014-06-12T15:58:52Z2014-06-12T15:58:52Z2003Gomes de Miranda, Oscar; Carolina Brandão Salgado, Ana. VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003.https://repositorio.ufpe.br/handle/123456789/2507A explosão de uso da World Wide Web (Web) e seu crescimento exponencial são fatos reais hoje em dia. A grande quantidade de dados em formato textual disponível de forma dispersa na Web tornou o uso de sistemas de busca bastante popular. Pesquisas mostram que cerca de 57% de usuários da internet fazem uma consulta a cada dia. Esta necessidade de uso tem sido a alavanca da popularidade dos sistemas de busca que, mesmo tendo evoluído de forma significativa nos últimos anos, precisam manter-se atualizados com estruturas capazes de indexar toda essa informação para atender esta demanda de crescimento da Web. Esta dissertação apresenta um levantamento de técnicas no estado-da-arte sobre estruturas de índices para sistemas de Recuperação de Informação (RI) apresentando as estruturas: Arquivo invertido, que é o foco principal deste trabalho; Array de sufixos. que, mesmo oferecendo facilidades na busca em consultas por proximidade, tem um custo de espaço de armazenamento muito alto; e Arquivo de assinaturas, que foi amplamente utilizada em sistemas de RI na década de 80, porém foi superada pelas técnicas modernas aplicadas a estruturas de arquivo invertido. Dentre estas técnicas cita-se a compressão do índice através do uso de codificação Elias e Golomb os quais, além de trazer economia de espaço, melhoram o desempenho tanto no processo de consulta quanto no processo de construção do índice. Além disso, são descritos em detalhes métodos eficientes de acesso e de construção e manipulação do índice. Como resultado do trabalho é proposto o VIF - Vertical Inverted File - implementado na prática a partir de experiência pessoal adquirida durante o trabalho realizado no engenho de busca Radix. O VIF é uma estrutura de índice invertido organizada em blocos baseada em uma estrutura de dados dinâmica B+-Tree que possibilita a inserção eficiente de pequenas quantidades de documentos HTML e, também, oferece uma forma nativa de otimização no processamento de consultas através de salto de blocos. No Radix foram feitos testes sobre a estrutura onde obteve-se ganhos de cerca de 78% de espaço utilizado comparado com a estrutura utilizada anteriormente. Outros testes mostraram melhoria média de 26.5% no tempo de processamento consultas usando salto em blocos comparado com processamento sem otimização, considerando o tempo no processamento das consultas mais realizadas pelos usuários do sistemaporUniversidade Federal de PernambucoAttribution-NonCommercial-NoDerivs 3.0 Brazilhttp://creativecommons.org/licenses/by-nc-nd/3.0/br/info:eu-repo/semantics/openAccessB-TreeArquivo InvertidoEstrutura de DadosWebRecuperação de InformaçãoVIF - uma estrutura de índice invertido em blocos baseada em uma B+-Treeinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFPEinstname:Universidade Federal de Pernambuco (UFPE)instacron:UFPETHUMBNAILarquivo4736_1.pdf.jpgarquivo4736_1.pdf.jpgGenerated Thumbnailimage/jpeg1158https://repositorio.ufpe.br/bitstream/123456789/2507/4/arquivo4736_1.pdf.jpga1c946f0926f6ca5062b9eabffc43066MD54ORIGINALarquivo4736_1.pdfapplication/pdf1906932https://repositorio.ufpe.br/bitstream/123456789/2507/1/arquivo4736_1.pdfaa7a99e257aca29fb1c18db5712ba23eMD51LICENSElicense.txttext/plain1748https://repositorio.ufpe.br/bitstream/123456789/2507/2/license.txt8a4605be74aa9ea9d79846c1fba20a33MD52TEXTarquivo4736_1.pdf.txtarquivo4736_1.pdf.txtExtracted texttext/plain219075https://repositorio.ufpe.br/bitstream/123456789/2507/3/arquivo4736_1.pdf.txt6d4320f743609f791b6847f6a468652cMD53123456789/25072019-10-25 06:47:48.221oai:repositorio.ufpe.br:123456789/2507Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufpe.br/oai/requestattena@ufpe.bropendoar:22212019-10-25T09:47:48Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE)false |
dc.title.pt_BR.fl_str_mv |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
title |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
spellingShingle |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree MIRANDA, Oscar Gomes de B-Tree Arquivo Invertido Estrutura de Dados Web Recuperação de Informação |
title_short |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
title_full |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
title_fullStr |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
title_full_unstemmed |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
title_sort |
VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree |
author |
MIRANDA, Oscar Gomes de |
author_facet |
MIRANDA, Oscar Gomes de |
author_role |
author |
dc.contributor.author.fl_str_mv |
MIRANDA, Oscar Gomes de |
dc.contributor.advisor1.fl_str_mv |
SALGADO, Ana Carolina Brandão |
contributor_str_mv |
SALGADO, Ana Carolina Brandão |
dc.subject.por.fl_str_mv |
B-Tree Arquivo Invertido Estrutura de Dados Web Recuperação de Informação |
topic |
B-Tree Arquivo Invertido Estrutura de Dados Web Recuperação de Informação |
description |
A explosão de uso da World Wide Web (Web) e seu crescimento exponencial são fatos reais hoje em dia. A grande quantidade de dados em formato textual disponível de forma dispersa na Web tornou o uso de sistemas de busca bastante popular. Pesquisas mostram que cerca de 57% de usuários da internet fazem uma consulta a cada dia. Esta necessidade de uso tem sido a alavanca da popularidade dos sistemas de busca que, mesmo tendo evoluído de forma significativa nos últimos anos, precisam manter-se atualizados com estruturas capazes de indexar toda essa informação para atender esta demanda de crescimento da Web. Esta dissertação apresenta um levantamento de técnicas no estado-da-arte sobre estruturas de índices para sistemas de Recuperação de Informação (RI) apresentando as estruturas: Arquivo invertido, que é o foco principal deste trabalho; Array de sufixos. que, mesmo oferecendo facilidades na busca em consultas por proximidade, tem um custo de espaço de armazenamento muito alto; e Arquivo de assinaturas, que foi amplamente utilizada em sistemas de RI na década de 80, porém foi superada pelas técnicas modernas aplicadas a estruturas de arquivo invertido. Dentre estas técnicas cita-se a compressão do índice através do uso de codificação Elias e Golomb os quais, além de trazer economia de espaço, melhoram o desempenho tanto no processo de consulta quanto no processo de construção do índice. Além disso, são descritos em detalhes métodos eficientes de acesso e de construção e manipulação do índice. Como resultado do trabalho é proposto o VIF - Vertical Inverted File - implementado na prática a partir de experiência pessoal adquirida durante o trabalho realizado no engenho de busca Radix. O VIF é uma estrutura de índice invertido organizada em blocos baseada em uma estrutura de dados dinâmica B+-Tree que possibilita a inserção eficiente de pequenas quantidades de documentos HTML e, também, oferece uma forma nativa de otimização no processamento de consultas através de salto de blocos. No Radix foram feitos testes sobre a estrutura onde obteve-se ganhos de cerca de 78% de espaço utilizado comparado com a estrutura utilizada anteriormente. Outros testes mostraram melhoria média de 26.5% no tempo de processamento consultas usando salto em blocos comparado com processamento sem otimização, considerando o tempo no processamento das consultas mais realizadas pelos usuários do sistema |
publishDate |
2003 |
dc.date.issued.fl_str_mv |
2003 |
dc.date.accessioned.fl_str_mv |
2014-06-12T15:58:52Z |
dc.date.available.fl_str_mv |
2014-06-12T15:58:52Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.citation.fl_str_mv |
Gomes de Miranda, Oscar; Carolina Brandão Salgado, Ana. VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003. |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufpe.br/handle/123456789/2507 |
identifier_str_mv |
Gomes de Miranda, Oscar; Carolina Brandão Salgado, Ana. VIF - uma estrutura de índice invertido em blocos baseada em uma B+-Tree. 2003. Dissertação (Mestrado). Programa de Pós-Graduação em Ciência da Computação, Universidade Federal de Pernambuco, Recife, 2003. |
url |
https://repositorio.ufpe.br/handle/123456789/2507 |
dc.language.iso.fl_str_mv |
por |
language |
por |
dc.rights.driver.fl_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution-NonCommercial-NoDerivs 3.0 Brazil http://creativecommons.org/licenses/by-nc-nd/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
publisher.none.fl_str_mv |
Universidade Federal de Pernambuco |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFPE instname:Universidade Federal de Pernambuco (UFPE) instacron:UFPE |
instname_str |
Universidade Federal de Pernambuco (UFPE) |
instacron_str |
UFPE |
institution |
UFPE |
reponame_str |
Repositório Institucional da UFPE |
collection |
Repositório Institucional da UFPE |
bitstream.url.fl_str_mv |
https://repositorio.ufpe.br/bitstream/123456789/2507/4/arquivo4736_1.pdf.jpg https://repositorio.ufpe.br/bitstream/123456789/2507/1/arquivo4736_1.pdf https://repositorio.ufpe.br/bitstream/123456789/2507/2/license.txt https://repositorio.ufpe.br/bitstream/123456789/2507/3/arquivo4736_1.pdf.txt |
bitstream.checksum.fl_str_mv |
a1c946f0926f6ca5062b9eabffc43066 aa7a99e257aca29fb1c18db5712ba23e 8a4605be74aa9ea9d79846c1fba20a33 6d4320f743609f791b6847f6a468652c |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFPE - Universidade Federal de Pernambuco (UFPE) |
repository.mail.fl_str_mv |
attena@ufpe.br |
_version_ |
1802310844907782144 |