spelling |
Nivio ZivianiJoao Paulo Fumio Whitaker KitajimaBerthier Ribeiro de Araujo NetoWagner Meira JuniorMarden Silveira Neubert2019-08-12T10:27:29Z2019-08-12T10:27:29Z2000-03-30http://hdl.handle.net/1843/BUBD-9KLM8UEste trabalho apresenta uma família de algoritmos distribuídos visando a construção de arquivos invertidos globais para grandes volumes de texto. Dada uma coleção de documentos textuais distribuída entre várias estações de trabalho, um arquivo invertido global é um índice que permite a busca eficiente de informações no texto distribuído como um todo. Esse índice é composto por duas partes; o vocabulário global, isto é, o conjunto de palavras distintas presentes no texto distribuído, e as listas de ocorrências globais, que apontam para os documentos da coleção nos quais cada palavra do vocabulário ocorre. O ambiente de operação considerado é uma rede de alta velocidade, pela qual as estações de trabalho possam se comunicar com pouca ou nenhuma contenção. As análises supõem que o texto encontra-se distribuído igualmente entre as estações e que o índice invertido a ser gerado é consideravelmente maior que a quantidade de memória principal disponível no ambiente. As listas de ocorrências são ordenadas pela freqüência dos termos nos documentos e comprimidas de forma a reduzir as demandas de espaço e o volume de dados transferidos pelos discos e pela rede. Três algoritmos distribuídossão discutidos e seus resultados analíticos e experimentais são comparados. Os experimentos mostram que, utilizando-se quatro estações de trabalho, o mais eficiente desses algoritmos é capaz de indexar 3 gigabytes de texto em menos de 14 minutos. As análises indicam que, no mesmo ambiente de experimentação, é possível indexar uma coleção de 100 gigabytes em menos de 6 horas.This work presents a family of distributed algorithms to build global inverted files over large text collections. Given a document collection which is distributed among workstations in a network, a global inverted file is an index that allows fast searching in the distributed text as awhole. The index is composed by two parts: the global vocabulary - the set of all distinct words appearing in the distributed text - and the global lists of occurrences pointing to the documents in which each term in the vocabulary occurs. The operating environment considered is a highbandwidth network of workstations which allows the machines to communicate with hardly no contention. The analysis assume that the text is evenly distributed among the workstations and that the index to be generated is considerably larger than the main memory available inthe environment. The inverted lists are sorted by the frequencies of the terms in the documents and compressed in order to reduce the space requirements and the volume of data transferred through the disks and the network. Three alternatives are discussed and their analytical andexperimental results are compared. The experiments show that with four machines the most efficient algorithm can invert 3 gigabytes of text in less than 14 minutes and the analysis point that in the same environment it is feasible to invert a 100-gigabyte collection in less than 6 hours.Universidade Federal de Minas GeraisUFMGAlgoritmos de computadorRecuperação da informação TeseComputaçãoCiência da computaçãoAlgoritmos distribuídos para a construção de arquivos invertidosinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALdissertacao_mardensilveiraneubert.pdfapplication/pdf5026470https://repositorio.ufmg.br/bitstream/1843/BUBD-9KLM8U/1/dissertacao_mardensilveiraneubert.pdf611b5c808f14e9174d86b96ba1f5665cMD51TEXTdissertacao_mardensilveiraneubert.pdf.txtdissertacao_mardensilveiraneubert.pdf.txtExtracted texttext/plain317719https://repositorio.ufmg.br/bitstream/1843/BUBD-9KLM8U/2/dissertacao_mardensilveiraneubert.pdf.txt69fe40517278a231ae7211bd73dbb46aMD521843/BUBD-9KLM8U2019-11-14 17:32:36.564oai:repositorio.ufmg.br:1843/BUBD-9KLM8URepositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T20:32:36Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
|