Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação

Detalhes bibliográficos
Autor(a) principal: Exposto, José
Data de Publicação: 1997
Tipo de documento: Dissertação
Idioma: por
Título da fonte: Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
Texto Completo: http://hdl.handle.net/10198/1894
Resumo: A procura de documentos relevantes em colecções de grandes dimensões é um processo que envolve uma carga computacional muito elevada e uma enorme necessidade em termos de capacidade de armazenamento de dados. Apesar de toda a investigação feita, no sentido de minimizar o espaço físico ocupado pelos documentos, através de técnicas de filtragem, eliminação de palavras comuns e radicalização, são ainda exigidas grandes necessidades de armazenamento devido ao grande número de documentos das colecções. Se aliarmos as técnicas de aglomeração à distribuição de cada um dos aglomerados, por máquinas ligadas por uma rede de grande velocidade, podemos repartir o espaço ocupado pela totalidade da colecção e tirar ainda partido da utilização concorrente do poder computacional de várias máquinas, quer no processo de classificação, quer no processo de selecção de documentos relevantes a pedidos de utilizadores. A investigação apresentada nesta tese tem por objectivo verificar as potencialidades reais da distribuição dos aglomerados de documentos e fazer uma estudo comparativo do desempenho de um sistema de Recuperação de Informação variando o número de aglomerados nos modos local e distribuído. The search for relevant documents in huge collections requires very high computer load and storage overhead. Although, many research has been made towards the minimization of the document overall space overhead through stoplist techniques and stemming, the storage needed to support 60 big collections is still very high. Putting together the decomposition of big collections using clustering algorithms, and their distribution in a high speed network, it would be possible to divide the total document space by each of the network machines, and yet to get concurrent computational processing resources from those same machines. It is the goal of this thesis to verify the real potentialities of clustering distribution making a comparative study of the performance of an Information Retrieval system changing the number of clusters and confronting a local and distributed mode of that system.
id RCAP_e9d723153b6265473181acf3da0d1837
oai_identifier_str oai:bibliotecadigital.ipb.pt:10198/1894
network_acronym_str RCAP
network_name_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository_id_str 7160
spelling Aglomeração não hierárquica em sistemas distribuídos de recuperação de informaçãoA procura de documentos relevantes em colecções de grandes dimensões é um processo que envolve uma carga computacional muito elevada e uma enorme necessidade em termos de capacidade de armazenamento de dados. Apesar de toda a investigação feita, no sentido de minimizar o espaço físico ocupado pelos documentos, através de técnicas de filtragem, eliminação de palavras comuns e radicalização, são ainda exigidas grandes necessidades de armazenamento devido ao grande número de documentos das colecções. Se aliarmos as técnicas de aglomeração à distribuição de cada um dos aglomerados, por máquinas ligadas por uma rede de grande velocidade, podemos repartir o espaço ocupado pela totalidade da colecção e tirar ainda partido da utilização concorrente do poder computacional de várias máquinas, quer no processo de classificação, quer no processo de selecção de documentos relevantes a pedidos de utilizadores. A investigação apresentada nesta tese tem por objectivo verificar as potencialidades reais da distribuição dos aglomerados de documentos e fazer uma estudo comparativo do desempenho de um sistema de Recuperação de Informação variando o número de aglomerados nos modos local e distribuído. The search for relevant documents in huge collections requires very high computer load and storage overhead. Although, many research has been made towards the minimization of the document overall space overhead through stoplist techniques and stemming, the storage needed to support 60 big collections is still very high. Putting together the decomposition of big collections using clustering algorithms, and their distribution in a high speed network, it would be possible to divide the total document space by each of the network machines, and yet to get concurrent computational processing resources from those same machines. It is the goal of this thesis to verify the real potentialities of clustering distribution making a comparative study of the performance of an Information Retrieval system changing the number of clusters and confronting a local and distributed mode of that system.Universidade do MinhoBiblioteca Digital do IPBExposto, José2010-02-12T16:36:50Z19971997-01-01T00:00:00Zinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisapplication/pdfhttp://hdl.handle.net/10198/1894porExposto, José (1997). Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação. Braga: Universidade do Minho. Dissertação de Mestrado em Informáticainfo:eu-repo/semantics/openAccessreponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãoinstacron:RCAAP2023-11-21T10:06:05Zoai:bibliotecadigital.ipb.pt:10198/1894Portal AgregadorONGhttps://www.rcaap.pt/oai/openaireopendoar:71602024-03-19T22:55:16.788408Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informaçãofalse
dc.title.none.fl_str_mv Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
title Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
spellingShingle Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
Exposto, José
title_short Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
title_full Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
title_fullStr Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
title_full_unstemmed Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
title_sort Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação
author Exposto, José
author_facet Exposto, José
author_role author
dc.contributor.none.fl_str_mv Biblioteca Digital do IPB
dc.contributor.author.fl_str_mv Exposto, José
description A procura de documentos relevantes em colecções de grandes dimensões é um processo que envolve uma carga computacional muito elevada e uma enorme necessidade em termos de capacidade de armazenamento de dados. Apesar de toda a investigação feita, no sentido de minimizar o espaço físico ocupado pelos documentos, através de técnicas de filtragem, eliminação de palavras comuns e radicalização, são ainda exigidas grandes necessidades de armazenamento devido ao grande número de documentos das colecções. Se aliarmos as técnicas de aglomeração à distribuição de cada um dos aglomerados, por máquinas ligadas por uma rede de grande velocidade, podemos repartir o espaço ocupado pela totalidade da colecção e tirar ainda partido da utilização concorrente do poder computacional de várias máquinas, quer no processo de classificação, quer no processo de selecção de documentos relevantes a pedidos de utilizadores. A investigação apresentada nesta tese tem por objectivo verificar as potencialidades reais da distribuição dos aglomerados de documentos e fazer uma estudo comparativo do desempenho de um sistema de Recuperação de Informação variando o número de aglomerados nos modos local e distribuído. The search for relevant documents in huge collections requires very high computer load and storage overhead. Although, many research has been made towards the minimization of the document overall space overhead through stoplist techniques and stemming, the storage needed to support 60 big collections is still very high. Putting together the decomposition of big collections using clustering algorithms, and their distribution in a high speed network, it would be possible to divide the total document space by each of the network machines, and yet to get concurrent computational processing resources from those same machines. It is the goal of this thesis to verify the real potentialities of clustering distribution making a comparative study of the performance of an Information Retrieval system changing the number of clusters and confronting a local and distributed mode of that system.
publishDate 1997
dc.date.none.fl_str_mv 1997
1997-01-01T00:00:00Z
2010-02-12T16:36:50Z
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/masterThesis
format masterThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10198/1894
url http://hdl.handle.net/10198/1894
dc.language.iso.fl_str_mv por
language por
dc.relation.none.fl_str_mv Exposto, José (1997). Aglomeração não hierárquica em sistemas distribuídos de recuperação de informação. Braga: Universidade do Minho. Dissertação de Mestrado em Informática
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.publisher.none.fl_str_mv Universidade do Minho
publisher.none.fl_str_mv Universidade do Minho
dc.source.none.fl_str_mv reponame:Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
instname:Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron:RCAAP
instname_str Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
instacron_str RCAAP
institution RCAAP
reponame_str Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
collection Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos)
repository.name.fl_str_mv Repositório Científico de Acesso Aberto de Portugal (Repositórios Cientìficos) - Agência para a Sociedade do Conhecimento (UMIC) - FCT - Sociedade da Informação
repository.mail.fl_str_mv
_version_ 1799135155573489664