spelling |
Wagner Meira JuniorAdriano Alonso VelosoSebastián Alberto UrrutiaAlexandre Plastino de CarvalhoCarlos Henrique de Carvalho Teixeira2019-08-14T08:56:19Z2019-08-14T08:56:19Z2011-05-13http://hdl.handle.net/1843/SLSS-8HTML5Grafos são estruturas de dados universais capazes de representar objetos e conceitos. Nas últimas décadas, o interesse por essa estrutura tem sido impulsionado pela grande quantidade de dados modelados naturalmente como grafos. O objetivo deste trabalho é comparar dois grafos quaisquer de forma eficiente e eficaz, facilitando as análises de grandes bases de dados. Primeiro, os grafos são decompostos em subestruturas chamadas de caminhos aproximados. A similaridade entre dois grafos é, então, calculada em função do número de subestruturas compartilhadas entre eles. Visto que o conjunto de subestruturas gerado para representar um grafo pode ser grande, nós utilizamos técnicas de hashing para reduzí-lo a um conteúdo fixo e pequeno de informacão. Além de tornar possível a análise em memória principal, as assinaturas estimam a similaridade entre os conjuntos de forma eficiente, com qualidade assegurada. Os experimentos realizados em cenários reais mostram a efetividade do método proposto.A graph is a universal data structure, useful to represent several objects and concepts.In the recent decades, the interest in graphs has been driven by a large amount of dataavailable. Examples include XML repositories, social networks, biological networks,and chemical graphs. Therefore, it is necessary to manage, query and analyze suchlarge graph data efficiently.The central problem of this thesis is the computation of the similarity betweengraphs in an efficient and effective manner. The proposed approach may be dividedinto two parts: (1) a transformation function, and (2) a signature function. A transformationfunction decomposes the input graph into approximate paths, which aresubstructures presented by this work. Approximate paths differ from simple paths byallowing gaps between nodes. Such flexible substructures are able to describe directand indirect relationships in graphs. The similarity between two graphs is computedthrough a kernel function based on the number of substructures shared by them. Sincethe number of substructures that represent a graph may be large, a signature functionapplies a hashing technique in order to provide a short descriptor for a set of substructures.The signatures are short enough to fit into the main memory and may estimatethe similarity between the sets efficiently, with theoretically guaranteed effectiveness.We have evaluated the proposed method using several real and synthetic datasets,from different application scenarios, such as information retrieval and classification.The results show that approximate paths may be used efficiently and achieve gainsw.r.t. the techniques from the literature.Universidade Federal de Minas GeraisUFMGTeoria dos grafosComputaçãoMineração de dados (Computação)Ciência da ComputaçãoSimilaridade de grafos via hashinginfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisinfo:eu-repo/semantics/openAccessporreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALcarloshenriquedecarvalhoteixeira.pdfapplication/pdf4813412https://repositorio.ufmg.br/bitstream/1843/SLSS-8HTML5/1/carloshenriquedecarvalhoteixeira.pdf115b3cff8c6661f40816c5c7c3d1a9abMD51TEXTcarloshenriquedecarvalhoteixeira.pdf.txtcarloshenriquedecarvalhoteixeira.pdf.txtExtracted texttext/plain181494https://repositorio.ufmg.br/bitstream/1843/SLSS-8HTML5/2/carloshenriquedecarvalhoteixeira.pdf.txt1a8483e0cf887d60cf6ec7cec3a6e66eMD521843/SLSS-8HTML52019-11-14 16:21:11.268oai:repositorio.ufmg.br:1843/SLSS-8HTML5Repositório InstitucionalPUBhttps://repositorio.ufmg.br/oaiopendoar:2019-11-14T19:21:11Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
|