Graph pattern mining: consolidating models, systems, and abstractions

Detalhes bibliográficos
Autor(a) principal: Vinícius Vitor dos Santos Dias
Data de Publicação: 2023
Tipo de documento: Tese
Idioma: eng
Título da fonte: Repositório Institucional da UFMG
Texto Completo: http://hdl.handle.net/1843/51806
Resumo: Mineração de padrões em grafos (MPG) se refere a uma classe de problemas envolvendo o processamento de subgrafos extraídos de um único grafo maior. Aplicações para algoritmos de MPG incluem consultas por subgrafos com certas propriedades de interesse, identificação de estruturas em redes biológicas, caracterização de redes sociais, entre outras. Desenvolver algoritmos de MPG é desafiador principalmente pela inerente presença de sub-rotinas não-triviais lidando com conceitos complexos em teoria de grafos, como identificação de isomorfismos. Neste contexto, sistemas de propósito geral para MPG surgem como uma alternativa para melhorar a experiência de usuários com esses algoritmos. Entretanto, sistemas de propósito geral para MPG falham em prover um modelo que seja de fácil entendimento e, ao mesmo tempo, qualificado para exprimir algoritmos alternativos para um mesmo problema usando diferentes paradigmas de enumeração de subgrafos, limitando a integração com fluxos de análise de dados atuais. Além disso, como sistemas de MPG são tão heterogêneos no que se refere aos paradigmas suportados e ambientes de execução, análises experimentais existentes são incapazes de diferenciar se as diferenças encontradas no desempenho dos sistemas são melhor explicadas pelos algoritmos utilizados ou pelos detalhes de implementação. Nesta tese, propomos um modelo para MPG baseado em primitivas, uma implementação distribuída escalável como prova de conceito para o modelo e uma avaliação experimental extensiva dos paradigmas mais usados por sistemas de MPG. Nós demonstramos empiricamente a efetividade de nossas soluções ao observar um desempenho competitivo em relação às propostas existentes sem sacrificar a expressividade dos algoritmos ou a capacidade de composição dos operadores. Nossos resultados mostram ainda que nenhum paradigma é melhor em todo cenário de aplicação e acreditamos que essa e outras de nossas descobertas podem guiar interessados em direção a sistemas de MPG mais otimizados no futuro.
id UFMG_149cea87d3ef258ba5ffba7192a96eaf
oai_identifier_str oai:repositorio.ufmg.br:1843/51806
network_acronym_str UFMG
network_name_str Repositório Institucional da UFMG
repository_id_str
spelling Dorgival Olavo Guedes Netohttp://lattes.cnpq.br/3551809247862378Srinivasan ParthasarathyArlei Lopes da SilvaÍtalo Fernando Scotá CunhaVinícius Fernandes dos SantosWagner Meira Júniorhttp://lattes.cnpq.br/2203331147452803Vinícius Vitor dos Santos Dias2023-04-11T17:20:09Z2023-04-11T17:20:09Z2023-03-24http://hdl.handle.net/1843/51806Mineração de padrões em grafos (MPG) se refere a uma classe de problemas envolvendo o processamento de subgrafos extraídos de um único grafo maior. Aplicações para algoritmos de MPG incluem consultas por subgrafos com certas propriedades de interesse, identificação de estruturas em redes biológicas, caracterização de redes sociais, entre outras. Desenvolver algoritmos de MPG é desafiador principalmente pela inerente presença de sub-rotinas não-triviais lidando com conceitos complexos em teoria de grafos, como identificação de isomorfismos. Neste contexto, sistemas de propósito geral para MPG surgem como uma alternativa para melhorar a experiência de usuários com esses algoritmos. Entretanto, sistemas de propósito geral para MPG falham em prover um modelo que seja de fácil entendimento e, ao mesmo tempo, qualificado para exprimir algoritmos alternativos para um mesmo problema usando diferentes paradigmas de enumeração de subgrafos, limitando a integração com fluxos de análise de dados atuais. Além disso, como sistemas de MPG são tão heterogêneos no que se refere aos paradigmas suportados e ambientes de execução, análises experimentais existentes são incapazes de diferenciar se as diferenças encontradas no desempenho dos sistemas são melhor explicadas pelos algoritmos utilizados ou pelos detalhes de implementação. Nesta tese, propomos um modelo para MPG baseado em primitivas, uma implementação distribuída escalável como prova de conceito para o modelo e uma avaliação experimental extensiva dos paradigmas mais usados por sistemas de MPG. Nós demonstramos empiricamente a efetividade de nossas soluções ao observar um desempenho competitivo em relação às propostas existentes sem sacrificar a expressividade dos algoritmos ou a capacidade de composição dos operadores. Nossos resultados mostram ainda que nenhum paradigma é melhor em todo cenário de aplicação e acreditamos que essa e outras de nossas descobertas podem guiar interessados em direção a sistemas de MPG mais otimizados no futuro.Graph Pattern Mining (GPM) refers to a class of problems involving the processing of subgraphs extracted from larger graphs. Applications to GPM algorithms include querying subgraphs with given properties of interest, identifying motif structures in biological networks, characterizing social media, among others. GPM algorithms are challenging to develop due to inherently subroutines that include non-trivial graph theory concepts and methods such as isomorphism. General-purpose GPM systems emerge as a solution to improve the user experience with such algorithms. However, general-purpose GPM systems fail in providing a consistent model that is simple to understand and qualified to express alternative algorithms for the same problem via different paradigms for subgraph enumeration, limiting the integration with modern data analytics pipelines. Furthermore, because GPM systems are so heterogeneous in terms of supported paradigms and computing architecture, existing experimental evaluations are unable to distinguish whether performance differences are best explained by algorithmic strategies or implementation details. In this work we propose a primitive-based model for GPM, a proof of concept distributed implementation of that model, and an extensive experimentation analysis of popular algorithmic paradigms used in GPM systems. We demonstrate empirically the effectiveness of our model by showing competitive performance against state-of-the-art systems without sacrificing the expressiveness of algorithms or the composability of operators. Our experimental results also show that no single paradigm is best for every application scenario, and we believe that our findings may guide practitioner towards more optimized GPM systems in the future.CNPq - Conselho Nacional de Desenvolvimento Científico e TecnológicoCAPES - Coordenação de Aperfeiçoamento de Pessoal de Nível SuperiorengUniversidade Federal de Minas GeraisPrograma de Pós-Graduação em Ciência da ComputaçãoUFMGBrasilICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃOComputação – TesesMineração de padrões em grafos – TesesSistemas distribuídos – TesesMineração de padrões em grafosSistemas distribuídosGraph pattern mining: consolidating models, systems, and abstractionsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFMGinstname:Universidade Federal de Minas Gerais (UFMG)instacron:UFMGORIGINALtese-vinicius-dias-2023.pdftese-vinicius-dias-2023.pdftese com a correção de não incluir número de páginas antes da introd.application/pdf4193692https://repositorio.ufmg.br/bitstream/1843/51806/3/tese-vinicius-dias-2023.pdf1575c7f6a8deb8bfe23c9b60762f6d0aMD53LICENSElicense.txtlicense.txttext/plain; charset=utf-82118https://repositorio.ufmg.br/bitstream/1843/51806/4/license.txtcda590c95a0b51b4d15f60c9642ca272MD541843/518062023-04-11 14:20:10.218oai:repositorio.ufmg.br:1843/51806TElDRU7Dh0EgREUgRElTVFJJQlVJw4fDg08gTsODTy1FWENMVVNJVkEgRE8gUkVQT1NJVMOTUklPIElOU1RJVFVDSU9OQUwgREEgVUZNRwoKQ29tIGEgYXByZXNlbnRhw6fDo28gZGVzdGEgbGljZW7Dp2EsIHZvY8OqIChvIGF1dG9yIChlcykgb3UgbyB0aXR1bGFyIGRvcyBkaXJlaXRvcyBkZSBhdXRvcikgY29uY2VkZSBhbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIChSSS1VRk1HKSBvIGRpcmVpdG8gbsOjbyBleGNsdXNpdm8gZSBpcnJldm9nw6F2ZWwgZGUgcmVwcm9kdXppciBlL291IGRpc3RyaWJ1aXIgYSBzdWEgcHVibGljYcOnw6NvIChpbmNsdWluZG8gbyByZXN1bW8pIHBvciB0b2RvIG8gbXVuZG8gbm8gZm9ybWF0byBpbXByZXNzbyBlIGVsZXRyw7RuaWNvIGUgZW0gcXVhbHF1ZXIgbWVpbywgaW5jbHVpbmRvIG9zIGZvcm1hdG9zIMOhdWRpbyBvdSB2w61kZW8uCgpWb2PDqiBkZWNsYXJhIHF1ZSBjb25oZWNlIGEgcG9sw610aWNhIGRlIGNvcHlyaWdodCBkYSBlZGl0b3JhIGRvIHNldSBkb2N1bWVudG8gZSBxdWUgY29uaGVjZSBlIGFjZWl0YSBhcyBEaXJldHJpemVzIGRvIFJJLVVGTUcuCgpWb2PDqiBjb25jb3JkYSBxdWUgbyBSZXBvc2l0w7NyaW8gSW5zdGl0dWNpb25hbCBkYSBVRk1HIHBvZGUsIHNlbSBhbHRlcmFyIG8gY29udGXDumRvLCB0cmFuc3BvciBhIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBxdWFscXVlciBtZWlvIG91IGZvcm1hdG8gcGFyYSBmaW5zIGRlIHByZXNlcnZhw6fDo28uCgpWb2PDqiB0YW1iw6ltIGNvbmNvcmRhIHF1ZSBvIFJlcG9zaXTDs3JpbyBJbnN0aXR1Y2lvbmFsIGRhIFVGTUcgcG9kZSBtYW50ZXIgbWFpcyBkZSB1bWEgY8OzcGlhIGRlIHN1YSBwdWJsaWNhw6fDo28gcGFyYSBmaW5zIGRlIHNlZ3VyYW7Dp2EsIGJhY2stdXAgZSBwcmVzZXJ2YcOnw6NvLgoKVm9jw6ogZGVjbGFyYSBxdWUgYSBzdWEgcHVibGljYcOnw6NvIMOpIG9yaWdpbmFsIGUgcXVlIHZvY8OqIHRlbSBvIHBvZGVyIGRlIGNvbmNlZGVyIG9zIGRpcmVpdG9zIGNvbnRpZG9zIG5lc3RhIGxpY2Vuw6dhLiBWb2PDqiB0YW1iw6ltIGRlY2xhcmEgcXVlIG8gZGVww7NzaXRvIGRlIHN1YSBwdWJsaWNhw6fDo28gbsOjbywgcXVlIHNlamEgZGUgc2V1IGNvbmhlY2ltZW50bywgaW5mcmluZ2UgZGlyZWl0b3MgYXV0b3JhaXMgZGUgbmluZ3XDqW0uCgpDYXNvIGEgc3VhIHB1YmxpY2HDp8OjbyBjb250ZW5oYSBtYXRlcmlhbCBxdWUgdm9jw6ogbsOjbyBwb3NzdWkgYSB0aXR1bGFyaWRhZGUgZG9zIGRpcmVpdG9zIGF1dG9yYWlzLCB2b2PDqiBkZWNsYXJhIHF1ZSBvYnRldmUgYSBwZXJtaXNzw6NvIGlycmVzdHJpdGEgZG8gZGV0ZW50b3IgZG9zIGRpcmVpdG9zIGF1dG9yYWlzIHBhcmEgY29uY2VkZXIgYW8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBvcyBkaXJlaXRvcyBhcHJlc2VudGFkb3MgbmVzdGEgbGljZW7Dp2EsIGUgcXVlIGVzc2UgbWF0ZXJpYWwgZGUgcHJvcHJpZWRhZGUgZGUgdGVyY2Vpcm9zIGVzdMOhIGNsYXJhbWVudGUgaWRlbnRpZmljYWRvIGUgcmVjb25oZWNpZG8gbm8gdGV4dG8gb3Ugbm8gY29udGXDumRvIGRhIHB1YmxpY2HDp8OjbyBvcmEgZGVwb3NpdGFkYS4KCkNBU08gQSBQVUJMSUNBw4fDg08gT1JBIERFUE9TSVRBREEgVEVOSEEgU0lETyBSRVNVTFRBRE8gREUgVU0gUEFUUk9Dw41OSU8gT1UgQVBPSU8gREUgVU1BIEFHw4pOQ0lBIERFIEZPTUVOVE8gT1UgT1VUUk8gT1JHQU5JU01PLCBWT0PDiiBERUNMQVJBIFFVRSBSRVNQRUlUT1UgVE9ET1MgRSBRVUFJU1FVRVIgRElSRUlUT1MgREUgUkVWSVPDg08gQ09NTyBUQU1Cw4lNIEFTIERFTUFJUyBPQlJJR0HDh8OVRVMgRVhJR0lEQVMgUE9SIENPTlRSQVRPIE9VIEFDT1JETy4KCk8gUmVwb3NpdMOzcmlvIEluc3RpdHVjaW9uYWwgZGEgVUZNRyBzZSBjb21wcm9tZXRlIGEgaWRlbnRpZmljYXIgY2xhcmFtZW50ZSBvIHNldSBub21lKHMpIG91IG8ocykgbm9tZXMocykgZG8ocykgZGV0ZW50b3IoZXMpIGRvcyBkaXJlaXRvcyBhdXRvcmFpcyBkYSBwdWJsaWNhw6fDo28sIGUgbsOjbyBmYXLDoSBxdWFscXVlciBhbHRlcmHDp8OjbywgYWzDqW0gZGFxdWVsYXMgY29uY2VkaWRhcyBwb3IgZXN0YSBsaWNlbsOnYS4KRepositório de PublicaçõesPUBhttps://repositorio.ufmg.br/oaiopendoar:2023-04-11T17:20:10Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)false
dc.title.pt_BR.fl_str_mv Graph pattern mining: consolidating models, systems, and abstractions
title Graph pattern mining: consolidating models, systems, and abstractions
spellingShingle Graph pattern mining: consolidating models, systems, and abstractions
Vinícius Vitor dos Santos Dias
Mineração de padrões em grafos
Sistemas distribuídos
Computação – Teses
Mineração de padrões em grafos – Teses
Sistemas distribuídos – Teses
title_short Graph pattern mining: consolidating models, systems, and abstractions
title_full Graph pattern mining: consolidating models, systems, and abstractions
title_fullStr Graph pattern mining: consolidating models, systems, and abstractions
title_full_unstemmed Graph pattern mining: consolidating models, systems, and abstractions
title_sort Graph pattern mining: consolidating models, systems, and abstractions
author Vinícius Vitor dos Santos Dias
author_facet Vinícius Vitor dos Santos Dias
author_role author
dc.contributor.advisor1.fl_str_mv Dorgival Olavo Guedes Neto
dc.contributor.advisor1Lattes.fl_str_mv http://lattes.cnpq.br/3551809247862378
dc.contributor.referee1.fl_str_mv Srinivasan Parthasarathy
dc.contributor.referee2.fl_str_mv Arlei Lopes da Silva
dc.contributor.referee3.fl_str_mv Ítalo Fernando Scotá Cunha
dc.contributor.referee4.fl_str_mv Vinícius Fernandes dos Santos
dc.contributor.referee5.fl_str_mv Wagner Meira Júnior
dc.contributor.authorLattes.fl_str_mv http://lattes.cnpq.br/2203331147452803
dc.contributor.author.fl_str_mv Vinícius Vitor dos Santos Dias
contributor_str_mv Dorgival Olavo Guedes Neto
Srinivasan Parthasarathy
Arlei Lopes da Silva
Ítalo Fernando Scotá Cunha
Vinícius Fernandes dos Santos
Wagner Meira Júnior
dc.subject.por.fl_str_mv Mineração de padrões em grafos
Sistemas distribuídos
topic Mineração de padrões em grafos
Sistemas distribuídos
Computação – Teses
Mineração de padrões em grafos – Teses
Sistemas distribuídos – Teses
dc.subject.other.pt_BR.fl_str_mv Computação – Teses
Mineração de padrões em grafos – Teses
Sistemas distribuídos – Teses
description Mineração de padrões em grafos (MPG) se refere a uma classe de problemas envolvendo o processamento de subgrafos extraídos de um único grafo maior. Aplicações para algoritmos de MPG incluem consultas por subgrafos com certas propriedades de interesse, identificação de estruturas em redes biológicas, caracterização de redes sociais, entre outras. Desenvolver algoritmos de MPG é desafiador principalmente pela inerente presença de sub-rotinas não-triviais lidando com conceitos complexos em teoria de grafos, como identificação de isomorfismos. Neste contexto, sistemas de propósito geral para MPG surgem como uma alternativa para melhorar a experiência de usuários com esses algoritmos. Entretanto, sistemas de propósito geral para MPG falham em prover um modelo que seja de fácil entendimento e, ao mesmo tempo, qualificado para exprimir algoritmos alternativos para um mesmo problema usando diferentes paradigmas de enumeração de subgrafos, limitando a integração com fluxos de análise de dados atuais. Além disso, como sistemas de MPG são tão heterogêneos no que se refere aos paradigmas suportados e ambientes de execução, análises experimentais existentes são incapazes de diferenciar se as diferenças encontradas no desempenho dos sistemas são melhor explicadas pelos algoritmos utilizados ou pelos detalhes de implementação. Nesta tese, propomos um modelo para MPG baseado em primitivas, uma implementação distribuída escalável como prova de conceito para o modelo e uma avaliação experimental extensiva dos paradigmas mais usados por sistemas de MPG. Nós demonstramos empiricamente a efetividade de nossas soluções ao observar um desempenho competitivo em relação às propostas existentes sem sacrificar a expressividade dos algoritmos ou a capacidade de composição dos operadores. Nossos resultados mostram ainda que nenhum paradigma é melhor em todo cenário de aplicação e acreditamos que essa e outras de nossas descobertas podem guiar interessados em direção a sistemas de MPG mais otimizados no futuro.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-04-11T17:20:09Z
dc.date.available.fl_str_mv 2023-04-11T17:20:09Z
dc.date.issued.fl_str_mv 2023-03-24
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/1843/51806
url http://hdl.handle.net/1843/51806
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.publisher.program.fl_str_mv Programa de Pós-Graduação em Ciência da Computação
dc.publisher.initials.fl_str_mv UFMG
dc.publisher.country.fl_str_mv Brasil
dc.publisher.department.fl_str_mv ICX - DEPARTAMENTO DE CIÊNCIA DA COMPUTAÇÃO
publisher.none.fl_str_mv Universidade Federal de Minas Gerais
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFMG
instname:Universidade Federal de Minas Gerais (UFMG)
instacron:UFMG
instname_str Universidade Federal de Minas Gerais (UFMG)
instacron_str UFMG
institution UFMG
reponame_str Repositório Institucional da UFMG
collection Repositório Institucional da UFMG
bitstream.url.fl_str_mv https://repositorio.ufmg.br/bitstream/1843/51806/3/tese-vinicius-dias-2023.pdf
https://repositorio.ufmg.br/bitstream/1843/51806/4/license.txt
bitstream.checksum.fl_str_mv 1575c7f6a8deb8bfe23c9b60762f6d0a
cda590c95a0b51b4d15f60c9642ca272
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFMG - Universidade Federal de Minas Gerais (UFMG)
repository.mail.fl_str_mv
_version_ 1803589565553836032