Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs
Autor(a) principal: | |
---|---|
Data de Publicação: | 2020 |
Tipo de documento: | Dissertação |
Idioma: | eng |
Título da fonte: | Repositório Institucional da UFJF |
Texto Completo: | https://repositorio.ufjf.br/jspui/handle/ufjf/12302 |
Resumo: | Muitos experimentos científicos são modelados como workflows (fluxos de trabalho). Workflows produzem comumente um grande volume de dados. De forma a garantir a reprodutibilidade desses workflows, estes geralmente são orquestrados por Sistemas de Gerência de Workflows (SGWfs), garantindo que dados de proveniência sejam capturados. Dados de proveniência representam o histórico de derivação de um dado ao longo da execução do workflow. Assim, o histórico de derivação dos dados pode ser representado por meio de um grafo de proveniência. Este grafo possibilita aos cientistas analisarem e avaliarem resultados produzidos por um workflow. Todavia, cada SGWf tem seu formato proprietário de representação para dados de proveniência, e os armazenam em diferentes granularidades. Consequentemente, em cenários mais complexos em que um cientista precisa analisar de forma integrada grafos de proveniência gerados por múltiplos workflows, isso se torna desafiador. Primeiramente, para entender o campo de pesquisa, realizamos um Mapeamento Sistemático da Literatura, avaliando soluções existentes sob diferentes lentes. Com uma compreensão mais clara do atual estado da arte, propomos uma ferramenta chamada Polyflow, inspirada em conceitos de sistemas Polystore, possibilitando a integração de várias bases de dados heterogêneas por meio de uma interface de consulta única que utiliza o ProvONE como schema global. Polyflow permite que cientistas submetam consultas em múltiplos grafos de proveniência de maneira integrada. Polyflow foi avaliado em conjunto com especialistas usando dados de proveniência coletados de workflows reais que apoiam o estudo de geração de árvores filogenéticas. O resultado da avaliação mostrou a viabilidade do Polyflow para interoperar semanticamente dados de proveniência gerado por distintos SGWfs, tanto do ponto de vista de desempenho quanto de usabilidade. |
id |
UFJF_cb1e1b1c5b2b3cff340c7334f36a9675 |
---|---|
oai_identifier_str |
oai:hermes.cpd.ufjf.br:ufjf/12302 |
network_acronym_str |
UFJF |
network_name_str |
Repositório Institucional da UFJF |
repository_id_str |
|
spelling |
Menezes, Victor Ströele de Andradehttp://lattes.cnpq.br/7561791813071961Oliveira, Daniel dehttp://lattes.cnpq.br/Braga, Regina Maria Macielhttp://lattes.cnpq.br/7690593698223418Azevedo, Leonardohttp://lattes.cnpq.br/http://lattes.cnpq.br/2612789966832261Ferreira, Yan Mendes2021-02-03T19:03:08Z2021-02-022021-02-03T19:03:08Z2020-11-13https://repositorio.ufjf.br/jspui/handle/ufjf/12302Muitos experimentos científicos são modelados como workflows (fluxos de trabalho). Workflows produzem comumente um grande volume de dados. De forma a garantir a reprodutibilidade desses workflows, estes geralmente são orquestrados por Sistemas de Gerência de Workflows (SGWfs), garantindo que dados de proveniência sejam capturados. Dados de proveniência representam o histórico de derivação de um dado ao longo da execução do workflow. Assim, o histórico de derivação dos dados pode ser representado por meio de um grafo de proveniência. Este grafo possibilita aos cientistas analisarem e avaliarem resultados produzidos por um workflow. Todavia, cada SGWf tem seu formato proprietário de representação para dados de proveniência, e os armazenam em diferentes granularidades. Consequentemente, em cenários mais complexos em que um cientista precisa analisar de forma integrada grafos de proveniência gerados por múltiplos workflows, isso se torna desafiador. Primeiramente, para entender o campo de pesquisa, realizamos um Mapeamento Sistemático da Literatura, avaliando soluções existentes sob diferentes lentes. Com uma compreensão mais clara do atual estado da arte, propomos uma ferramenta chamada Polyflow, inspirada em conceitos de sistemas Polystore, possibilitando a integração de várias bases de dados heterogêneas por meio de uma interface de consulta única que utiliza o ProvONE como schema global. Polyflow permite que cientistas submetam consultas em múltiplos grafos de proveniência de maneira integrada. Polyflow foi avaliado em conjunto com especialistas usando dados de proveniência coletados de workflows reais que apoiam o estudo de geração de árvores filogenéticas. O resultado da avaliação mostrou a viabilidade do Polyflow para interoperar semanticamente dados de proveniência gerado por distintos SGWfs, tanto do ponto de vista de desempenho quanto de usabilidade.Many scientific experiments are modeled as workflows. Workflows usually output massive amounts of data. To guarantee the reproducibility of workflows, they are usually orchestrated by Workflow Management Systems (WfMS), that capture provenance data. Provenance represents the lineage of a data fragment throughout its transformations by activities in a workflow. Provenance traces are usually represented as graphs. These graphs allows scientists to analyze and evaluate results produced by a workflow. However, each WfMS has a proprietary format for provenance and do it in different granularity levels. Therefore, in more complex scenarios in which the scientist needs to interpret provenance graphs generated by multiple WfMSs and workflows, a challenge arises. To first understand the research landscape, we conduct a Systematic Literature Mapping, assessing existing solutions under several different lenses. With a clearer understanding of the state of the art, we propose a tool called Polyflow, which is based on the concept of Polystore systems, integrating several databases of heterogeneous origin by adopting a global ProvONE schema. Polyflow allows scientists to query multiple provenance graphs in an integrated way. Polyflow was evaluated by experts using provenance data collected from real experiments that generate phylogenetic trees through workflows. The experiment results suggest that Polyflow is a viable solution for interoperating heterogeneous provenance data generated by different WfMSs, from both a usability and performance standpoint.engUniversidade Federal de Juiz de Fora (UFJF)Programa de Pós-graduação em Ciência da ComputaçãoUFJFBrasilICE – Instituto de Ciências ExatasAttribution 3.0 Brazilhttp://creativecommons.org/licenses/by/3.0/br/info:eu-repo/semantics/openAccessCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOPolystoreInteroperabilidade sintáticaInteroperabilidade semânticaPolystoreSyntactic interoperabilitySemantic interoperabilityPolyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphsinfo:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/masterThesisreponame:Repositório Institucional da UFJFinstname:Universidade Federal de Juiz de Fora (UFJF)instacron:UFJFTEXTyanmendesferreira.pdf.txtyanmendesferreira.pdf.txtExtracted texttext/plain129775https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/4/yanmendesferreira.pdf.txte4e165ee63524e42b7a0f6b001b005d0MD54THUMBNAILyanmendesferreira.pdf.jpgyanmendesferreira.pdf.jpgGenerated Thumbnailimage/jpeg1147https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/5/yanmendesferreira.pdf.jpg6a7746b3a480bcfa3888e67afd2a827bMD55ORIGINALyanmendesferreira.pdfyanmendesferreira.pdfapplication/pdf1513381https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/1/yanmendesferreira.pdf899ede45aad3d9dbf2f59e2a3dbc4a38MD51CC-LICENSElicense_rdflicense_rdfapplication/rdf+xml; charset=utf-8914https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/2/license_rdf4d2950bda3d176f570a9f8b328dfbbefMD52LICENSElicense.txtlicense.txttext/plain; charset=utf-81748https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/3/license.txt8a4605be74aa9ea9d79846c1fba20a33MD53ufjf/123022021-02-04 04:08:05.687oai:hermes.cpd.ufjf.br:ufjf/12302Tk9URTogUExBQ0UgWU9VUiBPV04gTElDRU5TRSBIRVJFClRoaXMgc2FtcGxlIGxpY2Vuc2UgaXMgcHJvdmlkZWQgZm9yIGluZm9ybWF0aW9uYWwgcHVycG9zZXMgb25seS4KCk5PTi1FWENMVVNJVkUgRElTVFJJQlVUSU9OIExJQ0VOU0UKCkJ5IHNpZ25pbmcgYW5kIHN1Ym1pdHRpbmcgdGhpcyBsaWNlbnNlLCB5b3UgKHRoZSBhdXRob3Iocykgb3IgY29weXJpZ2h0Cm93bmVyKSBncmFudHMgdG8gRFNwYWNlIFVuaXZlcnNpdHkgKERTVSkgdGhlIG5vbi1leGNsdXNpdmUgcmlnaHQgdG8gcmVwcm9kdWNlLAp0cmFuc2xhdGUgKGFzIGRlZmluZWQgYmVsb3cpLCBhbmQvb3IgZGlzdHJpYnV0ZSB5b3VyIHN1Ym1pc3Npb24gKGluY2x1ZGluZwp0aGUgYWJzdHJhY3QpIHdvcmxkd2lkZSBpbiBwcmludCBhbmQgZWxlY3Ryb25pYyBmb3JtYXQgYW5kIGluIGFueSBtZWRpdW0sCmluY2x1ZGluZyBidXQgbm90IGxpbWl0ZWQgdG8gYXVkaW8gb3IgdmlkZW8uCgpZb3UgYWdyZWUgdGhhdCBEU1UgbWF5LCB3aXRob3V0IGNoYW5naW5nIHRoZSBjb250ZW50LCB0cmFuc2xhdGUgdGhlCnN1Ym1pc3Npb24gdG8gYW55IG1lZGl1bSBvciBmb3JtYXQgZm9yIHRoZSBwdXJwb3NlIG9mIHByZXNlcnZhdGlvbi4KCllvdSBhbHNvIGFncmVlIHRoYXQgRFNVIG1heSBrZWVwIG1vcmUgdGhhbiBvbmUgY29weSBvZiB0aGlzIHN1Ym1pc3Npb24gZm9yCnB1cnBvc2VzIG9mIHNlY3VyaXR5LCBiYWNrLXVwIGFuZCBwcmVzZXJ2YXRpb24uCgpZb3UgcmVwcmVzZW50IHRoYXQgdGhlIHN1Ym1pc3Npb24gaXMgeW91ciBvcmlnaW5hbCB3b3JrLCBhbmQgdGhhdCB5b3UgaGF2ZQp0aGUgcmlnaHQgdG8gZ3JhbnQgdGhlIHJpZ2h0cyBjb250YWluZWQgaW4gdGhpcyBsaWNlbnNlLiBZb3UgYWxzbyByZXByZXNlbnQKdGhhdCB5b3VyIHN1Ym1pc3Npb24gZG9lcyBub3QsIHRvIHRoZSBiZXN0IG9mIHlvdXIga25vd2xlZGdlLCBpbmZyaW5nZSB1cG9uCmFueW9uZSdzIGNvcHlyaWdodC4KCklmIHRoZSBzdWJtaXNzaW9uIGNvbnRhaW5zIG1hdGVyaWFsIGZvciB3aGljaCB5b3UgZG8gbm90IGhvbGQgY29weXJpZ2h0LAp5b3UgcmVwcmVzZW50IHRoYXQgeW91IGhhdmUgb2J0YWluZWQgdGhlIHVucmVzdHJpY3RlZCBwZXJtaXNzaW9uIG9mIHRoZQpjb3B5cmlnaHQgb3duZXIgdG8gZ3JhbnQgRFNVIHRoZSByaWdodHMgcmVxdWlyZWQgYnkgdGhpcyBsaWNlbnNlLCBhbmQgdGhhdApzdWNoIHRoaXJkLXBhcnR5IG93bmVkIG1hdGVyaWFsIGlzIGNsZWFybHkgaWRlbnRpZmllZCBhbmQgYWNrbm93bGVkZ2VkCndpdGhpbiB0aGUgdGV4dCBvciBjb250ZW50IG9mIHRoZSBzdWJtaXNzaW9uLgoKSUYgVEhFIFNVQk1JU1NJT04gSVMgQkFTRUQgVVBPTiBXT1JLIFRIQVQgSEFTIEJFRU4gU1BPTlNPUkVEIE9SIFNVUFBPUlRFRApCWSBBTiBBR0VOQ1kgT1IgT1JHQU5JWkFUSU9OIE9USEVSIFRIQU4gRFNVLCBZT1UgUkVQUkVTRU5UIFRIQVQgWU9VIEhBVkUKRlVMRklMTEVEIEFOWSBSSUdIVCBPRiBSRVZJRVcgT1IgT1RIRVIgT0JMSUdBVElPTlMgUkVRVUlSRUQgQlkgU1VDSApDT05UUkFDVCBPUiBBR1JFRU1FTlQuCgpEU1Ugd2lsbCBjbGVhcmx5IGlkZW50aWZ5IHlvdXIgbmFtZShzKSBhcyB0aGUgYXV0aG9yKHMpIG9yIG93bmVyKHMpIG9mIHRoZQpzdWJtaXNzaW9uLCBhbmQgd2lsbCBub3QgbWFrZSBhbnkgYWx0ZXJhdGlvbiwgb3RoZXIgdGhhbiBhcyBhbGxvd2VkIGJ5IHRoaXMKbGljZW5zZSwgdG8geW91ciBzdWJtaXNzaW9uLgo=Repositório InstitucionalPUBhttps://repositorio.ufjf.br/oai/requestopendoar:2021-02-04T06:08:05Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF)false |
dc.title.pt_BR.fl_str_mv |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
title |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
spellingShingle |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs Ferreira, Yan Mendes CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Polystore Interoperabilidade sintática Interoperabilidade semântica Polystore Syntactic interoperability Semantic interoperability |
title_short |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
title_full |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
title_fullStr |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
title_full_unstemmed |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
title_sort |
Polyflow: a Polystore-compliant mechanism to provide interoperability to heterogeneous provenance graphs |
author |
Ferreira, Yan Mendes |
author_facet |
Ferreira, Yan Mendes |
author_role |
author |
dc.contributor.advisor1.fl_str_mv |
Menezes, Victor Ströele de Andrade |
dc.contributor.advisor1Lattes.fl_str_mv |
http://lattes.cnpq.br/7561791813071961 |
dc.contributor.advisor-co1.fl_str_mv |
Oliveira, Daniel de |
dc.contributor.advisor-co1Lattes.fl_str_mv |
http://lattes.cnpq.br/ |
dc.contributor.referee1.fl_str_mv |
Braga, Regina Maria Maciel |
dc.contributor.referee1Lattes.fl_str_mv |
http://lattes.cnpq.br/7690593698223418 |
dc.contributor.referee2.fl_str_mv |
Azevedo, Leonardo |
dc.contributor.referee2Lattes.fl_str_mv |
http://lattes.cnpq.br/ |
dc.contributor.authorLattes.fl_str_mv |
http://lattes.cnpq.br/2612789966832261 |
dc.contributor.author.fl_str_mv |
Ferreira, Yan Mendes |
contributor_str_mv |
Menezes, Victor Ströele de Andrade Oliveira, Daniel de Braga, Regina Maria Maciel Azevedo, Leonardo |
dc.subject.cnpq.fl_str_mv |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO |
topic |
CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO Polystore Interoperabilidade sintática Interoperabilidade semântica Polystore Syntactic interoperability Semantic interoperability |
dc.subject.por.fl_str_mv |
Polystore Interoperabilidade sintática Interoperabilidade semântica Polystore Syntactic interoperability Semantic interoperability |
description |
Muitos experimentos científicos são modelados como workflows (fluxos de trabalho). Workflows produzem comumente um grande volume de dados. De forma a garantir a reprodutibilidade desses workflows, estes geralmente são orquestrados por Sistemas de Gerência de Workflows (SGWfs), garantindo que dados de proveniência sejam capturados. Dados de proveniência representam o histórico de derivação de um dado ao longo da execução do workflow. Assim, o histórico de derivação dos dados pode ser representado por meio de um grafo de proveniência. Este grafo possibilita aos cientistas analisarem e avaliarem resultados produzidos por um workflow. Todavia, cada SGWf tem seu formato proprietário de representação para dados de proveniência, e os armazenam em diferentes granularidades. Consequentemente, em cenários mais complexos em que um cientista precisa analisar de forma integrada grafos de proveniência gerados por múltiplos workflows, isso se torna desafiador. Primeiramente, para entender o campo de pesquisa, realizamos um Mapeamento Sistemático da Literatura, avaliando soluções existentes sob diferentes lentes. Com uma compreensão mais clara do atual estado da arte, propomos uma ferramenta chamada Polyflow, inspirada em conceitos de sistemas Polystore, possibilitando a integração de várias bases de dados heterogêneas por meio de uma interface de consulta única que utiliza o ProvONE como schema global. Polyflow permite que cientistas submetam consultas em múltiplos grafos de proveniência de maneira integrada. Polyflow foi avaliado em conjunto com especialistas usando dados de proveniência coletados de workflows reais que apoiam o estudo de geração de árvores filogenéticas. O resultado da avaliação mostrou a viabilidade do Polyflow para interoperar semanticamente dados de proveniência gerado por distintos SGWfs, tanto do ponto de vista de desempenho quanto de usabilidade. |
publishDate |
2020 |
dc.date.issued.fl_str_mv |
2020-11-13 |
dc.date.accessioned.fl_str_mv |
2021-02-03T19:03:08Z |
dc.date.available.fl_str_mv |
2021-02-02 2021-02-03T19:03:08Z |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/masterThesis |
format |
masterThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
https://repositorio.ufjf.br/jspui/handle/ufjf/12302 |
url |
https://repositorio.ufjf.br/jspui/handle/ufjf/12302 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ info:eu-repo/semantics/openAccess |
rights_invalid_str_mv |
Attribution 3.0 Brazil http://creativecommons.org/licenses/by/3.0/br/ |
eu_rights_str_mv |
openAccess |
dc.publisher.none.fl_str_mv |
Universidade Federal de Juiz de Fora (UFJF) |
dc.publisher.program.fl_str_mv |
Programa de Pós-graduação em Ciência da Computação |
dc.publisher.initials.fl_str_mv |
UFJF |
dc.publisher.country.fl_str_mv |
Brasil |
dc.publisher.department.fl_str_mv |
ICE – Instituto de Ciências Exatas |
publisher.none.fl_str_mv |
Universidade Federal de Juiz de Fora (UFJF) |
dc.source.none.fl_str_mv |
reponame:Repositório Institucional da UFJF instname:Universidade Federal de Juiz de Fora (UFJF) instacron:UFJF |
instname_str |
Universidade Federal de Juiz de Fora (UFJF) |
instacron_str |
UFJF |
institution |
UFJF |
reponame_str |
Repositório Institucional da UFJF |
collection |
Repositório Institucional da UFJF |
bitstream.url.fl_str_mv |
https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/4/yanmendesferreira.pdf.txt https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/5/yanmendesferreira.pdf.jpg https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/1/yanmendesferreira.pdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/2/license_rdf https://repositorio.ufjf.br/jspui/bitstream/ufjf/12302/3/license.txt |
bitstream.checksum.fl_str_mv |
e4e165ee63524e42b7a0f6b001b005d0 6a7746b3a480bcfa3888e67afd2a827b 899ede45aad3d9dbf2f59e2a3dbc4a38 4d2950bda3d176f570a9f8b328dfbbef 8a4605be74aa9ea9d79846c1fba20a33 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 MD5 MD5 MD5 |
repository.name.fl_str_mv |
Repositório Institucional da UFJF - Universidade Federal de Juiz de Fora (UFJF) |
repository.mail.fl_str_mv |
|
_version_ |
1801661338180648960 |