Leveraging object stores for particle physics analysis with RNTuple

Detalhes bibliográficos
Autor(a) principal: Miotto, Giovanna Lazzari
Data de Publicação: 2023
Tipo de documento: Trabalho de conclusão de curso
Idioma: eng
Título da fonte: Repositório Institucional da UFRGS
Texto Completo: http://hdl.handle.net/10183/267664
Resumo: A chegada do HL-LHC deve aumentar o volume de dados gerados por experimentos do LHC para Física de Partículas, ou Física de Alta Energia (HEP), em pelo menos uma ordem de magnitude, sobrecarregando atuais ferramentas de armazenamento e análise da área, como ROOT. RNTuple é o novo subsistema de E/S do ROOT, projetado para usufruir de tecnologias modernas de armazenamento. Object stores são um recurso para armazenamento escalável de dados usado para nuvem e computação de alto desempenho (HPC). Propomos integrar ao RNTuple backends à object stores por meio de dois sistemas de usos distintos – DAOS e S3 –, a fim de explorar, respectivamente, centros de supercomputação exaescala para análise e uma vasta topologia para disseminação global e granular de dados; ambos devem atentar para escalabilidade, eficiência e latência. Introduzimos ao backend RNTuple-DAOS experimental melhorias que capitalizam transferência em massa, co-localidade e nosso conhecimento de padrões de análise para otimizar a vazão na ingestão e releitura de dados. Informados por resultados preliminares, propomos um método de concatenação sem cópia baseado em E/S scatter–gather. Uma abordagem semelhante orientou nosso backend prova de conceito, RNTuple–S3, com adaptações para considerar limitações de latência. Avaliamos as duas contribuições em análises nodo–único e em clusters de alto desempenho conectados por InfiniBand e Ethernet, respectivamente. RNTuple–DAOS apresentou alta vazão, com picos acima de 10 GB/s (escrita) e 4,5 GB/s (leitura), o que corrobora nossa abordagem. A concatenação atingiu o dobro da velocidade de escrita original e a mesma velocidade de leitura que a vazão–alvo, parcialmente emancipando o desempenho do layout de dados. Além disso, validamos o RNTuple–S3 como backend para a nuvem e desenvolvemos estratégias para atingir alto desempenho. Equipado com um backend DAOS maduro para supercomputadores exaescala e um backend S3 para acessar uma infraestrutura de armazenamento global, RNTuple se posiciona como o formato de dados para a próxima era de pesquisa em HEP, no HL–LHC e além.
id UFRGS-2_938435b84b3c5efb030d4eefe8c2da69
oai_identifier_str oai:www.lume.ufrgs.br:10183/267664
network_acronym_str UFRGS-2
network_name_str Repositório Institucional da UFRGS
repository_id_str
spelling Miotto, Giovanna LazzariGeyer, Claudio Fernando ResinLópez–Gómez, Javier2023-11-25T03:27:29Z2023http://hdl.handle.net/10183/267664001187696A chegada do HL-LHC deve aumentar o volume de dados gerados por experimentos do LHC para Física de Partículas, ou Física de Alta Energia (HEP), em pelo menos uma ordem de magnitude, sobrecarregando atuais ferramentas de armazenamento e análise da área, como ROOT. RNTuple é o novo subsistema de E/S do ROOT, projetado para usufruir de tecnologias modernas de armazenamento. Object stores são um recurso para armazenamento escalável de dados usado para nuvem e computação de alto desempenho (HPC). Propomos integrar ao RNTuple backends à object stores por meio de dois sistemas de usos distintos – DAOS e S3 –, a fim de explorar, respectivamente, centros de supercomputação exaescala para análise e uma vasta topologia para disseminação global e granular de dados; ambos devem atentar para escalabilidade, eficiência e latência. Introduzimos ao backend RNTuple-DAOS experimental melhorias que capitalizam transferência em massa, co-localidade e nosso conhecimento de padrões de análise para otimizar a vazão na ingestão e releitura de dados. Informados por resultados preliminares, propomos um método de concatenação sem cópia baseado em E/S scatter–gather. Uma abordagem semelhante orientou nosso backend prova de conceito, RNTuple–S3, com adaptações para considerar limitações de latência. Avaliamos as duas contribuições em análises nodo–único e em clusters de alto desempenho conectados por InfiniBand e Ethernet, respectivamente. RNTuple–DAOS apresentou alta vazão, com picos acima de 10 GB/s (escrita) e 4,5 GB/s (leitura), o que corrobora nossa abordagem. A concatenação atingiu o dobro da velocidade de escrita original e a mesma velocidade de leitura que a vazão–alvo, parcialmente emancipando o desempenho do layout de dados. Além disso, validamos o RNTuple–S3 como backend para a nuvem e desenvolvemos estratégias para atingir alto desempenho. Equipado com um backend DAOS maduro para supercomputadores exaescala e um backend S3 para acessar uma infraestrutura de armazenamento global, RNTuple se posiciona como o formato de dados para a próxima era de pesquisa em HEP, no HL–LHC e além.The advent of the HL-LHC is projected to increase the volume of data generated by LHC experiments for Particle Physics, or High Energy Physics (HEP), by at least an order of magnitude, overwhelming current storage and analysis tools in the field such as CERN’S ROOT. RNTuple is ROOT’s new I/O subsystem engineered to leverage modern storage technologies. Object stores are an emerging asset in scalable data storage, with widespread use in cloud and HPC applications. We propose to integrate performant object store backends into RNTuple through two systems with distinct use cases – DAOS and S3 –, in order to exploit, respectively, exascale supercomputing facilities for analyses and a vast storage topology for disseminating data globally and granularly; in each case, the backend should cater to concerns in scalability, efficiency and latency. We introduced to an experimental RNTuple–DAOS backend a set of features designed to capitalize on bulk transfer, target co-locality and our domain knowledge of HEP analysis patterns, with the goal of optimizing throughput for data ingestion and retrieval. Informed by preliminary results regarding data volume, we further propose a zero–copy concatenation method based on scatter–gather I/O that improves transfer speed. A similar approach guided our proof–of–concept RNTuple–S3 backend, adapted to consider latency limitations. We evaluated the two contributions for single–node analyses on performant clusters over InfiniBand RDMA and Ethernet, respectively. RNTuple–DAOS demonstrated high throughput of over 10 GB/s (write) and 4.5 GB/s (read), corroborating our approach. The concatenation mechanism reached double the original write speed and attained the same read speed as the targeted throughput, partially emancipating transfer rates from the layout of the dataset. Furthermore, we validated RNTuple– S3 as a backend for the cloud and developed next strategies for better performance. Equipped with a production–grade DAOS backend for exascale supercomputers and an S3 backend to access a global storage infrastructure, RNTuple is positioning itself as the data format for the next era of HEP research at the HL–LHC and beyond.application/pdfengSistemas distribuídosRedes : ComputadoresArmazenamento de dadosComputação de alto desempenhoParticle physicsROOTDAOSS3Leveraging object stores for particle physics analysis with RNTupleUtilizando object stores para análise em física de partículas com RNTuple info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/bachelorThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPorto Alegre, BR-RS2023Ciência da Computação: Ênfase em Ciência da Computação: Bachareladograduaçãoinfo:eu-repo/semantics/openAccessreponame:Repositório Institucional da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001187696.pdf.txt001187696.pdf.txtExtracted Texttext/plain194689http://www.lume.ufrgs.br/bitstream/10183/267664/2/001187696.pdf.txt5bfcb0dfd9f76c5241b65a7b3d2959f4MD52ORIGINAL001187696.pdfTexto completo (inglês)application/pdf8587594http://www.lume.ufrgs.br/bitstream/10183/267664/1/001187696.pdfb929f17de0f2216262e8223b99e48b0fMD5110183/2676642023-11-26 04:26:24.056058oai:www.lume.ufrgs.br:10183/267664Repositório de PublicaçõesPUBhttps://lume.ufrgs.br/oai/requestopendoar:2023-11-26T06:26:24Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Leveraging object stores for particle physics analysis with RNTuple
dc.title.alternative.pt.fl_str_mv Utilizando object stores para análise em física de partículas com RNTuple
title Leveraging object stores for particle physics analysis with RNTuple
spellingShingle Leveraging object stores for particle physics analysis with RNTuple
Miotto, Giovanna Lazzari
Sistemas distribuídos
Redes : Computadores
Armazenamento de dados
Computação de alto desempenho
Particle physics
ROOT
DAOS
S3
title_short Leveraging object stores for particle physics analysis with RNTuple
title_full Leveraging object stores for particle physics analysis with RNTuple
title_fullStr Leveraging object stores for particle physics analysis with RNTuple
title_full_unstemmed Leveraging object stores for particle physics analysis with RNTuple
title_sort Leveraging object stores for particle physics analysis with RNTuple
author Miotto, Giovanna Lazzari
author_facet Miotto, Giovanna Lazzari
author_role author
dc.contributor.author.fl_str_mv Miotto, Giovanna Lazzari
dc.contributor.advisor1.fl_str_mv Geyer, Claudio Fernando Resin
dc.contributor.advisor-co1.fl_str_mv López–Gómez, Javier
contributor_str_mv Geyer, Claudio Fernando Resin
López–Gómez, Javier
dc.subject.por.fl_str_mv Sistemas distribuídos
Redes : Computadores
Armazenamento de dados
Computação de alto desempenho
topic Sistemas distribuídos
Redes : Computadores
Armazenamento de dados
Computação de alto desempenho
Particle physics
ROOT
DAOS
S3
dc.subject.eng.fl_str_mv Particle physics
ROOT
DAOS
S3
description A chegada do HL-LHC deve aumentar o volume de dados gerados por experimentos do LHC para Física de Partículas, ou Física de Alta Energia (HEP), em pelo menos uma ordem de magnitude, sobrecarregando atuais ferramentas de armazenamento e análise da área, como ROOT. RNTuple é o novo subsistema de E/S do ROOT, projetado para usufruir de tecnologias modernas de armazenamento. Object stores são um recurso para armazenamento escalável de dados usado para nuvem e computação de alto desempenho (HPC). Propomos integrar ao RNTuple backends à object stores por meio de dois sistemas de usos distintos – DAOS e S3 –, a fim de explorar, respectivamente, centros de supercomputação exaescala para análise e uma vasta topologia para disseminação global e granular de dados; ambos devem atentar para escalabilidade, eficiência e latência. Introduzimos ao backend RNTuple-DAOS experimental melhorias que capitalizam transferência em massa, co-localidade e nosso conhecimento de padrões de análise para otimizar a vazão na ingestão e releitura de dados. Informados por resultados preliminares, propomos um método de concatenação sem cópia baseado em E/S scatter–gather. Uma abordagem semelhante orientou nosso backend prova de conceito, RNTuple–S3, com adaptações para considerar limitações de latência. Avaliamos as duas contribuições em análises nodo–único e em clusters de alto desempenho conectados por InfiniBand e Ethernet, respectivamente. RNTuple–DAOS apresentou alta vazão, com picos acima de 10 GB/s (escrita) e 4,5 GB/s (leitura), o que corrobora nossa abordagem. A concatenação atingiu o dobro da velocidade de escrita original e a mesma velocidade de leitura que a vazão–alvo, parcialmente emancipando o desempenho do layout de dados. Além disso, validamos o RNTuple–S3 como backend para a nuvem e desenvolvemos estratégias para atingir alto desempenho. Equipado com um backend DAOS maduro para supercomputadores exaescala e um backend S3 para acessar uma infraestrutura de armazenamento global, RNTuple se posiciona como o formato de dados para a próxima era de pesquisa em HEP, no HL–LHC e além.
publishDate 2023
dc.date.accessioned.fl_str_mv 2023-11-25T03:27:29Z
dc.date.issued.fl_str_mv 2023
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/bachelorThesis
format bachelorThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/267664
dc.identifier.nrb.pt_BR.fl_str_mv 001187696
url http://hdl.handle.net/10183/267664
identifier_str_mv 001187696
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Repositório Institucional da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Repositório Institucional da UFRGS
collection Repositório Institucional da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/267664/2/001187696.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/267664/1/001187696.pdf
bitstream.checksum.fl_str_mv 5bfcb0dfd9f76c5241b65a7b3d2959f4
b929f17de0f2216262e8223b99e48b0f
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Repositório Institucional da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv
_version_ 1815447353100861440