Advancing network monitoring and operation with In-band network telemetry and data plane programmability

Detalhes bibliográficos
Autor(a) principal: Marques, Jonatas Adilson
Data de Publicação: 2022
Tipo de documento: Tese
Idioma: eng
Título da fonte: Biblioteca Digital de Teses e Dissertações da UFRGS
Texto Completo: http://hdl.handle.net/10183/249121
Resumo: As redes de comunicação modernas operam sob altas expectativas de desempenho e resiliência (por exemplo, latência, largura de banda, disponibilidade), isto principalmente devido à contínua proliferação de aplicações não elásticas altamente distribuídas. Nesse contexto, monitorar de perto o estado, o comportamento e o desempenho dos dispositivos de rede e seus tráfegos, bem como solucionar rapidamente os problemas à medida que estes surgem, são essenciais para a operação das infraestruturas de rede. Infelizmente, as ferramentas e técnicas existentes são limitados no nível de detalhes oferecido, na rapidez de suas reações e na capacidade de manter a sobrecarga de monitoramento baixa o sufi ciente para não afetar a operação da rede. A Programabilidade do Plano de Dados (do inglês Data Plane Programmability – DPP) juntamente com a Telemetria de Redes no modo In-band (In-band Network Telemetry – INT), respaldadas pelos recentes avanços em Software-Defined Networking, surgem neste contexto como plataformas promissoras para atender a essas demandas de monitoramento. A INT permite alcançar níveis de pre cisão e granularidade de monitoramento sem precedentes, mas pode levar à degradação do desempenho significante se aplicada indiscriminadamente a todos os pacotes e fluxos em uma rede. Uma alternativa para evitar esse problema é orquestrar tarefas de teleme tria e usar apenas uma parte do tráfego para monitorar a rede via INT. O problema geral consiste, então, em atribuir subconjuntos de tráfego para realizar INT e fornecer cober tura total de monitoramento, minimizando o overhead. Para atingir este objetivo, como primeiro passo nesta tese, apresentamos e formalizamos o problema In-band Network Te lemetry Orchestration (INTO), provamos que ele é NP-Completo e propomos heurísticas polinomiais em tempo de computação para resolvê-lo. Em nossa avaliação usando topo logias de redes de larga escala reais, observamos que as heurísticas produzem soluções próximas ao ótimo para qualquer rede em menos de um segundo. Observamos também que as redes podem ser cobertas atribuindo um número linear de fluxos em relação ao número de interfaces dos dispositivos e, por fim, que é possível minimizar a carga de tele metria para uma interface por fluxo para a maioria das redes. Continuando nosso trabalho, investigamos ainda mais os recursos disponíveis na DPP e projetamos o INTSIGHT, um sistema para detecção e diagnóstico altamente precisos de violações de SLO. A principal contribuição do INTSIGHT é, com base na telemetria in-band, introduzir o cálculo de mé tricas de rede ao longo do caminho dos pacotes e a exportação seletiva de informações para o plano de controle. Mostramos a eficácia do INTSIGHT por meio de dois casos de uso. Nossa avaliação usando redes reais também mostra que INTSIGHT gera até duas ordens de magnitude menos tráfego de monitoramento do que abordagens do estado da arte. Além disso, seus requisitos de processamento e memória são baixos e, portanto, compatíveis com as plataformas programáveis existentes. Como etapa final desta tese, mudamos nosso foco para a reação rápida e propomos o FELIX, um sistema para recupe ração de falhas que redireciona o tráfego afetado em escalas de tempo de plano de dados enquanto ainda usa os caminhos mais curtos dentre os disponíveis. Nossa avaliação mos tra que nossa abordagem pode se recuperar de falhas até quatro ordens de magnitude mais rapidamente do que as abordagens SDN existentes.
id URGS_622e25b2539f796e7ec8ed77a2b52a15
oai_identifier_str oai:www.lume.ufrgs.br:10183/249121
network_acronym_str URGS
network_name_str Biblioteca Digital de Teses e Dissertações da UFRGS
repository_id_str 1853
spelling Marques, Jonatas AdilsonGaspary, Luciano Paschoal2022-09-17T05:11:20Z2022http://hdl.handle.net/10183/249121001149752As redes de comunicação modernas operam sob altas expectativas de desempenho e resiliência (por exemplo, latência, largura de banda, disponibilidade), isto principalmente devido à contínua proliferação de aplicações não elásticas altamente distribuídas. Nesse contexto, monitorar de perto o estado, o comportamento e o desempenho dos dispositivos de rede e seus tráfegos, bem como solucionar rapidamente os problemas à medida que estes surgem, são essenciais para a operação das infraestruturas de rede. Infelizmente, as ferramentas e técnicas existentes são limitados no nível de detalhes oferecido, na rapidez de suas reações e na capacidade de manter a sobrecarga de monitoramento baixa o sufi ciente para não afetar a operação da rede. A Programabilidade do Plano de Dados (do inglês Data Plane Programmability – DPP) juntamente com a Telemetria de Redes no modo In-band (In-band Network Telemetry – INT), respaldadas pelos recentes avanços em Software-Defined Networking, surgem neste contexto como plataformas promissoras para atender a essas demandas de monitoramento. A INT permite alcançar níveis de pre cisão e granularidade de monitoramento sem precedentes, mas pode levar à degradação do desempenho significante se aplicada indiscriminadamente a todos os pacotes e fluxos em uma rede. Uma alternativa para evitar esse problema é orquestrar tarefas de teleme tria e usar apenas uma parte do tráfego para monitorar a rede via INT. O problema geral consiste, então, em atribuir subconjuntos de tráfego para realizar INT e fornecer cober tura total de monitoramento, minimizando o overhead. Para atingir este objetivo, como primeiro passo nesta tese, apresentamos e formalizamos o problema In-band Network Te lemetry Orchestration (INTO), provamos que ele é NP-Completo e propomos heurísticas polinomiais em tempo de computação para resolvê-lo. Em nossa avaliação usando topo logias de redes de larga escala reais, observamos que as heurísticas produzem soluções próximas ao ótimo para qualquer rede em menos de um segundo. Observamos também que as redes podem ser cobertas atribuindo um número linear de fluxos em relação ao número de interfaces dos dispositivos e, por fim, que é possível minimizar a carga de tele metria para uma interface por fluxo para a maioria das redes. Continuando nosso trabalho, investigamos ainda mais os recursos disponíveis na DPP e projetamos o INTSIGHT, um sistema para detecção e diagnóstico altamente precisos de violações de SLO. A principal contribuição do INTSIGHT é, com base na telemetria in-band, introduzir o cálculo de mé tricas de rede ao longo do caminho dos pacotes e a exportação seletiva de informações para o plano de controle. Mostramos a eficácia do INTSIGHT por meio de dois casos de uso. Nossa avaliação usando redes reais também mostra que INTSIGHT gera até duas ordens de magnitude menos tráfego de monitoramento do que abordagens do estado da arte. Além disso, seus requisitos de processamento e memória são baixos e, portanto, compatíveis com as plataformas programáveis existentes. Como etapa final desta tese, mudamos nosso foco para a reação rápida e propomos o FELIX, um sistema para recupe ração de falhas que redireciona o tráfego afetado em escalas de tempo de plano de dados enquanto ainda usa os caminhos mais curtos dentre os disponíveis. Nossa avaliação mos tra que nossa abordagem pode se recuperar de falhas até quatro ordens de magnitude mais rapidamente do que as abordagens SDN existentes.Modern communication networks operate under high expectations on performance and resilience (e.g., latency, bandwidth, availability) mainly due to the continuous prolifera tion of non-elastic highly-distributed applications. In this context, closely monitoring the state, behavior, and performance of networking devices and their traffic as well as quickly troubleshooting problems as they arise is essential for the operation of network infras tructures. Unfortunately, existing tools and techniques fall short at providing the required level of detail, enabling quick reactions, and keeping monitoring overhead from affecting the network operation. Data Plane Programmability (DPP) along with In-band Network Telemetry (INT), backed by the recent advances in Software-Defined Networking, emerge in this context as promising platforms to meet these monitoring demands. INT enables unprecedented monitoring accuracy and precision, but may lead to performance degrada tion if applied indiscriminately to all packet flows in a network. One alternative to avoid this issue is to orchestrate telemetry tasks and use only a portion of traffic to monitor the network via INT. The general problem consists, then, in assigning subsets of traffic to carry out INT and provide full monitoring coverage while minimizing the overhead. To achieve this goal, as a first step in this thesis, we introduce and formalize the In-band Network Telemetry Orchestration (INTO) problem, prove that it is NP-Complete, and propose polynomial computing time heuristics to solve it. In our evaluation using real wide-area network topologies, we observe that the heuristics produce solutions close to optimal to any network in under one second We also observe that networks can be cov ered assigning a linear number of flows in relation to the number of device interfaces and, finally, that it is possible to minimize telemetry load to one interface per flow for most networks. Continuing our work, we investigate DPP capabilities further and design INTSIGHT, a system for highly accurate and fine-grained detection and diagnosis of SLO violations. The main contribution of INTSIGHT is, building upon in-band telemetry, in troducing path-wise computation of network metrics and selective generation of reports. We show the effectiveness of INTSIGHT by way of two use cases. Our evaluation using real networks also shows that INTSIGHT generates up to two orders of magnitude less monitoring traffic than state-of-the-art approaches. Furthermore, its processing and mem ory requirements are low and therefore compatible with currently existing programmable platforms. As a final step in this thesis, we shift our focus to quick reaction and propose FELIX, a system for failure recovery that reroutes around failures at data-plane timescales while still using the shortest available paths. Our evaluation shows that our approach can recover from failures up to four orders of magnitude faster than existing SDN approaches while making sensible use of data-plane resources. Finally, with the design of FELIX, we introduce the Strategy-Tactic paradigm to enable data-plane timescale reactions with control-plane decisions based on a global understanding of the network to general net work operation tasks. We argue the generality of this paradigm by discussing the main challenges involved in modeling a promising use case.application/pdfengMonitoramento de redeRede definida por softwareRede : Comunicacao : DadosNetwork MonitoringSoftware-Defined NetworkingData Plane ProgrammabilityP4In-band Network TelemetryAdvancing network monitoring and operation with In-band network telemetry and data plane programmabilityAvançando o monitoramento e operação de redes com telemetry In-band e programabilidade do plano de dados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001149752.pdf.txt001149752.pdf.txtExtracted Texttext/plain339829http://www.lume.ufrgs.br/bitstream/10183/249121/2/001149752.pdf.txt39728e615a54f7c7db0e8126d3487f96MD52ORIGINAL001149752.pdfTexto completo (inglês)application/pdf2911364http://www.lume.ufrgs.br/bitstream/10183/249121/1/001149752.pdf146fdb0c86c4caee1e0457538bd783d4MD5110183/2491212022-10-19 04:48:15.023681oai:www.lume.ufrgs.br:10183/249121Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-10-19T07:48:15Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false
dc.title.pt_BR.fl_str_mv Advancing network monitoring and operation with In-band network telemetry and data plane programmability
dc.title.alternative.pt.fl_str_mv Avançando o monitoramento e operação de redes com telemetry In-band e programabilidade do plano de dados
title Advancing network monitoring and operation with In-band network telemetry and data plane programmability
spellingShingle Advancing network monitoring and operation with In-band network telemetry and data plane programmability
Marques, Jonatas Adilson
Monitoramento de rede
Rede definida por software
Rede : Comunicacao : Dados
Network Monitoring
Software-Defined Networking
Data Plane Programmability
P4
In-band Network Telemetry
title_short Advancing network monitoring and operation with In-band network telemetry and data plane programmability
title_full Advancing network monitoring and operation with In-band network telemetry and data plane programmability
title_fullStr Advancing network monitoring and operation with In-band network telemetry and data plane programmability
title_full_unstemmed Advancing network monitoring and operation with In-band network telemetry and data plane programmability
title_sort Advancing network monitoring and operation with In-band network telemetry and data plane programmability
author Marques, Jonatas Adilson
author_facet Marques, Jonatas Adilson
author_role author
dc.contributor.author.fl_str_mv Marques, Jonatas Adilson
dc.contributor.advisor1.fl_str_mv Gaspary, Luciano Paschoal
contributor_str_mv Gaspary, Luciano Paschoal
dc.subject.por.fl_str_mv Monitoramento de rede
Rede definida por software
Rede : Comunicacao : Dados
topic Monitoramento de rede
Rede definida por software
Rede : Comunicacao : Dados
Network Monitoring
Software-Defined Networking
Data Plane Programmability
P4
In-band Network Telemetry
dc.subject.eng.fl_str_mv Network Monitoring
Software-Defined Networking
Data Plane Programmability
P4
In-band Network Telemetry
description As redes de comunicação modernas operam sob altas expectativas de desempenho e resiliência (por exemplo, latência, largura de banda, disponibilidade), isto principalmente devido à contínua proliferação de aplicações não elásticas altamente distribuídas. Nesse contexto, monitorar de perto o estado, o comportamento e o desempenho dos dispositivos de rede e seus tráfegos, bem como solucionar rapidamente os problemas à medida que estes surgem, são essenciais para a operação das infraestruturas de rede. Infelizmente, as ferramentas e técnicas existentes são limitados no nível de detalhes oferecido, na rapidez de suas reações e na capacidade de manter a sobrecarga de monitoramento baixa o sufi ciente para não afetar a operação da rede. A Programabilidade do Plano de Dados (do inglês Data Plane Programmability – DPP) juntamente com a Telemetria de Redes no modo In-band (In-band Network Telemetry – INT), respaldadas pelos recentes avanços em Software-Defined Networking, surgem neste contexto como plataformas promissoras para atender a essas demandas de monitoramento. A INT permite alcançar níveis de pre cisão e granularidade de monitoramento sem precedentes, mas pode levar à degradação do desempenho significante se aplicada indiscriminadamente a todos os pacotes e fluxos em uma rede. Uma alternativa para evitar esse problema é orquestrar tarefas de teleme tria e usar apenas uma parte do tráfego para monitorar a rede via INT. O problema geral consiste, então, em atribuir subconjuntos de tráfego para realizar INT e fornecer cober tura total de monitoramento, minimizando o overhead. Para atingir este objetivo, como primeiro passo nesta tese, apresentamos e formalizamos o problema In-band Network Te lemetry Orchestration (INTO), provamos que ele é NP-Completo e propomos heurísticas polinomiais em tempo de computação para resolvê-lo. Em nossa avaliação usando topo logias de redes de larga escala reais, observamos que as heurísticas produzem soluções próximas ao ótimo para qualquer rede em menos de um segundo. Observamos também que as redes podem ser cobertas atribuindo um número linear de fluxos em relação ao número de interfaces dos dispositivos e, por fim, que é possível minimizar a carga de tele metria para uma interface por fluxo para a maioria das redes. Continuando nosso trabalho, investigamos ainda mais os recursos disponíveis na DPP e projetamos o INTSIGHT, um sistema para detecção e diagnóstico altamente precisos de violações de SLO. A principal contribuição do INTSIGHT é, com base na telemetria in-band, introduzir o cálculo de mé tricas de rede ao longo do caminho dos pacotes e a exportação seletiva de informações para o plano de controle. Mostramos a eficácia do INTSIGHT por meio de dois casos de uso. Nossa avaliação usando redes reais também mostra que INTSIGHT gera até duas ordens de magnitude menos tráfego de monitoramento do que abordagens do estado da arte. Além disso, seus requisitos de processamento e memória são baixos e, portanto, compatíveis com as plataformas programáveis existentes. Como etapa final desta tese, mudamos nosso foco para a reação rápida e propomos o FELIX, um sistema para recupe ração de falhas que redireciona o tráfego afetado em escalas de tempo de plano de dados enquanto ainda usa os caminhos mais curtos dentre os disponíveis. Nossa avaliação mos tra que nossa abordagem pode se recuperar de falhas até quatro ordens de magnitude mais rapidamente do que as abordagens SDN existentes.
publishDate 2022
dc.date.accessioned.fl_str_mv 2022-09-17T05:11:20Z
dc.date.issued.fl_str_mv 2022
dc.type.status.fl_str_mv info:eu-repo/semantics/publishedVersion
dc.type.driver.fl_str_mv info:eu-repo/semantics/doctoralThesis
format doctoralThesis
status_str publishedVersion
dc.identifier.uri.fl_str_mv http://hdl.handle.net/10183/249121
dc.identifier.nrb.pt_BR.fl_str_mv 001149752
url http://hdl.handle.net/10183/249121
identifier_str_mv 001149752
dc.language.iso.fl_str_mv eng
language eng
dc.rights.driver.fl_str_mv info:eu-repo/semantics/openAccess
eu_rights_str_mv openAccess
dc.format.none.fl_str_mv application/pdf
dc.source.none.fl_str_mv reponame:Biblioteca Digital de Teses e Dissertações da UFRGS
instname:Universidade Federal do Rio Grande do Sul (UFRGS)
instacron:UFRGS
instname_str Universidade Federal do Rio Grande do Sul (UFRGS)
instacron_str UFRGS
institution UFRGS
reponame_str Biblioteca Digital de Teses e Dissertações da UFRGS
collection Biblioteca Digital de Teses e Dissertações da UFRGS
bitstream.url.fl_str_mv http://www.lume.ufrgs.br/bitstream/10183/249121/2/001149752.pdf.txt
http://www.lume.ufrgs.br/bitstream/10183/249121/1/001149752.pdf
bitstream.checksum.fl_str_mv 39728e615a54f7c7db0e8126d3487f96
146fdb0c86c4caee1e0457538bd783d4
bitstream.checksumAlgorithm.fl_str_mv MD5
MD5
repository.name.fl_str_mv Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)
repository.mail.fl_str_mv lume@ufrgs.br||lume@ufrgs.br
_version_ 1810085596459171840