Advancing network monitoring and operation with In-band network telemetry and data plane programmability
Autor(a) principal: | |
---|---|
Data de Publicação: | 2022 |
Tipo de documento: | Tese |
Idioma: | eng |
Título da fonte: | Biblioteca Digital de Teses e Dissertações da UFRGS |
Texto Completo: | http://hdl.handle.net/10183/249121 |
Resumo: | As redes de comunicação modernas operam sob altas expectativas de desempenho e resiliência (por exemplo, latência, largura de banda, disponibilidade), isto principalmente devido à contínua proliferação de aplicações não elásticas altamente distribuídas. Nesse contexto, monitorar de perto o estado, o comportamento e o desempenho dos dispositivos de rede e seus tráfegos, bem como solucionar rapidamente os problemas à medida que estes surgem, são essenciais para a operação das infraestruturas de rede. Infelizmente, as ferramentas e técnicas existentes são limitados no nível de detalhes oferecido, na rapidez de suas reações e na capacidade de manter a sobrecarga de monitoramento baixa o sufi ciente para não afetar a operação da rede. A Programabilidade do Plano de Dados (do inglês Data Plane Programmability – DPP) juntamente com a Telemetria de Redes no modo In-band (In-band Network Telemetry – INT), respaldadas pelos recentes avanços em Software-Defined Networking, surgem neste contexto como plataformas promissoras para atender a essas demandas de monitoramento. A INT permite alcançar níveis de pre cisão e granularidade de monitoramento sem precedentes, mas pode levar à degradação do desempenho significante se aplicada indiscriminadamente a todos os pacotes e fluxos em uma rede. Uma alternativa para evitar esse problema é orquestrar tarefas de teleme tria e usar apenas uma parte do tráfego para monitorar a rede via INT. O problema geral consiste, então, em atribuir subconjuntos de tráfego para realizar INT e fornecer cober tura total de monitoramento, minimizando o overhead. Para atingir este objetivo, como primeiro passo nesta tese, apresentamos e formalizamos o problema In-band Network Te lemetry Orchestration (INTO), provamos que ele é NP-Completo e propomos heurísticas polinomiais em tempo de computação para resolvê-lo. Em nossa avaliação usando topo logias de redes de larga escala reais, observamos que as heurísticas produzem soluções próximas ao ótimo para qualquer rede em menos de um segundo. Observamos também que as redes podem ser cobertas atribuindo um número linear de fluxos em relação ao número de interfaces dos dispositivos e, por fim, que é possível minimizar a carga de tele metria para uma interface por fluxo para a maioria das redes. Continuando nosso trabalho, investigamos ainda mais os recursos disponíveis na DPP e projetamos o INTSIGHT, um sistema para detecção e diagnóstico altamente precisos de violações de SLO. A principal contribuição do INTSIGHT é, com base na telemetria in-band, introduzir o cálculo de mé tricas de rede ao longo do caminho dos pacotes e a exportação seletiva de informações para o plano de controle. Mostramos a eficácia do INTSIGHT por meio de dois casos de uso. Nossa avaliação usando redes reais também mostra que INTSIGHT gera até duas ordens de magnitude menos tráfego de monitoramento do que abordagens do estado da arte. Além disso, seus requisitos de processamento e memória são baixos e, portanto, compatíveis com as plataformas programáveis existentes. Como etapa final desta tese, mudamos nosso foco para a reação rápida e propomos o FELIX, um sistema para recupe ração de falhas que redireciona o tráfego afetado em escalas de tempo de plano de dados enquanto ainda usa os caminhos mais curtos dentre os disponíveis. Nossa avaliação mos tra que nossa abordagem pode se recuperar de falhas até quatro ordens de magnitude mais rapidamente do que as abordagens SDN existentes. |
id |
URGS_622e25b2539f796e7ec8ed77a2b52a15 |
---|---|
oai_identifier_str |
oai:www.lume.ufrgs.br:10183/249121 |
network_acronym_str |
URGS |
network_name_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
repository_id_str |
1853 |
spelling |
Marques, Jonatas AdilsonGaspary, Luciano Paschoal2022-09-17T05:11:20Z2022http://hdl.handle.net/10183/249121001149752As redes de comunicação modernas operam sob altas expectativas de desempenho e resiliência (por exemplo, latência, largura de banda, disponibilidade), isto principalmente devido à contínua proliferação de aplicações não elásticas altamente distribuídas. Nesse contexto, monitorar de perto o estado, o comportamento e o desempenho dos dispositivos de rede e seus tráfegos, bem como solucionar rapidamente os problemas à medida que estes surgem, são essenciais para a operação das infraestruturas de rede. Infelizmente, as ferramentas e técnicas existentes são limitados no nível de detalhes oferecido, na rapidez de suas reações e na capacidade de manter a sobrecarga de monitoramento baixa o sufi ciente para não afetar a operação da rede. A Programabilidade do Plano de Dados (do inglês Data Plane Programmability – DPP) juntamente com a Telemetria de Redes no modo In-band (In-band Network Telemetry – INT), respaldadas pelos recentes avanços em Software-Defined Networking, surgem neste contexto como plataformas promissoras para atender a essas demandas de monitoramento. A INT permite alcançar níveis de pre cisão e granularidade de monitoramento sem precedentes, mas pode levar à degradação do desempenho significante se aplicada indiscriminadamente a todos os pacotes e fluxos em uma rede. Uma alternativa para evitar esse problema é orquestrar tarefas de teleme tria e usar apenas uma parte do tráfego para monitorar a rede via INT. O problema geral consiste, então, em atribuir subconjuntos de tráfego para realizar INT e fornecer cober tura total de monitoramento, minimizando o overhead. Para atingir este objetivo, como primeiro passo nesta tese, apresentamos e formalizamos o problema In-band Network Te lemetry Orchestration (INTO), provamos que ele é NP-Completo e propomos heurísticas polinomiais em tempo de computação para resolvê-lo. Em nossa avaliação usando topo logias de redes de larga escala reais, observamos que as heurísticas produzem soluções próximas ao ótimo para qualquer rede em menos de um segundo. Observamos também que as redes podem ser cobertas atribuindo um número linear de fluxos em relação ao número de interfaces dos dispositivos e, por fim, que é possível minimizar a carga de tele metria para uma interface por fluxo para a maioria das redes. Continuando nosso trabalho, investigamos ainda mais os recursos disponíveis na DPP e projetamos o INTSIGHT, um sistema para detecção e diagnóstico altamente precisos de violações de SLO. A principal contribuição do INTSIGHT é, com base na telemetria in-band, introduzir o cálculo de mé tricas de rede ao longo do caminho dos pacotes e a exportação seletiva de informações para o plano de controle. Mostramos a eficácia do INTSIGHT por meio de dois casos de uso. Nossa avaliação usando redes reais também mostra que INTSIGHT gera até duas ordens de magnitude menos tráfego de monitoramento do que abordagens do estado da arte. Além disso, seus requisitos de processamento e memória são baixos e, portanto, compatíveis com as plataformas programáveis existentes. Como etapa final desta tese, mudamos nosso foco para a reação rápida e propomos o FELIX, um sistema para recupe ração de falhas que redireciona o tráfego afetado em escalas de tempo de plano de dados enquanto ainda usa os caminhos mais curtos dentre os disponíveis. Nossa avaliação mos tra que nossa abordagem pode se recuperar de falhas até quatro ordens de magnitude mais rapidamente do que as abordagens SDN existentes.Modern communication networks operate under high expectations on performance and resilience (e.g., latency, bandwidth, availability) mainly due to the continuous prolifera tion of non-elastic highly-distributed applications. In this context, closely monitoring the state, behavior, and performance of networking devices and their traffic as well as quickly troubleshooting problems as they arise is essential for the operation of network infras tructures. Unfortunately, existing tools and techniques fall short at providing the required level of detail, enabling quick reactions, and keeping monitoring overhead from affecting the network operation. Data Plane Programmability (DPP) along with In-band Network Telemetry (INT), backed by the recent advances in Software-Defined Networking, emerge in this context as promising platforms to meet these monitoring demands. INT enables unprecedented monitoring accuracy and precision, but may lead to performance degrada tion if applied indiscriminately to all packet flows in a network. One alternative to avoid this issue is to orchestrate telemetry tasks and use only a portion of traffic to monitor the network via INT. The general problem consists, then, in assigning subsets of traffic to carry out INT and provide full monitoring coverage while minimizing the overhead. To achieve this goal, as a first step in this thesis, we introduce and formalize the In-band Network Telemetry Orchestration (INTO) problem, prove that it is NP-Complete, and propose polynomial computing time heuristics to solve it. In our evaluation using real wide-area network topologies, we observe that the heuristics produce solutions close to optimal to any network in under one second We also observe that networks can be cov ered assigning a linear number of flows in relation to the number of device interfaces and, finally, that it is possible to minimize telemetry load to one interface per flow for most networks. Continuing our work, we investigate DPP capabilities further and design INTSIGHT, a system for highly accurate and fine-grained detection and diagnosis of SLO violations. The main contribution of INTSIGHT is, building upon in-band telemetry, in troducing path-wise computation of network metrics and selective generation of reports. We show the effectiveness of INTSIGHT by way of two use cases. Our evaluation using real networks also shows that INTSIGHT generates up to two orders of magnitude less monitoring traffic than state-of-the-art approaches. Furthermore, its processing and mem ory requirements are low and therefore compatible with currently existing programmable platforms. As a final step in this thesis, we shift our focus to quick reaction and propose FELIX, a system for failure recovery that reroutes around failures at data-plane timescales while still using the shortest available paths. Our evaluation shows that our approach can recover from failures up to four orders of magnitude faster than existing SDN approaches while making sensible use of data-plane resources. Finally, with the design of FELIX, we introduce the Strategy-Tactic paradigm to enable data-plane timescale reactions with control-plane decisions based on a global understanding of the network to general net work operation tasks. We argue the generality of this paradigm by discussing the main challenges involved in modeling a promising use case.application/pdfengMonitoramento de redeRede definida por softwareRede : Comunicacao : DadosNetwork MonitoringSoftware-Defined NetworkingData Plane ProgrammabilityP4In-band Network TelemetryAdvancing network monitoring and operation with In-band network telemetry and data plane programmabilityAvançando o monitoramento e operação de redes com telemetry In-band e programabilidade do plano de dados info:eu-repo/semantics/publishedVersioninfo:eu-repo/semantics/doctoralThesisUniversidade Federal do Rio Grande do SulInstituto de InformáticaPrograma de Pós-Graduação em ComputaçãoPorto Alegre, BR-RS2022doutoradoinfo:eu-repo/semantics/openAccessreponame:Biblioteca Digital de Teses e Dissertações da UFRGSinstname:Universidade Federal do Rio Grande do Sul (UFRGS)instacron:UFRGSTEXT001149752.pdf.txt001149752.pdf.txtExtracted Texttext/plain339829http://www.lume.ufrgs.br/bitstream/10183/249121/2/001149752.pdf.txt39728e615a54f7c7db0e8126d3487f96MD52ORIGINAL001149752.pdfTexto completo (inglês)application/pdf2911364http://www.lume.ufrgs.br/bitstream/10183/249121/1/001149752.pdf146fdb0c86c4caee1e0457538bd783d4MD5110183/2491212022-10-19 04:48:15.023681oai:www.lume.ufrgs.br:10183/249121Biblioteca Digital de Teses e Dissertaçõeshttps://lume.ufrgs.br/handle/10183/2PUBhttps://lume.ufrgs.br/oai/requestlume@ufrgs.br||lume@ufrgs.bropendoar:18532022-10-19T07:48:15Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS)false |
dc.title.pt_BR.fl_str_mv |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
dc.title.alternative.pt.fl_str_mv |
Avançando o monitoramento e operação de redes com telemetry In-band e programabilidade do plano de dados |
title |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
spellingShingle |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability Marques, Jonatas Adilson Monitoramento de rede Rede definida por software Rede : Comunicacao : Dados Network Monitoring Software-Defined Networking Data Plane Programmability P4 In-band Network Telemetry |
title_short |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
title_full |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
title_fullStr |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
title_full_unstemmed |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
title_sort |
Advancing network monitoring and operation with In-band network telemetry and data plane programmability |
author |
Marques, Jonatas Adilson |
author_facet |
Marques, Jonatas Adilson |
author_role |
author |
dc.contributor.author.fl_str_mv |
Marques, Jonatas Adilson |
dc.contributor.advisor1.fl_str_mv |
Gaspary, Luciano Paschoal |
contributor_str_mv |
Gaspary, Luciano Paschoal |
dc.subject.por.fl_str_mv |
Monitoramento de rede Rede definida por software Rede : Comunicacao : Dados |
topic |
Monitoramento de rede Rede definida por software Rede : Comunicacao : Dados Network Monitoring Software-Defined Networking Data Plane Programmability P4 In-band Network Telemetry |
dc.subject.eng.fl_str_mv |
Network Monitoring Software-Defined Networking Data Plane Programmability P4 In-band Network Telemetry |
description |
As redes de comunicação modernas operam sob altas expectativas de desempenho e resiliência (por exemplo, latência, largura de banda, disponibilidade), isto principalmente devido à contínua proliferação de aplicações não elásticas altamente distribuídas. Nesse contexto, monitorar de perto o estado, o comportamento e o desempenho dos dispositivos de rede e seus tráfegos, bem como solucionar rapidamente os problemas à medida que estes surgem, são essenciais para a operação das infraestruturas de rede. Infelizmente, as ferramentas e técnicas existentes são limitados no nível de detalhes oferecido, na rapidez de suas reações e na capacidade de manter a sobrecarga de monitoramento baixa o sufi ciente para não afetar a operação da rede. A Programabilidade do Plano de Dados (do inglês Data Plane Programmability – DPP) juntamente com a Telemetria de Redes no modo In-band (In-band Network Telemetry – INT), respaldadas pelos recentes avanços em Software-Defined Networking, surgem neste contexto como plataformas promissoras para atender a essas demandas de monitoramento. A INT permite alcançar níveis de pre cisão e granularidade de monitoramento sem precedentes, mas pode levar à degradação do desempenho significante se aplicada indiscriminadamente a todos os pacotes e fluxos em uma rede. Uma alternativa para evitar esse problema é orquestrar tarefas de teleme tria e usar apenas uma parte do tráfego para monitorar a rede via INT. O problema geral consiste, então, em atribuir subconjuntos de tráfego para realizar INT e fornecer cober tura total de monitoramento, minimizando o overhead. Para atingir este objetivo, como primeiro passo nesta tese, apresentamos e formalizamos o problema In-band Network Te lemetry Orchestration (INTO), provamos que ele é NP-Completo e propomos heurísticas polinomiais em tempo de computação para resolvê-lo. Em nossa avaliação usando topo logias de redes de larga escala reais, observamos que as heurísticas produzem soluções próximas ao ótimo para qualquer rede em menos de um segundo. Observamos também que as redes podem ser cobertas atribuindo um número linear de fluxos em relação ao número de interfaces dos dispositivos e, por fim, que é possível minimizar a carga de tele metria para uma interface por fluxo para a maioria das redes. Continuando nosso trabalho, investigamos ainda mais os recursos disponíveis na DPP e projetamos o INTSIGHT, um sistema para detecção e diagnóstico altamente precisos de violações de SLO. A principal contribuição do INTSIGHT é, com base na telemetria in-band, introduzir o cálculo de mé tricas de rede ao longo do caminho dos pacotes e a exportação seletiva de informações para o plano de controle. Mostramos a eficácia do INTSIGHT por meio de dois casos de uso. Nossa avaliação usando redes reais também mostra que INTSIGHT gera até duas ordens de magnitude menos tráfego de monitoramento do que abordagens do estado da arte. Além disso, seus requisitos de processamento e memória são baixos e, portanto, compatíveis com as plataformas programáveis existentes. Como etapa final desta tese, mudamos nosso foco para a reação rápida e propomos o FELIX, um sistema para recupe ração de falhas que redireciona o tráfego afetado em escalas de tempo de plano de dados enquanto ainda usa os caminhos mais curtos dentre os disponíveis. Nossa avaliação mos tra que nossa abordagem pode se recuperar de falhas até quatro ordens de magnitude mais rapidamente do que as abordagens SDN existentes. |
publishDate |
2022 |
dc.date.accessioned.fl_str_mv |
2022-09-17T05:11:20Z |
dc.date.issued.fl_str_mv |
2022 |
dc.type.status.fl_str_mv |
info:eu-repo/semantics/publishedVersion |
dc.type.driver.fl_str_mv |
info:eu-repo/semantics/doctoralThesis |
format |
doctoralThesis |
status_str |
publishedVersion |
dc.identifier.uri.fl_str_mv |
http://hdl.handle.net/10183/249121 |
dc.identifier.nrb.pt_BR.fl_str_mv |
001149752 |
url |
http://hdl.handle.net/10183/249121 |
identifier_str_mv |
001149752 |
dc.language.iso.fl_str_mv |
eng |
language |
eng |
dc.rights.driver.fl_str_mv |
info:eu-repo/semantics/openAccess |
eu_rights_str_mv |
openAccess |
dc.format.none.fl_str_mv |
application/pdf |
dc.source.none.fl_str_mv |
reponame:Biblioteca Digital de Teses e Dissertações da UFRGS instname:Universidade Federal do Rio Grande do Sul (UFRGS) instacron:UFRGS |
instname_str |
Universidade Federal do Rio Grande do Sul (UFRGS) |
instacron_str |
UFRGS |
institution |
UFRGS |
reponame_str |
Biblioteca Digital de Teses e Dissertações da UFRGS |
collection |
Biblioteca Digital de Teses e Dissertações da UFRGS |
bitstream.url.fl_str_mv |
http://www.lume.ufrgs.br/bitstream/10183/249121/2/001149752.pdf.txt http://www.lume.ufrgs.br/bitstream/10183/249121/1/001149752.pdf |
bitstream.checksum.fl_str_mv |
39728e615a54f7c7db0e8126d3487f96 146fdb0c86c4caee1e0457538bd783d4 |
bitstream.checksumAlgorithm.fl_str_mv |
MD5 MD5 |
repository.name.fl_str_mv |
Biblioteca Digital de Teses e Dissertações da UFRGS - Universidade Federal do Rio Grande do Sul (UFRGS) |
repository.mail.fl_str_mv |
lume@ufrgs.br||lume@ufrgs.br |
_version_ |
1810085596459171840 |