浅谈VPP与DPDK技术以及产业界应用实例

完整内容请参考 浅谈VPP与DPDK技术以及产业界应用实例 - 星融元Asterfusion


VPP(Vector packet processing)是 Linux 基金会下FD.io项目的一部分。VPP 的目标是提供一个快速的L2-L4 用户态 网络堆栈,该堆栈可在x86、Arm 和 Power 等常见架构上运行。VPP 从网络 IO 层读取最大可用数据包矢量,然后通过数据包处理图(Packet Processing graph)处理这个矢量。VPP集成了DPDK(Data Plane Development Kit)项目,通过它直接访问硬件网卡资源。

什么是矢量包处理?

与矢量包处理相对的是传统的"标量(scalar)"处理。在标量处理模式下,系统一次仅处理一个数据包,完成整个包处理流程后再处理下一个包。在这种模式下,每个数据包都需要独立分配计算资源、缓存管理、并经历上下文切换。当网络I/O速度很高时,这些额外的开销与处理单个包的时间相近,导致效率低下。

矢量处理通过引入以下改进克服了标量处理的不足:

  1. 批量处理多个数据包:VPP通过将一组数据包(典型为64个或更多)组合成一个"矢量",在每个节点中一次性对这些数据包进行处理。与逐个包处理相比,这种方式分摊了资源准备和上下文切换的开销,从而显著提升了矢量中每个数据包的处理速度。
  2. 利用SIMD并行处理能力 :现代CPU的Single Instruction Multiple Data(SIMD)指令集能够通过单条指令同时对多个数据执行相同的操作。相比于传统的"每次仅处理一个数据"的方式,SIMD显著提高了运算速度。例如,Marvell OCTEON 10 ARM Neoverse N2处理器支持的SVE2(Scalable Vector Extensions Version 2)允许灵活配置128位到2048位的矢量长度。在2048位配置下,一条指令可以同时处理高达64个IPv4地址,从而大幅提升网络数据流的处理能力。
  3. 优化缓存利用:现代CPU通常具备较大的L1/L2缓存。矢量处理可以将多个数据包一次性加载到高速缓存中,减少对内存的频繁访问。例如,Marvell OCTEON 10 ARM Neoverse N2处理器拥有64KB的L1缓存,可以一次存储约42个1500字节的完整数据包或3276个IPv4包头,从而减少了多次的缓存-内存交换,进一步提高了包处理效率。

简言之,矢量包处理通过批量化、并行计算和缓存优化,有效提升了处理速度,特别适用于高性能网络环境。

VPP的优势:用户态网络协议栈

传统的Linux网络协议栈工作在内核态,注重通用性和软件灵活性,但在高性能网络中存在瓶颈,主要问题包括:

  1. 内核态与用户态切换开销:用户态程序处理网络数据时需要频繁切换到内核态,带来显著的延迟,特别是在高流量场景下。
  2. 逐层处理开销:协议栈按OSI模型逐层处理,每层都涉及协议解析和数据拷贝,导致效率低下。
  3. 软中断和单线程限制:Linux内核的网络栈主要依赖软中断和单线程处理,无法充分利用多核CPU的优势,特别是高并发时。即使通过RSS(Receive Side Scaling)将不同的数据流分配到多个CPU核心,仍然存在调度和同步的开销,无法实现完全并行处理。

VPP在用户态实现了完整的网络协议栈,包括IP, TCP, Session层和应用层公共库。

它解决了传统Linux协议栈的一些问题:

  1. 减少上下文切换:VPP在用户态运行,避免了用户态和内核态之间的切换,利用DPDK直接访问网卡,跳过了内核的网络协议栈。
  2. 融合协议处理:VPP将IP、TCP、Session等协议层结合在一起,减少了协议层之间的冗余数据传递,数据包不需要在每层之间进行反复的数据拷贝和传递,因为这些协议层的处理是在同一内存区域中完成的。
  3. 用户态多线程处理:与内核态的单线程处理模型不同,VPP充分利用现代CPU的多核和多线程能力,并在用户态中通过线程池并行处理多个数据流。用户态的线程调度开销更小,任务分配更灵活,借助多线程,VPP能够将网络流量有效地分布到多个CPU核心,近乎线性地提升网络吞吐量。

简言之,用户态网络协议栈技术使得VPP通过减少内核态与用户态切换、融合协议层处理、多线程优化和直接硬件访问,显著提升了高并发和高吞吐量场景下的网络性能。

未完待续......

完整内容请参考 浅谈VPP与DPDK技术以及产业界应用实例 - 星融元Asterfusion

相关推荐
柒.梧.2 小时前
吃透HTTP及相关协议核心区别,从基础到进阶全覆盖
网络·网络协议·http
forAllforMe3 小时前
用STM32+LAN9252, 生成一个etherCAT 从机系统,实现数据采集功能
网络·stm32·嵌入式硬件
程序员小寒3 小时前
前端性能优化之白屏、卡顿指标和网络环境采集篇
前端·javascript·网络·性能优化
上海合宙LuatOS4 小时前
LuatOS核心库API——【 string】字符串操作
运维·服务器·物联网·junit·硬件工程·信息与通信·嵌入式实时数据库
wal13145204 小时前
OpenClaw教程(九)—— 彻底告别!OpenClaw 卸载不残留指南
前端·网络·人工智能·chrome·安全·openclaw
白藏y5 小时前
【协议】SSE协议和WebSocket协议
网络·websocket·网络协议
上海合宙LuatOS5 小时前
LuatOS核心库API——【sys】LuatOS运行框架
运维·服务器·物联网·硬件工程·lua·软件工程·信息与通信
运维行者_5 小时前
网络监控方案从零开始 -- 企业级完整指南
大数据·运维·服务器·网络·数据库·人工智能·自动化
朱一头zcy6 小时前
简单理解NAT(网络地址转换)模式和桥接模式
网络·桥接模式·nat
加农炮手Jinx7 小时前
Flutter 三方库 cloudflare 鸿蒙云边协同分发流适配精讲:直连全球高速存储网关阵列无缝吞吐海量动静态画像资源,构筑大吞吐业务级网络负载安全分流-适配鸿蒙 HarmonyOS ohos
网络·flutter·harmonyos