在现代数据中心和智算网络中,负载均衡技术是保障网络性能的关键。从传统的ECMP到逐包负载均衡,再到基于Flowlet的自适应路由切换(ARS),负载均衡技术正在向更智能、更动态的方向发展。本文将深入探讨ARS技术如何利用Flowlet机制实现智能负载均衡,为高性能计算提供网络基础设施支持。
静态的逐流负载均衡技术
传统ECMP路由采用逐流负载分担机制,其核心是基于数据包的特征字段(如IP五元组)进行哈希运算,根据哈希结果选择转发链路。这种机制具有两大特点:不同特征的数据流会分散到不同链路;相同特征的数据流则保证按序传输。
然而,在云计算和智算业务兴起的背景下,逐流负载均衡的缺陷日益凸显。它无法解决流大小不均问题,静态分配机制不能实时感知链路负载,当网络出现大象流时容易加剧拥塞。特别是在智算集合通信场景下,该机制极易在Clos组网的Leaf上行链路出现哈希极化现象,导致网络性能下降。
动态的逐包负载均衡技术
逐包负载均衡技术将数据包均匀分布到各条链路,被称为"数据包喷洒"。它通常提供Random和Round Robin两种算法:Random算法随机分散数据包;Round Robin算法将数据包逐一等量分散到各条链路,理论上均衡度最佳。
但这种技术的局限性在于,由于不同链路的负载情况和转发时延存在差异,无法保证报文依照原有时序到达接收端。因此,其整体性能高度依赖于端侧的缓存容量和乱序重组能力,在实际应用中存在一定限制。
自适应的Flowlet负载均衡技术
基于子流(Flowlet)的负载均衡技术兼具精细负载分担和报文时序保持双重优势。星融元RoCE交换机支持的ARS(自适应路由切换)技术正是基于此原理,利用ASIC提供的硬件ALB(自动负载均衡)能力,通过实时感知链路状态,主动调整选路策略。
该技术通过三个关键机制实现智能化负载均衡:
1.智能流分割机制:通过空闲时间参数(IdleTime)将宏观流分割为子流
2.动态质量评估机制:基于端口带宽、利用率和转发时延等多维度指标
3.主动路径分配机制:根据实时链路质量择优选择转发路径
ARS技术中有以下几个关键概念:
微观流(Micro Flow):五元组相同的一组数据包
宏观流(Macro Flow):哈希值相同的微观流的集合
空闲时间(Idle Time):宏观流中一段没有流量的时间(可配置的参数)
子流(Flowlet)指宏观流中被空闲时间分割的一组连续数据包

基于Flowlet的路径分配概念图
智能流分割原理
Flowlet(子流)是 ARS 技术对流进行负载均衡的基本单位。这意味着在进行负载均衡时,不是以整个流为单位,而是以更小的子流为单位来进行操作,从而可以实现更精细的负载均衡。
空闲时间(Idle Time):这是一个可配置的参数,用于定义宏观流中两条微观流之间的时间间隔阈值。
在宏观流中,当两条微观流之间相隔的时间 T 大于配置的空闲时间(Idle Time)时,就会触发流分割。具体来说,以时间 T 为界,将宏观流分割为子流(Flowlet),前后两个微观流从属于两个不同的子流。例如,假设空闲时间配置为 10ms,当微观流 1 和微观流 2 之间的时间间隔超过 10ms 时,宏观流就会被分割为两个子流,微观流 1 属于第一个子流,微观流 2 属于第二个子流。通过这种流分割的方式,可以将传统意义上的"大象流"(大流量的流)打散,使负载均衡的粒度更细,从而提高负载均衡的效果。同时,小流也有可能合并到一个 Flowlet 里传输,进一步优化了流量的分配。

动态质量评估体系

ARS技术建立了一套完整的链路质量评估体系:
- 端口带宽:控制平面对启用ARS功能的端口线速速率进行归一化处理
- 端口利用率:通过实时流量速率与线速速率的比较得出带宽利用率
- 转发时延:通过端口队列深度反映链路转发时延情况
这些指标共同决定了端口所在链路在特定时刻的质量情况,为路径选择提供数据支撑。
路径分配触发机制
路径主动分配发生在流分割过程的末尾。当Flowlet的最后一条微观流被分配后,间隔时间T(T>IdleTime)后出现新的微观流时,ASIC认为原Flowlet已结束,映射关系到期,此时触发主动路径分配决策。
关键参数IdleTime的配置与全局路径时延信息高度相关,通常配置为不小于1/2 RTT。配置过小会导致Flowlet粒度过细引发乱序,过大则无法有效分割宏观流,导致拥塞问题。
实际应用与性能表现

以32台8卡GPU服务器(256个400G网卡)规模为例,AIDC承载网采用两层Clos网络架构。Spine 和 Leaf 设备均选择CX864E-N交换机,并按照下行端口与上行端口1:1的收敛比设计组网。在保证网络高吞吐、高带宽的基础上,1:1的带宽收敛比能够避免因带宽不对称导致的性能问题。
传统负载均衡机制下,流量会选择固定路径,AI场景下的大象流极易被均衡到同一路径上导致拥塞。而启用ARS技术后,ASIC能够根据转发时延和端口实时负载动态调整流量出接口。当某条链路发生拥塞时,交换机会减少向该链路路由Flowlet,直至拥塞缓解后才恢复使用,从而实现整网链路拥塞情况的降低和带宽利用率的提升。
参考文档
-
1\] OCPSummit2022- Adaptive Routing in AI/ML Workloads [https://www.youtube.com/watch?v=cgYOpp4xwQ8](https://www.youtube.com/watch?v=cgYOpp4xwQ8 "https://www.youtube.com/watch?v=cgYOpp4xwQ8")
-
3\][https://asterfusion.com/a20250528-flowlet-alb/](https://asterfusion.com/a20250528-flowlet-alb/ "https://asterfusion.com/a20250528-flowlet-alb/")