- DGX Spark 200G 口 = ConnectX-7 网卡 + 200GbE(QSFP56,4×50G PAM4)
- 100G 设备 = 100GbE(QSFP28,4×25G NRZ)
- 底层物理 / 编码不互通(PAM4 ↔ NRZ),必须用带 DSP/Retiming 的 "转换器件 / 线缆"
- 上层协议仍然是:标准以太网 + RoCEv2(RDMA)+ NCCL,和速率无关
下面分四层讲:物理层 → 数据链路 / 网络层 → RDMA 传输层 → 应用通信库。
一、物理层:200G(PAM4) vs 100G(NRZ)
DGX Spark 200G(QSFP56)
- 网卡:ConnectX-7
- 速率:200GbE ,4×50G PAM4
- 标准:IEEE 802.3cd(200GBASE-SR4/FR4)
传统 100G 设备(QSFP28)
- 速率:100GbE ,4×25G NRZ
- 标准:IEEE 802.3bm(100GBASE-SR4/LR4)
为什么不能直连
- 机械兼容(壳一样),但电信号 / 调制完全不兼容
- QSFP28 端口的 SerDes 只支持 25G NRZ,不支持 50G PAM4
- 直连会:不 link / 丢包 / 速率协商失败
必须用的 "转换硬件"(三种)
- 200G→100G Retiming 模块(插 DGX 侧)
- 内部 DSP:PAM4 4×50G ↔ NRZ 4×25G
- 协商成 100GbE,对端 QSFP28 直接认
- QSFP56 → 2×QSFP28 有源 Breakout AOC
- 一端 200G PAM4,另一端两个 100G NRZ
- 每路 100G 独立链路
- 支持 200G/100G 混跑的交换机
- 端口:QSFP56(200G PAM4)+ QSFP28(100G NRZ)
- 交换机内部做 PAM4↔NRZ 转码 + 速率适配
二、数据链路 / 网络层:都是标准以太网
不管 200G 还是 100G,L2/L3 完全一样:
- 以太网帧:MTU 9000(巨帧,推荐)
- IPv4/IPv6:正常路由 / 二层互通
- VLAN:支持
- 端口协商:
- 200G 端口 ↔ 转换器件 → 协商为 100G
- 100G 设备侧:看到的就是 100GbE
上层 IP 协议无感知,只觉得是个 100G 网卡。
三、RDMA 传输层:RoCEv2(关键)
DGX Spark 默认 RDMA 协议
- RoCEv2(RDMA over Converged Ethernet)
- 替代传统 InfiniBand,以太网上跑 RDMA
- 拥塞控制:DCQCN(需 PFC/ECN 配置)
200G ↔ 100G 互通时
- RoCEv2 协议不变 ,只是带宽降到 100G
- 100G 设备(如旧 DGX、Mellanox ConnectX-5/6)也支持 RoCEv2(100G)
- 只要:
- 两端都开启 RoCEv2
- 子网互通、MTU=9000
- PFC/ECN 配置一致 → RDMA 可正常跑,带宽 100G,延迟略升
不支持 InfiniBand(IB)
- DGX Spark ConnectX-7 只支持以太网(RoCE),不支持 IB
- 老设备如果是 100G InfiniBand(HDR100) ,不能直接和 Spark 互通
- 必须中间加 IB→RoCE 网关 / 交换机
四、应用层:NCCL(AI 集群核心)
DGX Spark 用 NCCL
- NCCL(NVIDIA Collective Communications Library)
- 负责 All-Reduce、All-Gather 等 GPU 集合通信
- 自动识别底层:RoCEv2(200G/100G)、InfiniBand、NVLink
200G ↔ 100G 场景
-
NCCL 协议不变 ,自动适配 100G 带宽
-
环境变量需指定 RoCE 接口 :
bash
运行
NCCL_IB_HCA=rocep1s0f1,roceP2p1s0f1 # DGX Spark 双 RoCE 口 -
性能:带宽≈100G,延迟比纯 200G 高 10--20%
五、完整协议栈总结(200G ↔ 100G)
plaintext
应用:NCCL(GPU集合通信)
传输:RoCEv2(RDMA)+ DCQCN(拥塞控制)
网络:IPv4/IPv6 + 巨帧(9000)
链路:100GbE(通过转换器件)
物理:PAM4(50G×4) ↔ NRZ(25G×4) (DSP/Retiming转换)
六、实操建议(你场景:DGX Spark ↔ 100G 旧设备)
- 短距(≤100m)一对一
- 选 200G→100G Retiming 模块(DGX 侧插)
- 对端 QSFP28 直接连,RoCEv2 + NCCL 正常跑
- 多设备
- 选 QSFP56→2×QSFP28 Breakout AOC
- 大规模组网
- 用 200G/100G 混配交换机(如 NVIDIA SN4700)