DGX Spark 200G 跟 100G 设备的通讯协议

下面分四层讲：物理层 → 数据链路 / 网络层 → RDMA 传输层 → 应用通信库。

200G→100G Retiming 模块（插 DGX 侧）
- 内部 DSP：PAM4 4×50G ↔ NRZ 4×25G
- 协商成 100GbE，对端 QSFP28 直接认
QSFP56 → 2×QSFP28 有源 Breakout AOC
- 一端 200G PAM4，另一端两个 100G NRZ
- 每路 100G 独立链路
支持 200G/100G 混跑的交换机
- 端口：QSFP56（200G PAM4）+ QSFP28（100G NRZ）
- 交换机内部做 PAM4↔NRZ 转码 + 速率适配

不管 200G 还是 100G，L2/L3 完全一样：

上层 IP 协议无感知，只觉得是个 100G 网卡。

RoCEv2 协议不变 ，只是带宽降到 100G
100G 设备（如旧 DGX、Mellanox ConnectX-5/6）也支持 RoCEv2（100G）
只要：
1. 两端都开启 RoCEv2
2. 子网互通、MTU=9000
3. PFC/ECN 配置一致 → RDMA 可正常跑，带宽 100G，延迟略升

DGX Spark ConnectX-7 只支持以太网（RoCE），不支持 IB
老设备如果是 100G InfiniBand（HDR100） ，不能直接和 Spark 互通
- 必须中间加 IB→RoCE 网关 / 交换机

环境变量需指定 RoCE 接口 ：

bash

运行

复制代码

NCCL_IB_HCA=rocep1s0f1,roceP2p1s0f1  # DGX Spark 双 RoCE 口

plaintext

复制代码

应用：NCCL（GPU集合通信）
传输：RoCEv2（RDMA）+ DCQCN（拥塞控制）
网络：IPv4/IPv6 + 巨帧（9000）
链路：100GbE（通过转换器件）
物理：PAM4(50G×4) ↔ NRZ(25G×4) （DSP/Retiming转换）

短距（≤100m）一对一
- 选 200G→100G Retiming 模块（DGX 侧插）
- 对端 QSFP28 直接连，RoCEv2 + NCCL 正常跑
多设备
- 选 QSFP56→2×QSFP28 Breakout AOC
大规模组网
- 用 200G/100G 混配交换机（如 NVIDIA SN4700）