DGX Spark 200G 跟 100G 设备的通讯协议

  • DGX Spark 200G 口 = ConnectX-7 网卡 + 200GbE(QSFP56,4×50G PAM4)
  • 100G 设备 = 100GbE(QSFP28,4×25G NRZ)
  • 底层物理 / 编码不互通(PAM4 ↔ NRZ),必须用带 DSP/Retiming 的 "转换器件 / 线缆"
  • 上层协议仍然是:标准以太网 + RoCEv2(RDMA)+ NCCL,和速率无关

下面分四层讲:物理层 → 数据链路 / 网络层 → RDMA 传输层 → 应用通信库


一、物理层:200G(PAM4) vs 100G(NRZ)

DGX Spark 200G(QSFP56)

  • 网卡:ConnectX-7
  • 速率:200GbE ,4×50G PAM4
  • 标准:IEEE 802.3cd(200GBASE-SR4/FR4)

传统 100G 设备(QSFP28)

  • 速率:100GbE ,4×25G NRZ
  • 标准:IEEE 802.3bm(100GBASE-SR4/LR4)

为什么不能直连

  • 机械兼容(壳一样),但电信号 / 调制完全不兼容
  • QSFP28 端口的 SerDes 只支持 25G NRZ,不支持 50G PAM4
  • 直连会:不 link / 丢包 / 速率协商失败

必须用的 "转换硬件"(三种)

  1. 200G→100G Retiming 模块(插 DGX 侧)
    • 内部 DSP:PAM4 4×50G ↔ NRZ 4×25G
    • 协商成 100GbE,对端 QSFP28 直接认
  2. QSFP56 → 2×QSFP28 有源 Breakout AOC
    • 一端 200G PAM4,另一端两个 100G NRZ
    • 每路 100G 独立链路
  3. 支持 200G/100G 混跑的交换机
    • 端口:QSFP56(200G PAM4)+ QSFP28(100G NRZ)
    • 交换机内部做 PAM4↔NRZ 转码 + 速率适配

二、数据链路 / 网络层:都是标准以太网

不管 200G 还是 100G,L2/L3 完全一样

  • 以太网帧:MTU 9000(巨帧,推荐)
  • IPv4/IPv6:正常路由 / 二层互通
  • VLAN:支持
  • 端口协商:
    • 200G 端口 ↔ 转换器件 → 协商为 100G
    • 100G 设备侧:看到的就是 100GbE

上层 IP 协议无感知,只觉得是个 100G 网卡。


三、RDMA 传输层:RoCEv2(关键)

DGX Spark 默认 RDMA 协议

  • RoCEv2(RDMA over Converged Ethernet)
  • 替代传统 InfiniBand,以太网上跑 RDMA
  • 拥塞控制:DCQCN(需 PFC/ECN 配置)

200G ↔ 100G 互通时

  • RoCEv2 协议不变 ,只是带宽降到 100G
  • 100G 设备(如旧 DGX、Mellanox ConnectX-5/6)也支持 RoCEv2(100G)
  • 只要:
    1. 两端都开启 RoCEv2
    2. 子网互通、MTU=9000
    3. PFC/ECN 配置一致 → RDMA 可正常跑,带宽 100G,延迟略升

不支持 InfiniBand(IB)

  • DGX Spark ConnectX-7 只支持以太网(RoCE),不支持 IB
  • 老设备如果是 100G InfiniBand(HDR100)不能直接和 Spark 互通
    • 必须中间加 IB→RoCE 网关 / 交换机

四、应用层:NCCL(AI 集群核心)

DGX Spark 用 NCCL

  • NCCL(NVIDIA Collective Communications Library)
  • 负责 All-Reduce、All-Gather 等 GPU 集合通信
  • 自动识别底层:RoCEv2(200G/100G)、InfiniBand、NVLink

200G ↔ 100G 场景

  • NCCL 协议不变 ,自动适配 100G 带宽

  • 环境变量需指定 RoCE 接口

    bash

    运行

    复制代码
    NCCL_IB_HCA=rocep1s0f1,roceP2p1s0f1  # DGX Spark 双 RoCE 口
  • 性能:带宽≈100G,延迟比纯 200G 高 10--20%


五、完整协议栈总结(200G ↔ 100G)

plaintext

复制代码
应用:NCCL(GPU集合通信)
传输:RoCEv2(RDMA)+ DCQCN(拥塞控制)
网络:IPv4/IPv6 + 巨帧(9000)
链路:100GbE(通过转换器件)
物理:PAM4(50G×4) ↔ NRZ(25G×4) (DSP/Retiming转换)

六、实操建议(你场景:DGX Spark ↔ 100G 旧设备)

  1. 短距(≤100m)一对一
    • 200G→100G Retiming 模块(DGX 侧插)
    • 对端 QSFP28 直接连,RoCEv2 + NCCL 正常跑
  2. 多设备
    • QSFP56→2×QSFP28 Breakout AOC
  3. 大规模组网
    • 200G/100G 混配交换机(如 NVIDIA SN4700)
相关推荐
Agent手记2 小时前
制造业生产流程自动化,Agent需要具备哪些能力?深度拆解2026工业级智能体落地范式与核心架构
大数据·人工智能·ai·架构·自动化
硅基流动2 小时前
光谷爱计算 × 硅基流动:AI 算力联合运营,共建高效“Token 工厂”
大数据·人工智能
xinshu5273 小时前
企业工商和司法风险:从定义到AI识别的完整指南
大数据·人工智能·技术分享
anew___3 小时前
国产AI大模型巅峰对决:2026年5月主流模型深度横评
大数据·人工智能
财经资讯数据_灵砚智能3 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(日间)2026年5月26日
大数据·人工智能·python·信息可视化·自然语言处理·ai编程·灵砚智能
Bechamz3 小时前
大数据开发学习Day42
大数据·学习
计算机安禾4 小时前
【算法分析与设计】第10篇:下界理论与NP完全性初步
大数据·人工智能·算法
电商API_180079052474 小时前
京东API对接|实现批量自动化获取京东商品价格更新商品库
大数据·运维·数据挖掘·自动化·网络爬虫
水木流年追梦5 小时前
大模型入门-大模型分布式训练2
开发语言·分布式·python·算法·正则表达式·prompt
松☆5 小时前
torchtitan-npu:7B大模型在8卡NPU上的分布式训练实录
分布式