100GBASE-LR4 如何连接dgx spark

00GBASE-LR4光模块无法直接连接到DGX Spark,必须使用特定的转换硬件。

根本原因在于两者的物理层调制模式不兼容:

  • DGX Spark :使用 200GbE (QSFP56) 端口,基于 PAM4 调制(4条50Gbps通道)。

  • 100GBASE-LR4 :是 100GbE (QSFP28) 标准,基于 NRZ 调制(4条25Gbps通道)。

虽然QSFP56和QSFP28的物理接口外观相同,可以互插,但电信号和编码方式完全不同,直接连接会导致链路无法建立、丢包或速率协商失败

可行的连接方案

以下是三种经过验证的连接方案:

  1. 使用200G→100G Retiming模块(推荐)

    • 原理:这是一个插入DGX Spark端的有源转换模块,内部包含DSP芯片,能将DGX Spark的PAM4信号实时转换为100G设备能识别的NRZ信号。

    • 连接方式:将该模块插入DGX Spark的QSFP56端口,然后用一根标准的100GBASE-LR4光模块(或直连电缆)连接到对端设备。

    • 效果:DGX Spark侧会协商为100GbE速率,对端100G设备会认为直接连接了一个标准的100G网卡。

  2. 使用支持速率转换的交换机

    • 原理:使用同时拥有QSFP56(200G PAM4)和QSFP28(100G NRZ)端口的交换机。

    • 连接方式:将DGX Spark连接到交换机的200G端口,将100GBASE-LR4设备连接到交换机的100G端口。

    • 效果:交换机在内部完成PAM4与NRZ信号之间的转码和速率适配。

  3. 使用有源分支光缆(AOC)

    • 原理:这是一种特殊的有源光缆,一端是QSFP56接口(连接DGX Spark),另一端分出两个QSFP28接口。

    • 连接方式:将QSFP56端插入DGX Spark,两个QSFP28端分别连接到两台100G设备。

    • 效果:此方案可以将一个200G端口拆分为两个独立的100G链路。

重要注意事项与操作建议

  • 兼容性 :ConnectX-7网卡对第三方光模块的兼容性较为严格。为确保稳定工作,强烈建议优先选用NVIDIA Mellanox官方认证的模块 ,例如MMA1B00-CS4等型号。部分第三方模块(如FS.com)通过烧录兼容厂商代码也可能工作,但存在风险。

  • 问题排查 :如果连接失败,可通过SSH登录DGX Spark,使用 mlxlinkmlxconfig 命令查看模块信息、链路状态和错误标志。

  • 上层协议:完成物理层转换后,上层的以太网、RoCEv2(RDMA)和NCCL等协议均能正常通信,只是带宽限制在100Gbps。

总结:核心是必须使用有源转换硬件(Retiming模块、混合交换机或分支光缆)来桥接PAM4和NRZ两种不同的调制信号。