普通以太网
物理带宽(线速)
这是硬件的理论上限,实际应用吞吐量会因 TCP/IP 协议栈开销而略低。
- 10Gbps (10GbE)
- 理论峰值:10 Gbps
- 实际 TCP 吞吐量:~8--9.4 Gbps(约 1GB/s)
- 25Gbps (25GbE)
- 理论峰值:25 Gbps
- 实际 TCP 吞吐量:~20--23.5 Gbps(约 2.3GB/s)
- 100Gbps (100GbE)
- 理论峰值:100 Gbps
- 实际 TCP 吞吐量:~80--94 Gbps(约 9--11.7GB/s)
- 注:100G TCP 很难跑满,常受 CPU 处理能力限制。
RDMA高速网络
| 网卡 | 理论带宽 | RDMA 实际吞吐量 | 对比 TCP |
|---|---|---|---|
| 100G IB/RoCE | 100 Gbps | 95~99 Gbps | TCP 通常 70~90 Gbps |
| 200G IB/RoCE | 200 Gbps | 190~198 Gbps | 差距更大 |
| 400G IB/RoCE | 400 Gbps | 380~396 Gbps | 同上 |
Nvlink
- NVLink 1.0 (P100)
- 单链路:40 GB/s
- 单 GPU:160 GB/s(4 条链路)
- NVLink 2.0 (V100)
- 单链路:50 GB/s
- 单 GPU:300 GB/s(6 条链路)
- NVLink 3.0 (A100/A800)
- 单链路:50 GB/s
- 单 GPU:600 GB/s(12 条链路)
- 双 GPU 桥接:400 GB/s(A800 主动桥接)nvidia.cn
- NVLink 4.0 (H100/H200)
- 单链路:100 GB/s
- 单 GPU:1.8 TB/s(18 条链路)
- NVLink 5.0 (Blackwell B200/GB200)
- 单链路:200 GB/s
- 单 GPU:3.6 TB/s(18 条链路)NVIDIA
同 NUMA 节点内 GPU 通信(无 NVLink)
通路:GPU → PCIe Switch/P2P → GPU
| 特性 | PCIe 4.0 x16 | PCIe 5.0 x16 | NVLink H100 |
|---|---|---|---|
| 带宽(单向) | 16 GB/s | 32 GB/s | 300+ GB/s per link |
| GPU 到 GPU 延迟 | 高(几十 ns) | 高 | 低(几 ns) |
| 数据访问方式 | 需 CPU 中转 | 需 CPU 中转 | 直接 GPU 互访 |
| 优势场景 | 小规模模型 / LoRA 微调 | 小规模模型 / LoRA 微调 | 大模型多卡训练 / 分布式并行 |
跨 NUMA 节点 GPU 通信(无 NVLink)
通路:GPU → PCIe → CPU0 → UPI/IF → CPU1 → PCIe → GPU
主要通过cpu经过了系统总线, 可按照同num节点无nvlink参与的一半速率预估
参考文章