GPU通信速率对比

merlin-mm2026-04-12 8:57

普通以太网

物理带宽（线速）

这是硬件的理论上限，实际应用吞吐量会因 TCP/IP 协议栈开销而略低。

10Gbps (10GbE)
- 理论峰值：10 Gbps
- 实际 TCP 吞吐量：~8--9.4 Gbps（约 1GB/s）
25Gbps (25GbE)
- 理论峰值：25 Gbps
- 实际 TCP 吞吐量：~20--23.5 Gbps（约 2.3GB/s）
100Gbps (100GbE)
- 理论峰值：100 Gbps
- 实际 TCP 吞吐量：~80--94 Gbps（约 9--11.7GB/s）
- 注：100G TCP 很难跑满，常受 CPU 处理能力限制。

RDMA高速网络

网卡	理论带宽	RDMA 实际吞吐量	对比 TCP
100G IB/RoCE	100 Gbps	95~99 Gbps	TCP 通常 70~90 Gbps
200G IB/RoCE	200 Gbps	190~198 Gbps	差距更大
400G IB/RoCE	400 Gbps	380~396 Gbps	同上

Nvlink

NVLink 1.0 (P100)
- 单链路：40 GB/s
- 单 GPU：160 GB/s（4 条链路）
NVLink 2.0 (V100)
- 单链路：50 GB/s
- 单 GPU：300 GB/s（6 条链路）
NVLink 3.0 (A100/A800)
- 单链路：50 GB/s
- 单 GPU：600 GB/s（12 条链路）
- 双 GPU 桥接：400 GB/s（A800 主动桥接）nvidia.cn
NVLink 4.0 (H100/H200)
- 单链路：100 GB/s
- 单 GPU：1.8 TB/s（18 条链路）
NVLink 5.0 (Blackwell B200/GB200)
- 单链路：200 GB/s
- 单 GPU：3.6 TB/s（18 条链路）NVIDIA

同 NUMA 节点内 GPU 通信（无 NVLink）

通路：GPU → PCIe Switch/P2P → GPU

特性	PCIe 4.0 x16	PCIe 5.0 x16	NVLink H100
带宽（单向）	16 GB/s	32 GB/s	300+ GB/s per link
GPU 到 GPU 延迟	高（几十 ns）	高	低（几 ns）
数据访问方式	需 CPU 中转	需 CPU 中转	直接 GPU 互访
优势场景	小规模模型 / LoRA 微调	小规模模型 / LoRA 微调	大模型多卡训练 / 分布式并行

跨 NUMA 节点 GPU 通信（无 NVLink）

通路：GPU → PCIe → CPU0 → UPI/IF → CPU1 → PCIe → GPU

主要通过cpu经过了系统总线，可按照同num节点无nvlink参与的一半速率预估

参考文章

https://arthurchiao.art/blog/gpu-advanced-notes-1-zh/

上一篇：GPT-5.4在自动化测试与质量保障中的创新应用实践

下一篇：《计算机网络》深入学：比较 RIP 和 OSPF 协议

热门推荐

01要裂开了！ChatGPT要手机号验证了？注册Codex要求验证电话号码怎么办？2026年登陆Codex要手机号验证的解决办法 02GitHub 镜像站点 03裂开！ChatGPT 居然开始要手机号验证，附详细解决方法 04Codex 接入 DeepSeek API 完整配置文档 05【AI】2026 年具身智能模型和世界模型总结 06零基础教你claude code 接入 deepseek V4 07实测可用｜小米 MiMo 百万亿 Token 免费领，开发者速冲 082026年4月AI大事件深度解读：大模型竞争进入“深水区“09在Windows 11上安装Docker的踩坑记录 102026年AI前瞻：量子AI、具身智能与科学发现的新纪元