GPU通信速率对比

普通以太网

物理带宽(线速)

这是硬件的理论上限,实际应用吞吐量会因 TCP/IP 协议栈开销而略低。

  • 10Gbps (10GbE)
    • 理论峰值:10 Gbps
    • 实际 TCP 吞吐量:~8--9.4 Gbps(约 1GB/s)
  • 25Gbps (25GbE)
    • 理论峰值:25 Gbps
    • 实际 TCP 吞吐量:~20--23.5 Gbps(约 2.3GB/s)
  • 100Gbps (100GbE)
    • 理论峰值:100 Gbps
    • 实际 TCP 吞吐量:~80--94 Gbps(约 9--11.7GB/s)
    • 注:100G TCP 很难跑满,常受 CPU 处理能力限制。

RDMA高速网络

网卡 理论带宽 RDMA 实际吞吐量 对比 TCP
100G IB/RoCE 100 Gbps 95~99 Gbps TCP 通常 70~90 Gbps
200G IB/RoCE 200 Gbps 190~198 Gbps 差距更大
400G IB/RoCE 400 Gbps 380~396 Gbps 同上
  • NVLink 1.0 (P100)
    • 单链路:40 GB/s
    • 单 GPU:160 GB/s(4 条链路)
  • NVLink 2.0 (V100)
    • 单链路:50 GB/s
    • 单 GPU:300 GB/s(6 条链路)
  • NVLink 3.0 (A100/A800)
    • 单链路:50 GB/s
    • 单 GPU:600 GB/s(12 条链路)
    • 双 GPU 桥接:400 GB/s(A800 主动桥接)nvidia.cn
  • NVLink 4.0 (H100/H200)
    • 单链路:100 GB/s
    • 单 GPU:1.8 TB/s(18 条链路)
  • NVLink 5.0 (Blackwell B200/GB200)
    • 单链路:200 GB/s
    • 单 GPU:3.6 TB/s(18 条链路)NVIDIA

同 NUMA 节点内 GPU 通信(无 NVLink)

通路:GPU → PCIe Switch/P2P → GPU

特性 PCIe 4.0 x16 PCIe 5.0 x16 NVLink H100
带宽(单向) 16 GB/s 32 GB/s 300+ GB/s per link
GPU 到 GPU 延迟 高(几十 ns) 低(几 ns)
数据访问方式 需 CPU 中转 需 CPU 中转 直接 GPU 互访
优势场景 小规模模型 / LoRA 微调 小规模模型 / LoRA 微调 大模型多卡训练 / 分布式并行

跨 NUMA 节点 GPU 通信(无 NVLink)

通路:GPU → PCIe → CPU0 → UPI/IF → CPU1 → PCIe → GPU

主要通过cpu经过了系统总线, 可按照同num节点无nvlink参与的一半速率预估

参考文章

https://arthurchiao.art/blog/gpu-advanced-notes-1-zh/

相关推荐
运维开发故事4 天前
基于 Arthas 的多集群在线诊断系统设计与实现
kubernetes
Patrick_Wilson6 天前
从「改个端口」到 502:Next.js on k8s 的容器端口、Service 映射与 env 覆盖
docker·kubernetes·next.js
探索云原生6 天前
K8s 1.36 这个 GA 特性,把 initContainer 拉模型的 hack 干掉了
ai·云原生·kubernetes
Java之美7 天前
一次k8s升级引发的DevicePlugin注册失败
云原生·kubernetes
网络研究院14 天前
2026年网络安全
网络·安全·法律·法规·趋势·发展
酣大智14 天前
ARP代理--工作原理
运维·网络·arp·arp代理
treesforest14 天前
AI安全系统如何识别异常访问?IP风险识别正在成为关键能力
网络·人工智能·tcp/ip·安全·web安全
shushangyun_14 天前
2026年快消品B2B系统推荐:支持终端门店订货、促销政策自动化的工具?
java·运维·网络·数据库·人工智能·spring·自动化
2601_9618451514 天前
粉笔行测题库|系统班|刷题
网络·百度·微信·微信公众平台·facebook·新浪微博