GPU通信速率对比

普通以太网

物理带宽(线速)

这是硬件的理论上限,实际应用吞吐量会因 TCP/IP 协议栈开销而略低。

  • 10Gbps (10GbE)
    • 理论峰值:10 Gbps
    • 实际 TCP 吞吐量:~8--9.4 Gbps(约 1GB/s)
  • 25Gbps (25GbE)
    • 理论峰值:25 Gbps
    • 实际 TCP 吞吐量:~20--23.5 Gbps(约 2.3GB/s)
  • 100Gbps (100GbE)
    • 理论峰值:100 Gbps
    • 实际 TCP 吞吐量:~80--94 Gbps(约 9--11.7GB/s)
    • 注:100G TCP 很难跑满,常受 CPU 处理能力限制。

RDMA高速网络

网卡 理论带宽 RDMA 实际吞吐量 对比 TCP
100G IB/RoCE 100 Gbps 95~99 Gbps TCP 通常 70~90 Gbps
200G IB/RoCE 200 Gbps 190~198 Gbps 差距更大
400G IB/RoCE 400 Gbps 380~396 Gbps 同上
  • NVLink 1.0 (P100)
    • 单链路:40 GB/s
    • 单 GPU:160 GB/s(4 条链路)
  • NVLink 2.0 (V100)
    • 单链路:50 GB/s
    • 单 GPU:300 GB/s(6 条链路)
  • NVLink 3.0 (A100/A800)
    • 单链路:50 GB/s
    • 单 GPU:600 GB/s(12 条链路)
    • 双 GPU 桥接:400 GB/s(A800 主动桥接)nvidia.cn
  • NVLink 4.0 (H100/H200)
    • 单链路:100 GB/s
    • 单 GPU:1.8 TB/s(18 条链路)
  • NVLink 5.0 (Blackwell B200/GB200)
    • 单链路:200 GB/s
    • 单 GPU:3.6 TB/s(18 条链路)NVIDIA

同 NUMA 节点内 GPU 通信(无 NVLink)

通路:GPU → PCIe Switch/P2P → GPU

特性 PCIe 4.0 x16 PCIe 5.0 x16 NVLink H100
带宽(单向) 16 GB/s 32 GB/s 300+ GB/s per link
GPU 到 GPU 延迟 高(几十 ns) 低(几 ns)
数据访问方式 需 CPU 中转 需 CPU 中转 直接 GPU 互访
优势场景 小规模模型 / LoRA 微调 小规模模型 / LoRA 微调 大模型多卡训练 / 分布式并行

跨 NUMA 节点 GPU 通信(无 NVLink)

通路:GPU → PCIe → CPU0 → UPI/IF → CPU1 → PCIe → GPU

主要通过cpu经过了系统总线, 可按照同num节点无nvlink参与的一半速率预估

参考文章

https://arthurchiao.art/blog/gpu-advanced-notes-1-zh/

相关推荐
CS创新实验室2 小时前
《计算机网络》深入学:比较 RIP 和 OSPF 协议
网络·计算机网络·智能路由器
wanhengidc2 小时前
服务器管理器的作用有哪些?
运维·服务器·网络·安全·游戏·智能手机
vortex52 小时前
基于资源约束的委派 (RBCD) 利用细节
网络·网络协议·网络安全·内网渗透·ad域
cyber_两只龙宝2 小时前
【Docker】Docker的自定义网络详解
linux·运维·网络·docker·云原生·容器
不吃鱼的猫7482 小时前
【音视频流媒体进阶:从网络到 WebRTC】第03篇-Reactor 模式与事件驱动网络框架
网络·音视频·webrtc
JustNow_Man2 小时前
【opencode】使用方法
linux·服务器·网络·人工智能·python
W23035765732 小时前
【C++ 高性能日志系统实战】第三篇:异步日志系统的实现与优化
网络·数据结构·算法·日志
oi..2 小时前
CSRF安全攻防:Referer 校验与 Token 防护详解
前端·网络·笔记·测试工具·安全·网络安全·csrf
qq_260241232 小时前
将盾CDN:Web应用防火墙(WAF)的工作原理与实战配置
前端·网络·安全