卡间互联详解

  1. GPU服务器-GPU卡互联知识点总结
  1. 和PCIE相关的带宽计算

    a. GT/s即Giga transaction per second (千兆传输/秒),描述的是物理层通信协议的速率,即每一秒内传输的次数。

    b. 举例:PCIE3.0每条通道(Lane)是8GT/s,有效数据占比为128b/130b,每条Lane是8Gx(128/130)/8=0.9846GB/s,根据Lane的数量相乘就可以了,(这里都是说的单向)。

    c. 举例:以PCIE 5.0为例,每条Lane是32GT/s,换算有效的数据带宽后是32G8x(128/130)/8=3.938GB/s≈4GB/s,那么H800是16条Lane,4x16=64GB/s单向,双向就是128GB/s。

  2. 标准GPU服务器-GPU卡卡互联

    a. 通过PLX(PCIE SW芯片)扩展的三种拓扑

    b. Nvlink 桥接器实现卡卡互联

  3. HGX模组GPU服务器内部互联拓扑-A100

    a. HGX模组是英伟达推出的标准产品,主要包括了8块OAM的GPU卡、GPU互联底板、Nvlink SW芯片等。

  4. hwHCCS 8卡机内部互联拓扑

    a. hw八卡机平台是四颗KP 920处理器,CPU和GPU是直通模式,中间无PCIE sw芯片,并且CPU的PCIE lane数量有限,每CPU支持PCIE 4.0x40对应2个NPU,200Gb的网卡也是通过NPU直出,卡卡间无类似Nvlink sw芯片,单卡到多卡为7条链路的总带宽,单卡到单卡卡互联带宽取决于单条链路的速率。

  5. Mellanox网卡在H100的拓扑

    a. 在H100机器内部,HGX模组是和机头在逻辑上通过4个PCIE SW芯片互联。

    b. 每个PCIE sw对应两个GPU卡和2个网卡,8张400G的IB卡是为了和8卡的H100一一对应。

    c. 如果配满了8张400G的IB卡,再加其他网卡需要用CPU出来的其他PCIE SW连接。

  6. 大模型需要多机多卡分布式训练,训练总token = 6 * 模型参数量 * 训练数据token数。6就是每个 token 在模型正向传播、反向传播的时候所需的乘法、加法计算次数。因此,除了算力指标外,还要重点关注显存带宽、卡间通信带宽关键指标。显存采用HBM内存是必须的,能大幅提升内存读写速度,而主机之间通讯带宽国产卡都是RoCE。

  7. 大模型参数量很大,推理需要消耗大量内存并进行读写,GPU显存大小是首先要考虑的,显存要能尽量装下大模型。其次是显存带宽越高越好,一方面能减少参数读写时间,还能利用显存来做KV Cache来缓存计算过的内容。然后需要支持多卡并行推理,即一个模型实例能利用多张卡的算力和显存。

  8. 典型训练集群+推理集群组网(大规模,百卡级别,训练72B模型,推理6个模型)

  9. 卡间互联(Inter-GPU Communication)是指在多GPU系统中,不同GPU之间进行数据传输和通信的技术。卡间互联对于分布式计算、深度学习训练和高性能计算(HPC)等应用至关重要,因为它直接影响到系统的整体性能和效率。

  10. 在多GPU系统中,卡间互联的性能和效率直接影响到以下几个方面:

    1. 数据传输速度:高效的卡间互联能够快速传输数据,减少通信延迟,提高系统的整体性能。
    2. 计算效率:在分布式计算和深度学习训练中,卡间互联的效率决定了不同GPU之间的协同计算能力。
    3. 扩展性:高效的卡间互联能够支持更多的GPU,提升系统的扩展性和计算能力。
  11. 卡间互联的技术主要包括以下几种:

    1. PCIe(Peripheral Component Interconnect Express)

      • PCIe 是一种高速串行计算机扩展总线标准,广泛应用于GPU与主板之间的连接。PCIe 也可以用于GPU之间的直接通信,但其带宽和延迟相对较高性能的互联技术较低。
    2. NVLink

      • NVLink 是由NVIDIA开发的一种高带宽、低延迟的互联技术,专为GPU之间的高速通信设计。NVLink 提供了比 PCIe 更高的带宽和更低的延迟,广泛应用于NVIDIA的高性能GPU中。
    3. Infinity Fabric

      • Infinity Fabric 是由AMD开发的一种高带宽、低延迟的互联技术,广泛应用于AMD的GPU和CPU中。Infinity Fabric 提供了高效的卡间通信能力,支持多GPU系统的高性能计算。
    4. RDMA(Remote Direct Memory Access)

      • RDMA 是一种允许计算机内存直接访问远程计算机内存的技术,能够实现低延迟、高带宽的数据传输。RDMA 广泛应用于高性能计算和分布式存储系统中。
    5. NVSwitch

      • NVSwitch 是由NVIDIA开发的一种高性能互联交换机,能够实现多GPU系统中的全互联通信。NVSwitch 提供了极高的带宽和低延迟,支持大规模多GPU系统的高效通信。
  12. 卡间互联是多GPU系统中不同GPU之间进行数据传输和通信的技术,对于分布式计算、深度学习训练和高性能计算等应用至关重要。

  13. 卡间互联的技术主要包括 PCIe、NVLink、Infinity Fabric、RDMA 和 NVSwitch 等。NVLink 提供了高带宽、低延迟的卡间通信能力,广泛应用于NVIDIA的高性能GPU中。Infinity Fabric 提供了高效的卡间通信能力,广泛应用于AMD的GPU和CPU中。NVSwitch 提供了极高带宽、低延迟的全互联通信能力,支持大规模多GPU系统的高效通信。

相关推荐
在猴站学算法3 小时前
机器学习(西瓜书) 第二章 模型评估与选择
人工智能·机器学习
科技宅说4 小时前
36氪专访丨乐橙CEO谢运:AI科技下的业务创新与长期主义下的品牌坚守
人工智能·科技
学术小八5 小时前
2025年人工智能、虚拟现实与交互设计国际学术会议
人工智能·交互·vr
仗剑_走天涯6 小时前
基于pytorch.nn模块实现线性模型
人工智能·pytorch·python·深度学习
cnbestec7 小时前
协作机器人UR7e与UR12e:轻量化设计与高负载能力助力“小而美”智造升级
人工智能·机器人·协作机器人·ur协作机器人·ur7e·ur12e
zskj_zhyl7 小时前
毫米波雷达守护银发安全:七彩喜跌倒检测仪重构居家养老防线
人工智能·安全·重构
gaosushexiangji8 小时前
利用sCMOS科学相机测量激光散射强度
大数据·人工智能·数码相机·计算机视觉
ai小鬼头9 小时前
AIStarter新版重磅来袭!永久订阅限时福利抢先看
人工智能·开源·github
说私域9 小时前
从品牌附庸到自我表达:定制开发开源AI智能名片S2B2C商城小程序赋能下的营销变革
人工智能·小程序
飞哥数智坊10 小时前
新版定价不够用,Cursor如何退回旧版定价
人工智能·cursor