NCCL学习笔记-概念全解

是什么（What）

高性能通信库，专为多GPU通信优化。加速分布式深度学习训练的集合通信。
集合通信？

点对点通信？

为什么（Why）

通用通信库在GPU通信中性能不足，无法充分利用GPU高带宽和低延迟。

所以需要一个针对GPU架构优化，支持NVLink，NVSwitch的高速互联。

主要还是需要低延迟和高带宽

怎么样（How）

怎么通信？其实和MPI差不多。

NCCL中：

进程叫做rank每个rank都有一个rank ID
rank的集合构成了一个"communicator"

也就是一些可以互相通信的进程。

一个rank可以分属于多个communicators

而且在不同的地方可能有不同的rank ID

然后呢？
ncclCommInitRank()：初始化指定rank的communicator。
ncclCommInitAll()：同时初始化所有rank的communicator。
initTransportsRank():检测可用GPU设备以及拓扑结构，计算最佳通信路径，建立连接。
ncclTopoFillGpu():建立包含GPU的XML树结构，可以设置环境变量NCCL_TOPO_DUMP_FILE来书输出XML文件，并通过该XML文件来查看机器的拓扑结构。

然后两种算法？
Ring算法：基本算法，环形、只能和相邻两个邻居进行数据交换。
特点：简洁；对等
缺点：如果是Ring的all-reduce，延迟比较高

Tree算法：因为二叉树大约一半节点都是叶子节点，那么通过将叶子节点变换为非叶子节点，得到两棵二叉树，每个节点在其中好一棵二叉树是叶子节点，另一棵二叉树是非叶子节点。
特点：延迟更低，高效利用带宽和拓扑结构

单机多卡：NVLink 和 NVSwitch
多机多卡：nfiniBand 或 RoCE

谁（Who）

开发者

何时（When）

初始版本：NCCL 1.0 于 2016 年发布，支持单机多卡通信。

NCCL 2.0：支持多机多卡通信，引入跨节点通信功能。

NCCL 2.6：引入 SHArP 算法，优化 InfiniBand 网络下的通信性能。

何地（Where）

数据中心：

GPU 集群中的分布式训练和并行计算。
云计算平台：

AWS、Google Cloud、Azure 等云服务提供商的 GPU 实例。
边缘计算：

高性能边缘计算设备中的实时数据处理。
NCCL 的硬件环境：

GPU：支持 NVLink 和 NVSwitch 的 NVIDIA GPU（如 A100、V100）。

网络：支持 InfiniBand 或 RoCE 的高速网络。

如何解决（How to Solve）

性能优化：

自动化选择最优

Ring all reduce

SHArP 算法

分析问题：

NCCL 的日志和性能分析工具诊断通信性能瓶颈。

如何解决死锁、数据不一致等通信错误。

结果与影响（Outcome & Impact）

待定，待笔者实际操作。