NVIDIA NCCL 源码学习(十七)- LL和LL128协议之前提到nccl有多种协议,并且主要以simple协议为例介绍nccl的流程,本节我们具体看下simple之外的LL和LL128协议,LL是low latency的缩写,表示低延迟。 协议在这里是指当前rank发送数据给peer的时候,peer如何知道数据已经可见,simple的做法是当前rank先发data,再执行fence_sys,最后发flag,peer轮询flag,当轮询到flag的时候就可以知道data已经可见,但是fence_sys是个耗时的操作,nccl通过拆分出单独的warp执行fence