技术栈
ib
杰克逊的日记
19 天前
网络
·
ib
IB网络常见故障及如何处理这些故障以及如何优化
现象:ibstat显示Down,无链路协商原因:线缆松动/插反、光模块损坏、HCA卡故障、PCLe异常
Pretend ^^
2 年前
网络
·
分布式
·
深度学习
·
nccl
·
ib
·
roce
2. 多机多卡运行nccl-tests对比分析
NCCL(NVIDIA Collective Communications Library)是NVIDIA提供的一套用于GPU加速的通信库,主要用于在多个GPU之间进行数据传输和通信。它被设计为在异构计算环境中(包括NVIDIA GPU和CPU)高效地执行数据并行和模型并行。
我是有底线的