技术栈
多机多卡
XMoyas
9 天前
docker
·
大模型
·
分布式训练
·
deepspeed
·
多机多卡
deepspeed docker集群实现多机多卡训练----问题记录及解决方案资源汇总
问题1:deepspeed socketStartConnect: Connect to 172.18.0.3<54379> failed : Software caused connection abort 有效方案:【博客园-高颜值的杀生丸】deepspeed 训练多机多卡报错 ncclSystemError Last error