deepspeed 训练多机多卡报错 ncclSystemError Last error最近在搞分布式训练大模型,踩了两个晚上的坑今天终于爬出来了我们使用 2台 8*H100遇到过错误110.255.19.85: ncclSystemError: System call (e.g. socket, malloc) or external library call failed or device error. 10.255.19.85: Last error: 10.255.19.85: socketStartConnect: Connect to 127.0.0.1<34273> fail