pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下

https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐
Ronin-Lotus1 小时前
深度学习篇---剪裁&缩放
图像处理·人工智能·缩放·剪裁
cpsvps1 小时前
3D芯片香港集成:技术突破与产业机遇全景分析
人工智能·3d
国科安芯2 小时前
抗辐照芯片在低轨卫星星座CAN总线通讯及供电系统的应用探讨
运维·网络·人工智能·单片机·自动化
AKAMAI2 小时前
利用DataStream和TrafficPeak实现大数据可观察性
人工智能·云原生·云计算
Ai墨芯1112 小时前
深度学习水论文:特征提取
人工智能·深度学习
无名工程师2 小时前
神经网络知识讨论
人工智能·神经网络
nbsaas-boot3 小时前
AI时代,我们更需要自己的开发方式与平台
人工智能
SHIPKING3933 小时前
【机器学习&深度学习】LLamaFactory微调效果与vllm部署效果不一致如何解决
人工智能·深度学习·机器学习
jonyleek4 小时前
如何搭建一套安全的,企业级本地AI专属知识库系统?从安装系统到构建知识体系,全流程!
人工智能·安全
MQ_SOFTWARE5 小时前
AI驱动的金融推理:Fin-R1模型如何重塑行业决策逻辑
人工智能·金融