pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下

https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐
A_lvvx21 分钟前
OpenCV透视变换
人工智能·opencv·计算机视觉
百锦再28 分钟前
自动驾驶的技术实现及原理
人工智能·机器学习·自动驾驶
AcademicIdeas学境思源31 分钟前
避免学术欺诈!在ChatGPT帮助下实现严格引用并避免抄袭
人工智能
鲸~屿1 小时前
计算机视觉 第十章OpenCV
人工智能·opencv·计算机视觉
小红红的学习笔记1 小时前
银从初级个人理财_25_第七章第五节
人工智能·银从初级·个人理财
管二狗赶快去工作!1 小时前
体系结构论文(五十四):Reliability-Aware Runahead 【22‘ HPCA】
人工智能·神经网络·dnn·体系结构·实时系统
weixin_453965001 小时前
[单master节点k8s部署]31.ceph分布式存储(二)
分布式·ceph·kubernetes
AI绘画君1 小时前
Stable Diffusion绘画 | AI 图片智能扩充,超越PS扩图的AI扩图功能(附安装包)
人工智能·ai作画·stable diffusion·aigc·ai绘画·ai扩图
AAI机器之心1 小时前
LLM大模型:开源RAG框架汇总
人工智能·chatgpt·开源·大模型·llm·大语言模型·rag
坎坎坷坷.1 小时前
分布式理论:拜占庭将军问题
分布式