pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下

https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐
Jinkxs6 小时前
Kafka - 日志刷盘策略优化:sync.ms、flush.messages配置
分布式·kafka
搬砖的小码农_Sky6 小时前
特斯拉FSD Supervised(监督版)的技术原理
人工智能·ai·自动驾驶
cskywit6 小时前
用扩散模型“一次生成图像和标注”:CoSimGen 如何实现可控的图像-Mask 同步生成
人工智能·深度学习·计算机视觉
大模型真好玩6 小时前
大模型训练全流程实战指南工具篇(十二)—— 大模型评测方法及典型评测集介绍
人工智能·agent·deepseek
leduo668899o6 小时前
线上教培系统服务商对比:直播联动、课程回放,哪家功能更全面?
人工智能·科技
tzc_fly6 小时前
LLaDA2.0-Uni:基于扩散语言模型的统一多模态理解和生成
人工智能·语言模型·自然语言处理
EdmundXjs6 小时前
大模型核心概念解读
人工智能·算法
最贪吃的虎6 小时前
DeerFlow 记忆系统:让 AI Agent 真正“认识“你
人工智能
prog_61036 小时前
【笔记】用cursor手搓cursor(六)deepseek v4
人工智能·笔记·agent·deepseek·claude code
Loo国昌6 小时前
从 Agent 编排到 Skill Runtime:企业 AI 工程化的下一层抽象
大数据·人工智能·后端·python·自然语言处理