pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下

https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐
cainaiolin1 分钟前
大模型应用发展与Agent前沿技术趋势
人工智能
初学者,亦行者5 分钟前
【前瞻创想】集成与创新并举,引领分布式云原生新范式
分布式·云原生
i***58676 分钟前
【RabbitMQ】超详细Windows系统下RabbitMQ的安装配置
windows·分布式·rabbitmq
小马过河R7 分钟前
tRPC-GO 框架Helloworld实践初体验
开发语言·分布式·后端·架构·golang·gin·beego
小程故事多_8010 分钟前
Kthena 引爆云原生推理革命:K8s 分布式架构破解 LLM 编排困局,吞吐狂飙 273%
人工智能·分布式·云原生·kubernetes·aigc
西岭千秋雪_11 分钟前
Kafka服务端日志梳理
java·分布式·zookeeper·kafka
csuzhucong14 分钟前
4种棋盘魔方(三A、三B、五A、五B)
人工智能
腾飞开源15 分钟前
05_Spring AI 干货笔记之 Advisors API
人工智能·可观测性·检索增强生成·spring ai·advisors api·对话记忆·提示词增强
飞哥数智坊31 分钟前
告别繁琐部署:TRAE SOLO 帮我一键跑通 Z-Image 模型
人工智能·trae·solo
初学者,亦行者42 分钟前
【探索实战】从 30 分钟搭建到生产落地,分布式云原生管理新范式
分布式·云原生