pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下

https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐
这张生成的图像能检测吗10 小时前
(论文速读)基于YCrCb-MST高光谱重建的太阳镜片颜色分类系统
人工智能·深度学习·计算机视觉·图像分类·高光谱
刘立军10 小时前
程序员应该熟悉的概念(4)MCP能做什么
人工智能·mcp
song1502653729810 小时前
视觉检测设备的生产及应用软件开发
人工智能·计算机视觉·视觉检测
秋刀鱼 ..10 小时前
2026拓展现实、人机交互与人工智能国际研讨会(XRHCIAI 2026)
运维·人工智能·科技·机器学习·人机交互·制造
视觉&物联智能10 小时前
【杂谈】-RL即服务:解锁新一轮自主浪潮
人工智能·ai·chatgpt·aigc·强化学习·agi·deepseek
老马啸西风10 小时前
成熟企业级技术平台 MVE-010-permission 平台
人工智能·深度学习·职场和发展
极客BIM工作室10 小时前
AI导读AI论文: WAN: OPEN AND ADVANCED LARGE-SCALE VIDEO GENERATIVE MODELS
人工智能
默 语10 小时前
Spring-AI vs LangChain4J:Java生态的AI框架选型指南
java·人工智能·spring·ai·langchain·langchain4j·spring-ai
说私域10 小时前
开源AI智能名片链动2+1模式商城小程序下短视频电商变现与广告变现的对比研究
人工智能·小程序
GISer_Jing10 小时前
AI驱动营销增长:7大核心场景与前端实现
前端·javascript·人工智能