pytorch多卡分布式训练卡住的问题

最近需要模型进行多任务学习,完成代码后单卡跑是没有问题的。但是多卡跑基本上会出现卡在第一个迭代的情况。忙了一天总算是解决了。总结一下我这里的原因:

我的代码里执行了torch.distributed.all_reduce() 的操作,但这个操作只服务于一个task,导致的结果是多卡训练中,部分卡执行了torch.distributed.all_reduce(),部分卡没有执行该操作。 知道原因,解答方案也比较明了,要么让所有卡都执行torch.distributed.all_reduce(),要么让所有卡都不执行该操作。 我的模型不适应前者,因而我是把这部分给删了,从而解决。

实际上,尝试了很多种方案,最后发现问题出现在这里。这部分内容具体参考如下

https://github.com/pytorch/pytorch/issues/20630#issuecomment-730184591

相关推荐
草莓熊Lotso16 小时前
C++ 方向 Web 自动化测试实战:以博客系统为例,从用例到报告全流程解析
前端·网络·c++·人工智能·后端·python·功能测试
劲墨难解苍生苦16 小时前
spring ai alibaba mcp 开发demo
java·人工智能
程序员霸哥哥17 小时前
从零搭建PyTorch计算机视觉模型
人工智能·pytorch·python·计算机视觉
草莓熊Lotso17 小时前
Linux 基础开发工具入门:软件包管理器的全方位实操指南
linux·运维·服务器·c++·人工智能·网络协议·rpc
IT_陈寒17 小时前
Vue 3性能优化实战:7个关键技巧让我的应用加载速度提升50%
前端·人工智能·后端
【赫兹威客】浩哥17 小时前
基于 YOLO11+PyQt6+OpenCV 的智能水果检测系统设计与实现
人工智能·opencv·计算机视觉
胖哥真不错17 小时前
Python基于PyTorch实现多输入多输出进行CNN卷积神经网络回归预测项目实战
pytorch·python·毕业设计·课程设计·毕设·多输入多输出·cnn卷积神经网络回归预测
RPA机器人就用八爪鱼17 小时前
RPA:企业数字化转型的高效自动化利器
人工智能
程序员-小李17 小时前
基于PyTorch的动物识别模型训练与应用实战
人工智能·pytorch·python
掘金安东尼17 小时前
AI 生成代码,从 Copilot 到 Claude Code 的全景测评
人工智能