Pytorch采坑记录:DDP 损失和精度比 DP 差,多卡GPU比单卡GPU效果差

结论:调大学习率或者调小多卡GPU的batch_size

转换DDP模型后模型的整体学习率和batch_size都要变。

当前配置::1GPU:学习率=0.1,batch_size=64

如果8GPU还按之前1GPU配置:8GPU:学习率=0.1,batch_size=64

那么此时对于8GPU而言,效果几乎等于::1GPU:学习率=0.1,batch_size=64 * 8=512

这种8GPU情况下,batch_size等效变大,效果就差了,参考Goyal et al

解决方法是调大学习率或者调小多卡GPU的batch_size

比如上面调大学习率改为 8GPU:学习率=0.1 * 8=0.8,batch_size=64学习率=0.1 * √8 =√8 ,batch_size=64

或者调小batch_size 8GPU:学习率=0.1,batch_size=8

参考:

  1. https://github.com/Lightning-AI/pytorch-lightning/discussions/3706
  2. https://arxiv.org/pdf/1706.02677.pdf
相关推荐
瑞华丽PLM几秒前
通用与专业PLM选型对比 (1)
大数据·人工智能·plm·瑞华丽plm·瑞华丽
再一次等风来1 分钟前
深度学习中的梯度消失与梯度爆炸
人工智能·深度学习·梯度
程序员海军2 分钟前
深度测评:在微信里直接操控 OpenClaw
人工智能·后端
翘着二郎腿的程序猿3 分钟前
2026最全免费AI数据集平台清单|附官方地址+镜像+代码+截图指引
人工智能
沪漂阿龙5 分钟前
语义搜索与RAG:让搜索引擎真正理解你的意图,让AI告别“幻觉”
人工智能·搜索引擎
悟纤9 分钟前
OpenClaw 入门教程 | OpenClaw教程 | 第1篇
人工智能·ai agent·openclaw
leo_23210 分钟前
SMP的第一个AI接口应用
人工智能·开发工具·smp(软件制作平台)·应用系统
geovindu15 分钟前
python: Null Object Pattern
开发语言·python·设计模式
wefly201715 分钟前
M3U8 播放调试天花板!m3u8live.cn纯网页无广告,音视频开发效率直接拉满
java·前端·javascript·python·音视频
ARVRCool编程训练营16 分钟前
吴恩达2026 Agent智能体教程核心精讲:从设计模式到知识图谱的完整路线图
人工智能