Pytorch采坑记录:DDP 损失和精度比 DP 差,多卡GPU比单卡GPU效果差

结论:调大学习率或者调小多卡GPU的batch_size

转换DDP模型后模型的整体学习率和batch_size都要变。

当前配置::1GPU:学习率=0.1,batch_size=64

如果8GPU还按之前1GPU配置:8GPU:学习率=0.1,batch_size=64

那么此时对于8GPU而言,效果几乎等于::1GPU:学习率=0.1,batch_size=64 * 8=512

这种8GPU情况下,batch_size等效变大,效果就差了,参考Goyal et al

解决方法是调大学习率或者调小多卡GPU的batch_size

比如上面调大学习率改为 8GPU:学习率=0.1 * 8=0.8,batch_size=64学习率=0.1 * √8 =√8 ,batch_size=64

或者调小batch_size 8GPU:学习率=0.1,batch_size=8

参考:

  1. https://github.com/Lightning-AI/pytorch-lightning/discussions/3706
  2. https://arxiv.org/pdf/1706.02677.pdf
相关推荐
这张生成的图像能检测吗1 分钟前
(综述)视觉任务的视觉语言模型
人工智能·计算机视觉·语言模型·自然语言处理·视觉语言模型
weiwei2284417 分钟前
Torch核心数据结构Tensor(张量)
pytorch·tensor
聚客AI18 分钟前
🚫万能Agent兜底:当规划缺失工具时,AI如何自救
人工智能·llm·agent
JavaEdge在掘金25 分钟前
掌握Spring IoC容器和Bean作用,轻松实现依赖注入!
python
Juchecar28 分钟前
一文讲清 nn.Module 中 forward 函数被调用时机
人工智能
七牛云行业应用1 小时前
深度解析强化学习(RL):原理、算法与金融应用
人工智能·算法·金融
说私域1 小时前
“开源AI智能名片链动2+1模式S2B2C商城小程序”在直播公屏引流中的应用与效果
人工智能·小程序·开源
flysh051 小时前
pyAutoGUI 模块主要功能介绍-(2)键盘功能
python·pyautogui
Hcoco_me1 小时前
深度学习和神经网络之间有什么区别?
人工智能·深度学习·神经网络
霍格沃兹_测试1 小时前
Ollama + Python 极简工作流
人工智能