Pytorch采坑记录:DDP 损失和精度比 DP 差,多卡GPU比单卡GPU效果差

结论:调大学习率或者调小多卡GPU的batch_size

转换DDP模型后模型的整体学习率和batch_size都要变。

当前配置::1GPU:学习率=0.1,batch_size=64

如果8GPU还按之前1GPU配置:8GPU:学习率=0.1,batch_size=64

那么此时对于8GPU而言,效果几乎等于::1GPU:学习率=0.1,batch_size=64 * 8=512

这种8GPU情况下,batch_size等效变大,效果就差了,参考Goyal et al

解决方法是调大学习率或者调小多卡GPU的batch_size

比如上面调大学习率改为 8GPU:学习率=0.1 * 8=0.8,batch_size=64学习率=0.1 * √8 =√8 ,batch_size=64

或者调小batch_size 8GPU:学习率=0.1,batch_size=8

参考:

  1. https://github.com/Lightning-AI/pytorch-lightning/discussions/3706
  2. https://arxiv.org/pdf/1706.02677.pdf
相关推荐
The Open Group3 小时前
英特尔公司Darren Pulsipher 博士:以架构之力推动政府数字化转型
大数据·人工智能·架构
喂完待续3 小时前
【Tech Arch】Spark为何成为大数据引擎之王
大数据·hadoop·python·数据分析·spark·apache·mapreduce
Ronin-Lotus3 小时前
深度学习篇---卷积核的权重
人工智能·深度学习
.银河系.3 小时前
8.18 机器学习-决策树(1)
人工智能·决策树·机器学习
敬往事一杯酒哈4 小时前
第7节 神经网络
人工智能·深度学习·神经网络
三掌柜6664 小时前
NVIDIA 技术沙龙探秘:聚焦 Physical AI 专场前沿技术
大数据·人工智能
2502_927161284 小时前
DAY 42 Grad-CAM与Hook函数
人工智能
Hello123网站4 小时前
Flowith-节点式GPT-4 驱动的AI生产力工具
人工智能·ai工具
王者鳜錸4 小时前
PYTHON让繁琐的工作自动化-猜数字游戏
python·游戏·自动化
yzx9910134 小时前
Yolov模型的演变
人工智能·算法·yolo