Pytorch采坑记录:DDP 损失和精度比 DP 差,多卡GPU比单卡GPU效果差

结论:调大学习率或者调小多卡GPU的batch_size

转换DDP模型后模型的整体学习率和batch_size都要变。

当前配置::1GPU:学习率=0.1,batch_size=64

如果8GPU还按之前1GPU配置:8GPU:学习率=0.1,batch_size=64

那么此时对于8GPU而言,效果几乎等于::1GPU:学习率=0.1,batch_size=64 * 8=512

这种8GPU情况下,batch_size等效变大,效果就差了,参考Goyal et al

解决方法是调大学习率或者调小多卡GPU的batch_size

比如上面调大学习率改为 8GPU:学习率=0.1 * 8=0.8,batch_size=64学习率=0.1 * √8 =√8 ,batch_size=64

或者调小batch_size 8GPU:学习率=0.1,batch_size=8

参考:

  1. https://github.com/Lightning-AI/pytorch-lightning/discussions/3706
  2. https://arxiv.org/pdf/1706.02677.pdf
相关推荐
X.Ming 同学几秒前
AI时代工程师的Superpowers进化论
人工智能
星星也在雾里1 分钟前
Anaconda命令行配置Jupyter Notebook虚拟环境
python·jupyter
极光代码工作室1 分钟前
基于机器学习的信用卡欺诈检测系统设计
人工智能·python·深度学习·机器学习
quetalangtaosha3 分钟前
Anomaly Detection系列(CVPR2025 EG-MPC论文解读)
人工智能·深度学习·计算机视觉
前端不太难4 分钟前
鸿蒙游戏 Store 设计(AI + 多端)
人工智能·游戏·harmonyos
未来智慧谷4 分钟前
Claude Mythos技术解析:97.6%漏洞利用率意味着什么?AI安全红线在哪里?
人工智能·anthropic·claude mythos
电报号dapp1195 分钟前
公链 + DID,解锁 Web3 数字身份新范式
人工智能·web3·去中心化·区块链·智能合约
ComputerInBook6 分钟前
OpenCV图像处理——边界插值函数 borderInterpolate
图像处理·人工智能·opencv
老马95277 分钟前
opencode3-我的能力超乎你的想象
人工智能·后端
迷藏4947 分钟前
**超融合架构下的Go语言实践:从零搭建高性能容器化微服务集群**在现代云原生时代,*
java·python·云原生·架构·golang