Accelerate笔记:本地SGD

  • 本地 SGD 是一种分布式训练技术,其中梯度不是每一步都同步。
  • 每个进程都会更新自己版本的模型权重,在给定的步数后,通过跨所有进程平均这些权重来同步它们
    • 在底层,本地 SGD 代码禁用了自动梯度同步(但累积仍然如预期工作!)。
    • 它每 local_sgd_steps 步(以及在训练循环结束时)平均模型参数。
  • 提高了通信效率,并且特别是在计算机缺乏如 NVLink 等更快的互连时,可以显著加速训练。
    • 如有必要,本地 SGD 也可以与梯度累积结合使用
  • 限制:当前的实现只适用于基本的多 GPU(或多 CPU)训练,例如,没有 DeepSpeed 等
相关推荐
洛寒瑜1 小时前
【读书笔记-《30天自制操作系统》-23】Day24
开发语言·汇编·笔记·操作系统·应用程序
星迹日2 小时前
C语言:联合和枚举
c语言·开发语言·经验分享·笔记
我叫啥都行2 小时前
计算机基础知识复习9.7
运维·服务器·网络·笔记·后端
Galaxy.4042 小时前
基于深度学习的文本情感原因提取研究综述——论文阅读
论文阅读·笔记
余生的观澜3 小时前
4.铝箔缺陷检测项目复盘
笔记
jason_renyu3 小时前
CICD简单描述笔记
笔记·cicd·cicd部署
晓幂3 小时前
CTFShow-信息搜集
笔记·学习
小米里的大麦4 小时前
【C++】深入理解引用:从基础到进阶详解
c++·经验分享·笔记·引用·引用和指针
MowenPan19955 小时前
高等数学 3.5 函数的极值与最大值最小值
笔记·学习·高等数学
晚睡早起₍˄·͈༝·͈˄*₎◞ ̑̑5 小时前
苍穹外卖学习笔记(七)
java·windows·笔记·学习·mybatis