Accelerate笔记:本地SGD

  • 本地 SGD 是一种分布式训练技术,其中梯度不是每一步都同步。
  • 每个进程都会更新自己版本的模型权重,在给定的步数后,通过跨所有进程平均这些权重来同步它们
    • 在底层,本地 SGD 代码禁用了自动梯度同步(但累积仍然如预期工作!)。
    • 它每 local_sgd_steps 步(以及在训练循环结束时)平均模型参数。
  • 提高了通信效率,并且特别是在计算机缺乏如 NVLink 等更快的互连时,可以显著加速训练。
    • 如有必要,本地 SGD 也可以与梯度累积结合使用
  • 限制:当前的实现只适用于基本的多 GPU(或多 CPU)训练,例如,没有 DeepSpeed 等
相关推荐
小小的代码里面挖呀挖呀挖39 分钟前
杰理可视化SDK-手机三方通话控制
笔记·单片机·物联网·iot
jingjingjing11112 小时前
笔记:代码随想录算法训练营day48:739. 每日温度\496.下一个更大元素 I\503.下一个更大元素II
笔记
Zhouqi_Hua4 小时前
LLM论文笔记 24: A Theory for Length Generalization in Learning to Reason
论文阅读·人工智能·笔记·深度学习·语言模型·自然语言处理
Shaoxi Zhang4 小时前
量化交易学习笔记02:双均线策略
笔记·学习
Cheng_08294 小时前
llama-factory笔记
笔记·llama
怀澈1228 小时前
【ElasticSearch】学习笔记
笔记·学习
JM丫12 小时前
python基础
笔记·python
啥都想学的又啥都不会的研究生14 小时前
Redis设计与实现-数据持久化
java·数据库·redis·笔记·缓存·面试
youyoufenglai16 小时前
【vue3学习笔记】(第144-146节)reactive函数;回顾vue2响应式原理;vue3响应式原理_proxy
笔记·学习
灏瀚星空16 小时前
Python JSON模块详解:从入门到高级应用
开发语言·经验分享·笔记·python·json