Accelerate笔记:本地SGD

  • 本地 SGD 是一种分布式训练技术,其中梯度不是每一步都同步。
  • 每个进程都会更新自己版本的模型权重,在给定的步数后,通过跨所有进程平均这些权重来同步它们
    • 在底层,本地 SGD 代码禁用了自动梯度同步(但累积仍然如预期工作!)。
    • 它每 local_sgd_steps 步(以及在训练循环结束时)平均模型参数。
  • 提高了通信效率,并且特别是在计算机缺乏如 NVLink 等更快的互连时,可以显著加速训练。
    • 如有必要,本地 SGD 也可以与梯度累积结合使用
  • 限制:当前的实现只适用于基本的多 GPU(或多 CPU)训练,例如,没有 DeepSpeed 等
相关推荐
用户931356002742 小时前
文件包含漏洞
笔记
lingggggaaaa2 小时前
小迪安全v2023学习笔记(七十九讲)—— 中间件安全&IIS&Apache&Tomcat&Nginx&CVE
笔记·学习·安全·web安全·网络安全·中间件·apache
我登哥MVP2 小时前
Java File 类学习笔记
java·笔记·学习
天天开心a6 小时前
OSPF基础部分知识点
网络·笔记·学习·智能路由器·hcip
致***锌8 小时前
期权平仓后权利金去哪了?
笔记
LiuYaoheng9 小时前
【Android】View 的基础知识
android·java·笔记·学习
星梦清河9 小时前
宋红康 JVM 笔记 Day14|垃圾回收概述
jvm·笔记
Suckerbin10 小时前
Basic Pentesting: 1靶场渗透
笔记·安全·web安全·网络安全
草莓熊Lotso10 小时前
PyCharm 从入门到高效:安装教程 + 快捷键速查表
开发语言·ide·经验分享·笔记·其他
一位搞嵌入式的 genius10 小时前
ES6 核心特性详解:从变量声明到函数参数优化
前端·笔记·学习