单机多卡训练-DDP

DDP原理:

为什么快?

DDP通过Ring-Reduce(梯度合并)的数据交换方法提高了通讯效率,并通过启动多个进程的方式减轻Python GIL的限制,从而提高训练速度。

神经网络中的并行有以下三种形式:

  1. Data Parallelism
    1. 这是最常见的形式,通俗来讲,就是增大batch size提高并行度。
      1. 平时我们看到的多卡并行就属于这种。比如DP、DDP都是。这能让我们方便地利用多卡计算资源。
    2. 能加速。
  2. Model Parallelism
    1. 把模型放在不同GPU上,计算是并行的。
    2. 有可能是加速的,看通讯效率。
  3. Workload Partitioning
    1. 把模型放在不同GPU上,但计算是串行的。
    2. 不能加速。

参考:原创深度PyTorch DDP系列第一篇:入门教程 - 知乎 (zhihu.com)

原创深度PyTorch DDP系列第一篇:入门教程 - 知乎 (zhihu.com)

注意点:

  1. 保存模型:

考虑到以后可能需要单卡加载你多卡训练的模型 ,建议在保存模型时,去除模型参数字典里面的module,如何去除呢,使用model.module.state_dict()代替model.state_dict()

2. 每一个epoch里面真正的打乱数据

复制代码
for epoch in range(args.num_epochs):
    train_sampler.set_epoch(epoch)  # shuffle数据
相关推荐
lengxuemo2 小时前
ICC2学习笔记之Placement and Optimization
笔记·学习
温柔只给梦中人2 小时前
NLP学习:注意力机制
人工智能·学习·自然语言处理
逐影者3973 小时前
ch592f学习
学习
小满Autumn3 小时前
MVVM Light 架构笔记:定位器、命令、消息与 IoC 实践
笔记·学习·架构·c#·上位机·mvvm
蓝黑墨水3 小时前
动画角色的整个流程
学习
ZK_H4 小时前
MFC学习——简易计算器以及跨应用通信
学习·5g·mfc
踏着七彩祥云的小丑6 小时前
Go学习第1天:入门
开发语言·学习·golang·go
憧憬成为web高手7 小时前
[0CTF 2016]piapiapia
学习
imDwAaY7 小时前
贝叶斯网络到粒子滤波Python算法实现 CS188 Proj4 学习笔记
网络·人工智能·笔记·python·学习·算法