数据并行

动手学深度学习12.7. 参数服务器-笔记&练习（PyTorch）以下内容为结合李沐老师的课程和教材补充的学习笔记，以及对课后练习的一些思考，自留回顾，也供同学之人交流参考。

跟代码执行流程，读Megatron源码（四）megatron初始化脚本initialize.py之initialize_megatron()分布式环境初始化在前文中，我们讲述了pretrain函数的执行流程，其首要步骤是megatron分组的初始化与环境的配置。本文将深入initialize_megatron函数源码，剖析其初始化分布式训练环境的内部机制。

跟代码执行流程，读Megatron源码（二）训练入口pretrain_gpt.pyMegatron-LM默认支持GPT、T5、BERT等多个常见模型的预训练，当下大模型流行，故以pretrain_gpt.py为例做源码的走读。

PyTorch数据并行（DP/DDP）浅析一直以来都是用的单机单卡训练模型，虽然很多情况下已经足够了，但总有一些情况得上分布式训练：由于还没遇到过一张显卡放不下整个模型的情况，本文的分布式训练仅限数据并行。主要从数据并行的原理和一些简单的实践例子进行说明。

『PyTorch学习笔记』分布式深度学习训练中的数据并行(DP/DDP) VS 模型并行

我是有底线的