技术栈
数据并行
Bestaier
4 个月前
大模型
·
训练
·
数据并行
·
模型并行
·
megatron-lm
·
流水线并行
·
张量并行
跟代码执行流程,读Megatron源码(四)megatron初始化脚本initialize.py之initialize_megatron()分布式环境初始化
在前文中,我们讲述了pretrain函数的执行流程,其首要步骤是megatron分组的初始化与环境的配置。本文将深入initialize_megatron函数源码,剖析其初始化分布式训练环境的内部机制。
Bestaier
4 个月前
数据并行
·
模型并行
·
megatron-lm
·
流水线并行
·
张量并行
跟代码执行流程,读Megatron源码(二)训练入口pretrain_gpt.py
Megatron-LM默认支持GPT、T5、BERT等多个常见模型的预训练,当下大模型流行,故以pretrain_gpt.py为例做源码的走读。
Miha_Singh
10 个月前
人工智能
·
pytorch
·
python
·
深度学习
·
模型训练
·
数据并行
PyTorch数据并行(DP/DDP)浅析
一直以来都是用的单机单卡训练模型,虽然很多情况下已经足够了,但总有一些情况得上分布式训练:由于还没遇到过一张显卡放不下整个模型的情况,本文的分布式训练仅限数据并行。主要从数据并行的原理和一些简单的实践例子进行说明。
AI新视界
1 年前
pytorch
·
数据并行
·
模型并行
·
data parallel
『PyTorch学习笔记』分布式深度学习训练中的数据并行(DP/DDP) VS 模型并行