技术栈
megatron-lm
数据与后端架构提升之路
3 天前
megatron-lm
·
万亿参数大模型训练
·
3d并行策略
Megatron-LM深度解析:万亿参数大模型的3D并行训练之道
Megatron-LM 概述: Megatron-LM 是 NVIDIA 开源的大规模语言模型训练框架,旨在将 Transformer 等模型扩展到数十亿到万亿参数规模。它基于 PyTorch 实现,利用 GPU 通信库 NCCL 实现高效分布式训练,并支持混合精度训练以提高性能。Megatron-LM 保持了常规 Transformer 模型架构,但在每一层内部引入显式的并行化设计,这是其核心特色之一。
IT Panda
5 个月前
pp
·
megatron-lm
·
naivepp
·
gpipe
·
f-then-b
·
pipedream
·
1f1b
[分布式并行] 流水线并行 PP(NaivePP/GPipe/F-then-B/PipeDream/1F1B)
前三篇文章分别介绍了 EP、DP、TP:接下来会尽量做到由浅入深的介绍 MP 中的 PP,既 流水线并行策略。
Bestaier
1 年前
大模型
·
训练
·
数据并行
·
模型并行
·
megatron-lm
·
流水线并行
·
张量并行
跟代码执行流程,读Megatron源码(四)megatron初始化脚本initialize.py之initialize_megatron()分布式环境初始化
在前文中,我们讲述了pretrain函数的执行流程,其首要步骤是megatron分组的初始化与环境的配置。本文将深入initialize_megatron函数源码,剖析其初始化分布式训练环境的内部机制。
Bestaier
1 年前
数据并行
·
模型并行
·
megatron-lm
·
流水线并行
·
张量并行
跟代码执行流程,读Megatron源码(二)训练入口pretrain_gpt.py
Megatron-LM默认支持GPT、T5、BERT等多个常见模型的预训练,当下大模型流行,故以pretrain_gpt.py为例做源码的走读。
我是有底线的