大模型部署-数据并行/模型并行

数据并行（Data Parallelism）和模型并行（Model Parallelism）是分布式训练中两种核心的并行策略，核心差异在于拆分对象不同：数据并行拆分训练数据，模型并行拆分模型本身，二者均为解决单设备（GPU/CPU）算力 / 显存不足、加速大规模模型训练的关键手段，以下是具体拆解：

一、数据并行（Data Parallelism）

核心定义

将训练数据集拆分成多个子集 ，分发到不同设备（如多 GPU），每个设备部署完整的模型副本，各自用分配到的数据子集独立计算梯度，最后汇总所有设备的梯度并更新模型参数，再将更新后的参数同步回各设备。

关键特点

拆分对象：训练数据（按样本维度拆分，如一批 64 个样本分给 8 个 GPU，每个 GPU 处理 8 个样本）；
模型部署：每个设备有完整的模型，参数完全一致（仅输入数据不同）；
核心流程 ：
- 初始化：所有设备加载相同的模型参数；
- 前向传播：各设备用本地数据计算损失；
- 反向传播：各设备独立计算梯度；
- 梯度同步：通过 AllReduce 等通信机制汇总梯度，计算均值 / 总和后更新全局参数；
- 参数同步：将更新后的参数广播到所有设备，保证下一轮训练参数一致。
优势：实现简单（主流框架如 PyTorch 的DataParallel/DistributedDataParallel可直接调用）、通信开销相对低，适合模型规模较小但数据量极大的场景（如 CV 领域的图像分类、检测）；
局限：无法解决 "单设备装不下完整模型" 的问题（如千亿参数大模型），显存开销随设备数线性增加（每个设备都存完整模型）。

典型场景

CV 领域的大规模图像训练、NLP 领域中小规模 Transformer 模型（如 BERT-base）的训练。

二、模型并行（Model Parallelism）

核心定义

将模型本身拆分成多个部分（按层 / 参数维度拆分），每个部分部署到不同设备，数据按模型执行流程依次通过各设备的模型片段，完成前向 / 反向传播，最终实现完整的模型计算。

关键类型（按拆分方式）

按层拆分（Pipeline Parallelism）：最常见，将模型的不同层分配到不同设备（如 GPU1 部署 CNN 的前 3 层，GPU2 部署后 3 层；或 Transformer 的编码器层 1-6 在 GPU1，7-12 在 GPU2），数据依次经过各设备的层完成计算；
按参数拆分（Tensor Parallelism）：将单个层的参数拆分成多份（如将一个 1024×768 的权重矩阵按列拆成两个 512×768 的矩阵），分别部署到不同设备，通过设备间通信完成矩阵运算（如矩阵乘法）。

关键特点

拆分对象：模型（层 / 参数维度）；
数据部署：每个设备仅处理完整数据，但只负责模型的一部分计算；
核心流程 ：
- 按层拆分：数据先在 GPU1 完成前向传播，输出结果传给 GPU2 继续计算，直到所有层执行完毕；反向传播时梯度按相反顺序传回各设备，更新对应层的参数；
- 按参数拆分：单个层的计算需多设备协同（如 GPU1 和 GPU2 分别计算矩阵的一部分，再汇总结果）。
优势：解决 "单设备装不下完整模型" 的问题，适合超大规模模型（如 GPT-3、千亿参数 LLM）；
局限：实现复杂（需处理设备间的数据 / 梯度通信、同步）、存在 "流水线气泡"（按层拆分时，部分设备可能等待数据，算力利用率低），通信开销高（数据需在设备间频繁传输）。

典型场景

千亿级参数大语言模型（LLM）、超大规模视觉模型（如 ViT-22B）的训练。

三、核心对比表

维度	数据并行	模型并行
拆分对象	训练数据	模型（层 / 参数）
设备上的模型	完整模型副本	模型的一部分
核心问题	解决数据量大、训练慢	解决模型规模大、单设备装不下
通信内容	梯度 / 参数（汇总 / 同步）	中间计算结果 / 梯度（流水线传输）
实现难度	低（框架原生支持）	高（需定制通信逻辑）
适用场景	模型小、数据量大	模型大、数据量可适配

补充说明

实际大规模训练中，常将二者结合（如 "数据并行 + 模型并行" 混合策略）：例如先用模型并行将千亿参数模型拆到 8 个 GPU，再对这 8 个 GPU 组成的 "模型组" 做数据并行，分发不同数据子集，兼顾数据规模和模型规模的需求（如 GPT-3 的训练就采用了这种混合并行方式）。

对由 8 个 GPU 组成的 "模型组" 做数据并行，核心是先按模型并行拆分模型到 8 个 GPU（构成 1 个 "模型单元"），再复制多份这样的 "模型单元" 到其他 GPU 组，每个组分配不同的数据子集------ 并非把数据拆分到单组内的 8 个 GPU，而是拆分到 "模型组" 之间，单组内的 8 个 GPU 仍按模型并行逻辑共享同一份数据、协同完成计算。

下面用具体例子 + 流程拆解，把这个逻辑讲清楚：

一、先明确核心概念："模型组" 与 "数据并行维度" 的分层

假设我们有24 个 GPU，计划用「8 卡模型并行 + 3 组数据并行」的混合策略：

模型并行层（单组内）：8 个 GPU 为 1 个 "模型组"（模型单元），模型按层 / 参数拆到这 8 个 GPU 上（比如 Transformer 编码器层 1-2 在 GPU0、3-4 在 GPU1...15-16 在 GPU7）；
数据并行层（组间）：复制 3 份上述 "8 卡模型组"（对应 GPU0-7、GPU8-15、GPU16-23），每个组分配不同的训练数据子集。

二、具体执行流程（以单批次训练为例）

假设单批次共 96 个训练样本，按数据并行拆分为 3 份，每份 32 个样本，对应 3 个 "模型组"：

1. 初始化阶段

所有 "模型组"（GPU0-7、8-15、16-23）加载相同的模型拆分逻辑（即组内 8 个 GPU 的模型片段完全一致，比如 GPU0 和 GPU8 都部署编码器层 1-2，GPU1 和 GPU9 都部署层 3-4）；
每个 "模型组" 内的 8 个 GPU 参数初始化一致，组间的同位置 GPU 参数也一致。

2. 前向传播阶段

数据分发：将 32 个样本分给第 1 组（GPU0-7）、32 个给第 2 组（GPU8-15）、32 个给第 3 组（GPU16-23）；
组内模型并行计算：以第 1 组为例，32 个样本完整传入该组的 GPU0（模型第一层），GPU0 完成计算后，将中间结果传给 GPU1（模型第二层），依次传递到 GPU7（模型最后一层），最终输出该组 32 个样本的预测结果；第 2、3 组执行完全相同的组内模型并行逻辑，仅输入的 32 个样本不同。

3. 反向传播阶段

组内梯度计算：每个 "模型组" 内，梯度按模型并行的反向顺序传递（GPU7→GPU6→...→GPU0），每个 GPU 计算自己负责的模型片段的梯度；
组间梯度同步（数据并行核心）：找到所有组中负责相同模型片段的 GPU（比如 GPU0、8、16 都负责编码器层 1-2），通过 AllReduce 通信机制汇总这 3 个 GPU 的梯度，计算均值后更新该模型片段的参数；同理，GPU1、9、17 汇总梯度更新层 3-4 的参数，直到所有模型片段的参数完成更新。

4. 参数同步阶段

每个 "模型组" 内，更新后的参数会同步到组内其他 GPU（保证组内模型片段参数一致）；
所有 "模型组" 的同位置 GPU 参数"保持一致"（比如 GPU0 和 GPU8 的层 1-2 参数完全相同），为下一轮训练做准备。

"参数同步" 指的是：

组内每个 GPU 只负责「自己持有参数子集的更新」（比如 GPU0 只更层 1-2，GPU1 只更层 3-4）；
"同步" 的核心是：让组内所有 GPU 都知晓 "全局参数的最新状态"（比如 GPU1 要知道 GPU0 的层 1-2 参数已更新，GPU0 也要知道 GPU1 的层 3-4 参数已更新），而非让 GPU0 和 GPU1 的参数变成一样的。

换句话说

模型并行是 "拆分计算任务"，但模型本身是一个整体 ------ 组内参数同步不是让各 GPU 的 "片段参数" 变得一样，而是保证「全局模型的所有参数子集都处于最新、一致的状态」，确保流水线式的计算（正向 + 反向）符合完整模型的逻辑，避免因参数版本不一致导致的计算错误。

三、关键问题解答："模型不同部分在不同 GPU，数据还放不同 GPU 吗？"

❌ 单 "模型组" 内的 8 个 GPU：共享同一份数据子集，数据不会拆分到这 8 个 GPU（而是完整传入组内第一个 GPU，按模型并行流程传递）；
✅ 不同 "模型组" 之间：数据拆分分发，每个组拿到不同的数据子集，实现数据并行；
本质：数据并行的粒度是 "模型组"，而非单 GPU；模型并行的粒度是 "组内单 GPU"，二者分层执行，互不冲突。

四、简化示例（更易理解）

把每个 "8 卡模型组" 看作一个 "超级 GPU"：

传统单 GPU 数据并行：多个 GPU 各存完整模型，分不同数据；
混合并行：多个 "超级 GPU"（每个由 8 卡模型并行组成）各存拆分后的模型，分不同数据，"超级 GPU" 内部按模型并行完成计算。

这种混合策略既解决了 "单 GPU 装不下大模型" 的问题（模型并行），又利用数据并行提升了训练速度（多组处理不同数据），是千亿参数大模型训练的主流方案（如 GPT-3、LLaMA 2 均采用类似逻辑）。