【LLM】AR/Diffusion

基于自回归（Autoregressive, AR）和基于扩散（Diffusion）的语言模型，在底层逻辑、数学建模和生成范式上有着根本的区别。我们可以从技术原理、优缺点以及产业界的实际选择来拆解这个问题。

一、核心生成范式的区别

1. 自回归 LLM (Autoregressive)

核心逻辑： "从左到右，单向预测"。
数学表达： p(x)=∏t=1Tp(xt∣x<t)p(x) = \prod_{t=1}^{T} p(x_t | x_{<t})p(x)=∏t=1Tp(xt∣x<t)。模型根据已经生成的历史 Token序列 x<tx_{<t}x<t，预测下一个 Token xtx_txt 的概率分布。
生成过程： 这是一个串行的离散过程。生成一个词后，将其拼接到输入序列中，再预测下一个词。

2. 扩散 LLM (Diffusion)

核心逻辑： "全局去噪，由粗到细"。
数学表达： 通过正向过程将数据逐渐破坏为纯噪声 q(xt∣xt−1)q(x_t | x_{t-1})q(xt∣xt−1)，再训练一个逆向网络 pθ(xt−1∣xt)p_\theta(x_{t-1} | x_t)pθ(xt−1∣xt) 来逐步去噪恢复数据。
生成过程： 这是一个并行的迭代过程。模型一开始面对的是与目标文本等长（或可变长度）的纯噪声序列，在多个时间步（Timesteps）内，全局且同时地对所有位置的 Token 向量进行细化和去噪，最终"显影"出完整的句子。

二、优缺点对比

自回归方法的优缺点

优点：

极其契合语言的内在逻辑： 人类说话和写作本身就是一个从左到右、高度依赖局部因果关系的离散序列过程。
强大的 In-context Learning 能力： 自回归模型极其擅长处理上下文的条件概率，这使得它在 Few-shot 甚至 Zero-shot 的推理任务上表现卓越。
计算效率与生态护城河： 虽然生成是串行的，但利用 KV Cache 和 FlashAttention 等底层优化，推理速度和显存管理已经达到了极高的工业级效率。

缺点：

错误累积（Exposure Bias）： 训练时是 Teacher Forcing（每一步给的都是绝对正确的历史），但推理时用的是自己生成的历史。一旦前面生成了一个错词，错误会向后传递。
缺乏全局规划（Myopic）： 生成第一个词时，模型无法"修改"或"回退"，这导致它在需要严格全局字数限制或特定排版格式的任务上有时会显得捉襟见肘。

扩散方法的优缺点

优点：

全局上下文与双向注意力： 去噪过程是并行的，每个 Token 都可以看到所有其他 Token 的状态，天然具有全局规划能力，可以轻易实现"文本填空"或受控生成。
极强的可控性（Controllability）： 扩散模型在生成过程中可以非常方便地加入 Classifier-free Guidance (CFG) 或其他能量函数，精准控制生成文本的属性（如情感、风格、句法结构）。

缺点：

离散空间的鸿沟： 这是扩散模型在自然语言领域最致命的弱点。文本是高度离散的（Discrete），将离散的 Token 映射到连续的 Embedding 空间进行加噪去噪，再在最后一步通过 Rounding 或查表找回离散 Token，极其容易产生语义断层和坍缩。
推理速度慢： 尽管生成是并行的，但需要经历多次完整的去噪迭代（如 50-100 步 Forward Pass），总耗时往往远超自回归的一次性串行输出。

三、为什么现在主流都是自回归方法？

尽管扩散模型（以及 Flow Matching 等技术）在连续变量领域（如 3D 动作生成、高精度图像、音频）表现出了惊艳的统治力，但在文本领域，自回归依然是绝对的主流。原因可以归结为以下三点：

1. 离散数据的本质属性

在连续空间中，向坐标点或像素添加高斯噪声在数学上是非常自然和优雅的。但在离散词表中，"苹果"加上一点高斯噪声变成什么？很难定义。虽然学术界提出了 Discrete Diffusion（如基于离散转移矩阵的掩码生成模型）或者 Continuous Diffusion for Text（如 Diffusion-LM），但在极大规模数据下，这种非自然的映射导致优化难度急剧上升，效果始终无法匹敌简单粗暴的 Next-token Prediction。

2. 确定的 Scaling Laws

自回归模型的交叉熵损失（Cross-Entropy Loss）展现出了极其优美和可预测的 Scaling Laws。整个工业界可以非常确信地通过堆算力和数据来获得智能涌现。而文本扩散模型在扩大参数和数据规模时，去噪轨迹的稳定性和收敛性依然是一个巨大的工程盲盒。

3. 多模态（VLM/VLA）的演进趋势

随着行业向视觉-语言大模型（VLM）和视觉-语言-动作模型（VLA）演进，自回归引擎不仅没有被替代，反而成为了"核心大脑"。

当前的通用解法是：一切皆可自回归。我们利用 VQ-VAE 等技术将连续的图像、视频或动作信号强行离散化为 Token，然后全部喂给强大的自回归 Transformer 主干网络进行高级的逻辑推理和统筹规划。

在实际的复杂工业系统中，两者甚至在走向融合：自回归模型负责离散逻辑与高层语义的生成，而扩散模型（作为 Decoder 的一部分）负责接收自回归的条件（Condition），进而去渲染出连续的视觉图像或精细的物理动作。

这两种方法的推理速度对比非常有意思，而且与生成文本的长度有着决定性的关系。

简而言之：短文本时，自回归更快；长文本或超长文本时，扩散模型在理论上或在特定并行硬件下具有超越自回归的潜力。

我们可以从它们的时间复杂度 和计算模式来拆解原因：

一、时间复杂度对比

假设我们需要生成长度为 NNN 的文本：

特性	自回归模型 (AR)	扩散模型 (Diffusion)
计算模式	串行（步步为营）	并行（全局显影）
迭代次数（串行步数）	必须是 NNN 步 (每个 Token 一步)	固定 TTT 步 (通常为 20-50 步，与 NNN 无关)
单步时间复杂度	O(N)O(N)O(N) (随着历史变长，注意力计算变慢)	O(N2)O(N^2)O(N2) 或 O(N)O(N)O(N) (每一步都要全序列注意力)
总体时间复杂度	O(N2)O(N^2)O(N2) (通过 KV Cache 可优化到每步常数)	O(T×N2)O(T \times N^2)O(T×N2)

二、推理速度与文本长度的函数关系

1. 生成短文本时（如 N<30N < 30N<30 个 Token）

自回归更快。
原因： 如果只需要生成 20 个字，自回归模型只需要串行循环 20 次。而扩散模型不管文本多短，为了保证文本质量和去噪的平滑性，通常都需要进行固定的 TTT 步（比如 50 步）全局去噪。在这类场景下，扩散模型的开销明显更大。

2. 生成中等长度文本时（如 N≈50∼200N \approx 50 \sim 200N≈50∼200 个 Token）

双方进入胶着期，但自回归在工程上依然占优。
原因： 随着长度增加，自回归的循环次数达到了 100-200 次。虽然扩散模型依然只需要 50 步，但扩散模型每一步都是对整个长度 NNN 进行双向 Attention 计算（没有因果掩码，无法像自回归那样完美利用 KV Cache 降低单步开销）。因此，扩散模型单步的计算量（FLOPs）远大于自回归的单步计算量。

3. 生成超长文本时（如 N>1000N > 1000N>1000 甚至上万个 Token）

扩散模型（或非自回归方法）在理论上更快。
原因： 自回归致命的弱点在于 NNN 次串行依赖。如果生成 2000 个 Token，GPU 必须在硬件上等待 2000 次上下文的串行交接，这会导致硬件的并行算力（Tensor Cores）产生严重的饥饿，GPU 利用率极低。
相反，扩散模型此时依然只需要迭代 TTT 步（比如 30-50 步）。虽然由于长度增加，单步的 Self-Attention 矩阵变大，但它是完全并行的 ，可以瞬间吃满整个 GPU 的多核算力。在支持超大吞吐的硬件上，扩散模型的生成时间几乎不随长度 NNN 的增加而线性飙升，它能打破自回归的"速度墙"。

三、总结与现状

为什么在实际体验中我们总觉得自回归很快？

因为工业界对自回归进行了堪称榨干硬件的工程优化。比如 流式传输（Streaming） ：自回归是每吐出一个词就能立刻让用户看到（流式交互），虽然总生成时间长，但用户的"首字延迟（TTFT）"极低，体感很流畅；而扩散模型在完成最后几步去噪之前，整个序列都是处于语义模糊的"噪声状态"，无法做到真正的流式输出，用户必须坐在屏幕前死等 TTT 步迭代彻底结束，才能一口气看到完整的文本。

这也是为什么在追求极致响应的文本交互中，自回归依然是绝对的主流。

【LLM】AR/Diffusion

一、 核心生成范式的区别

二、 优缺点对比