【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

快速了解部分

基础信息（英文）：

题目: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
时间: 2024.12
机构: MIT CSAIL, Technical University of Munich
3个英文关键词: Diffusion Models, Sequence Modeling, Causal Architecture

1句话通俗总结本文干了什么事情

本文提出了一种叫"扩散强制（Diffusion Forcing）"的新方法，让模型既能像GPT一样自由地生成长短不一的序列（如视频、动作），又能像全序列扩散模型一样进行全局规划和纠错，解决了长序列生成容易"崩"掉的问题。

研究痛点：现有研究不足 / 要解决的具体问题

Teacher Forcing (自回归模型)：只能一个接一个地预测，没法回头改，稍微预测错一点，后面的误差就会累积爆炸（比如生成视频到后面画面乱飞），而且没法进行全局优化（比如没法指导模型"为了达到最终目标，你现在该怎么做"）。
Full-Sequence Diffusion (全序列扩散)：虽然能全局规划，但它必须一次性生成固定长度的序列，没法灵活地处理变长任务，而且因为是非因果的，很难直接用作策略（Policy）进行实时决策。

核心方法：关键技术、模型或设计（简要）

核心技巧 ：给序列里的每一个 Token（比如每一帧画面）分配一个独立的、随机的噪声等级 ，而不是像传统扩散那样给整段序列加同样的噪声。
通俗理解：这就像是在考试时，允许学生对不同的题目有不同的确定度。模型要学会在只知道部分历史（低噪声）和面对充满噪声的未来时，依然能推理出当前该做什么。

深入了解部分

作者想要表达什么

作者想证明，"去噪"本质上是一种广义的"填补缺失"。通过将"时间轴上的预测"和"噪声轴上的扩散"统一起来，可以打破自回归和全序列生成的界限。他们想告诉我们：最好的序列模型应该既能向前走（自回归），又能回头看并修正（扩散），同时还能接受最终目标的指引。

相比前人创新在哪里

独立噪声调度 (Independent Noise Levels)：前人（如 AR-Diffusion）通常是按顺序给越后面的 Token 加越多的噪声。本文让每个 Token 的噪声等级是独立随机的，这迫使模型必须学会处理任意形式的"部分观测"。
因果扩散 (Causal Diffusion)：在训练时引入了因果结构（RNN），使得模型在推理时既能像扩散模型一样进行多步迭代优化（Guidance），又能保持自回归模型的灵活性（变长输出）。

解决方法/算法的通俗解释

想象你在玩"你画我猜"，但规则很怪：

训练时：你的队友每次给你看的图片都是不同程度的"马赛克"（噪声）。有时候第一张图很清晰，有时候最后一张图全是雪花点，而且每张图的清晰度是随机打乱的。你的任务是，不管中间有多模糊，都要猜出原本的清晰图像是什么。
推理时（生成）：你从一张全是雪花点的电视画面开始，一边看着刚才画的模糊画面（历史记忆），一边慢慢把当前这一帧擦清晰，同时还能根据"最终大奖"（Guidance）的提示来调整你的画法。

解决方法的具体做法

训练（Diffusion Forcing） ：
- 拿一段数据（比如视频），给每一帧都随机加不同量的噪声。
- 用一个 RNN 模型来读取"带噪的历史画面"，然后让它去预测"当前这一帧原本清晰的样子"。
- 关键是：历史画面可以是清晰的，也可以是全噪的，随机组合。
推理（Sampling） ：
- Zig-Zag 采样：不是一下子把所有帧都变清晰。而是从全噪声开始，按照一个"金字塔"式的噪声表（先近后远，近处清晰，远处模糊），一行一行地把画面变清晰。
- 蒙特卡洛引导 (MCG)：在生成过程中，可以计算"这样做未来得分高不高"，并利用梯度把生成的轨迹往高分方向拉。

基于前人的哪些方法

扩散模型 (Diffusion Models)：基于 DDPM 的去噪原理。
Teacher Forcing：传统的序列训练方法，本文将其泛化了。
Bayesian Filtering (贝叶斯滤波) ：本文的模型结构借鉴了卡尔曼滤波的思想，用隐变量 zzz 来总结历史状态。

实验设置、数据、评估方式、结论

视频生成 (Minecraft/DMLab) ：任务是根据第一帧预测后面的视频。
- 结果：相比基线（Teacher Forcing 和 Full-Sequence Diffusion），本文方法生成的视频更稳定，能跑出比训练长度长得多的视频（Infinite Rollout），且画面连贯。
强化学习规划 (Maze2D) ：在迷宫里找路。
- 结果：使用 MCG (Monte Carlo Guidance) 后，成功率远超 SOTA 的 Diffuser 模型，且不需要额外的控制器。
机器人控制 (Real Robot) ：机械臂要把苹果和橘子换位置。
- 结果：即使蒙住摄像头或有干扰，模型也能靠记忆完成任务，成功率 80%，而普通扩散策略（Diffusion Policy）因为没有记忆会失败。

提到的同类工作

Diffuser [37]：用全序列扩散来做规划，但无法处理变长任务，且生成的动作往往不符合因果律。
AR-Diffusion [66]：也是想结合自回归和扩散，但它的噪声是按位置线性增加的，不够灵活，无法实现本文的"因果不确定性"建模。
TimeGrad [50]：经典的单步时间序列扩散模型，属于 Teacher Forcing 范畴。

和本文相关性最高的3个文献

Planning with diffusion for flexible behavior synthesis (Diffuser) [37] <2022_ICML>：这是本文在决策规划领域最主要的对比基准和前人工作。
Denoising diffusion probabilistic models (DDPM) [29] <2020_NeurIPS>：扩散模型的基础理论，本文的数学根基。
AR-Diffusion: Auto-regressive diffusion model for text generation [66] <2023_NeurIPS>：这是本文在序列生成领域最直接的前人工作，本文正是为了克服它的局限性（线性噪声）而提出的。