【论文阅读】Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion

快速了解部分

基础信息(英文):

  1. 题目: Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion
  2. 时间: 2024.12
  3. 机构: MIT CSAIL, Technical University of Munich
  4. 3个英文关键词: Diffusion Models, Sequence Modeling, Causal Architecture

1句话通俗总结本文干了什么事情

本文提出了一种叫"扩散强制(Diffusion Forcing)"的新方法,让模型既能像GPT一样自由地生成长短不一的序列(如视频、动作),又能像全序列扩散模型一样进行全局规划和纠错,解决了长序列生成容易"崩"掉的问题。

研究痛点:现有研究不足 / 要解决的具体问题

  1. Teacher Forcing (自回归模型):只能一个接一个地预测,没法回头改,稍微预测错一点,后面的误差就会累积爆炸(比如生成视频到后面画面乱飞),而且没法进行全局优化(比如没法指导模型"为了达到最终目标,你现在该怎么做")。
  2. Full-Sequence Diffusion (全序列扩散):虽然能全局规划,但它必须一次性生成固定长度的序列,没法灵活地处理变长任务,而且因为是非因果的,很难直接用作策略(Policy)进行实时决策。

核心方法:关键技术、模型或设计(简要)

核心技巧 :给序列里的每一个 Token(比如每一帧画面)分配一个独立的、随机的噪声等级 ,而不是像传统扩散那样给整段序列加同样的噪声。
通俗理解:这就像是在考试时,允许学生对不同的题目有不同的确定度。模型要学会在只知道部分历史(低噪声)和面对充满噪声的未来时,依然能推理出当前该做什么。

深入了解部分

作者想要表达什么

作者想证明,"去噪"本质上是一种广义的"填补缺失"。通过将"时间轴上的预测"和"噪声轴上的扩散"统一起来,可以打破自回归和全序列生成的界限。他们想告诉我们:最好的序列模型应该既能向前走(自回归),又能回头看并修正(扩散),同时还能接受最终目标的指引。

相比前人创新在哪里

  1. 独立噪声调度 (Independent Noise Levels):前人(如 AR-Diffusion)通常是按顺序给越后面的 Token 加越多的噪声。本文让每个 Token 的噪声等级是独立随机的,这迫使模型必须学会处理任意形式的"部分观测"。
  2. 因果扩散 (Causal Diffusion):在训练时引入了因果结构(RNN),使得模型在推理时既能像扩散模型一样进行多步迭代优化(Guidance),又能保持自回归模型的灵活性(变长输出)。

解决方法/算法的通俗解释

想象你在玩"你画我猜",但规则很怪:

  1. 训练时:你的队友每次给你看的图片都是不同程度的"马赛克"(噪声)。有时候第一张图很清晰,有时候最后一张图全是雪花点,而且每张图的清晰度是随机打乱的。你的任务是,不管中间有多模糊,都要猜出原本的清晰图像是什么。
  2. 推理时(生成):你从一张全是雪花点的电视画面开始,一边看着刚才画的模糊画面(历史记忆),一边慢慢把当前这一帧擦清晰,同时还能根据"最终大奖"(Guidance)的提示来调整你的画法。

解决方法的具体做法

  1. 训练(Diffusion Forcing)
    • 拿一段数据(比如视频),给每一帧都随机加不同量的噪声。
    • 用一个 RNN 模型来读取"带噪的历史画面",然后让它去预测"当前这一帧原本清晰的样子"。
    • 关键是:历史画面可以是清晰的,也可以是全噪的,随机组合。
  2. 推理(Sampling)
    • Zig-Zag 采样:不是一下子把所有帧都变清晰。而是从全噪声开始,按照一个"金字塔"式的噪声表(先近后远,近处清晰,远处模糊),一行一行地把画面变清晰。
    • 蒙特卡洛引导 (MCG):在生成过程中,可以计算"这样做未来得分高不高",并利用梯度把生成的轨迹往高分方向拉。

基于前人的哪些方法

  1. 扩散模型 (Diffusion Models):基于 DDPM 的去噪原理。
  2. Teacher Forcing:传统的序列训练方法,本文将其泛化了。
  3. Bayesian Filtering (贝叶斯滤波) :本文的模型结构借鉴了卡尔曼滤波的思想,用隐变量 zzz 来总结历史状态。

实验设置、数据、评估方式、结论

  • 视频生成 (Minecraft/DMLab) :任务是根据第一帧预测后面的视频。
    • 结果:相比基线(Teacher Forcing 和 Full-Sequence Diffusion),本文方法生成的视频更稳定,能跑出比训练长度长得多的视频(Infinite Rollout),且画面连贯。
  • 强化学习规划 (Maze2D) :在迷宫里找路。
    • 结果 :使用 MCG (Monte Carlo Guidance) 后,成功率远超 SOTA 的 Diffuser 模型,且不需要额外的控制器。
  • 机器人控制 (Real Robot) :机械臂要把苹果和橘子换位置。
    • 结果:即使蒙住摄像头或有干扰,模型也能靠记忆完成任务,成功率 80%,而普通扩散策略(Diffusion Policy)因为没有记忆会失败。

提到的同类工作

  1. Diffuser [37]:用全序列扩散来做规划,但无法处理变长任务,且生成的动作往往不符合因果律。
  2. AR-Diffusion [66]:也是想结合自回归和扩散,但它的噪声是按位置线性增加的,不够灵活,无法实现本文的"因果不确定性"建模。
  3. TimeGrad [50]:经典的单步时间序列扩散模型,属于 Teacher Forcing 范畴。

和本文相关性最高的3个文献

  1. Planning with diffusion for flexible behavior synthesis (Diffuser) [37] <2022_ICML>:这是本文在决策规划领域最主要的对比基准和前人工作。
  2. Denoising diffusion probabilistic models (DDPM) [29] <2020_NeurIPS>:扩散模型的基础理论,本文的数学根基。
  3. AR-Diffusion: Auto-regressive diffusion model for text generation [66] <2023_NeurIPS>:这是本文在序列生成领域最直接的前人工作,本文正是为了克服它的局限性(线性噪声)而提出的。
相关推荐
xixixi777772 小时前
三重筑基:5G-A超级上行提速千兆,电联低频共享扫平盲点,800V HVDC算电协同破局
人工智能·5g·ai·大模型·算力·通信·信通院
jkyy20142 小时前
AI运动数字化:以技术重塑场景,健康有益赋能全域运动健康管理
大数据·人工智能·健康医疗
金融小师妹2 小时前
4月30日多因子共振节点:鲍威尔“收官效应”与权力结构重塑的预期重构
大数据·人工智能·重构·逻辑回归
2601_949925182 小时前
AI Agent如何重构跨境物流的决策?
大数据·人工智能·重构·ai agent·geo优化·物流科技
AI木马人2 小时前
1.人工智能实战:大模型推理接口响应慢?从模型加载到 FastAPI 部署的完整优化方案
人工智能·python·fastapi
Black蜡笔小新3 小时前
私有化本地化AI模型训推工作站DLTM训推一体工作站赋能多行业智能化落地
人工智能
qq_411262423 小时前
四博 AI 智能音箱 + ESPC3 Tasmota 计量通断器方案
人工智能·智能音箱
dllmayday3 小时前
Milvus在LangChain中使用方法
人工智能·ai·langchain·milvus
xiaoduo AI3 小时前
客服机器人问题解决率怎么统计?Agent系统自动判断是否解决,比人工回访准?
大数据·人工智能·机器人