首个开源扩散VLA：Unified DVLA！实现SOTA性能+4倍加速

具身智能之心2025-12-23 12:28

Diffusion Large Language Model (DLLM)是大模型圈近期最火的topic之一，对于VLA来说，我们的motivation是充分利用dllm在生成理解一体化方面天然的优势，将未来帧生成和动作预测统一在一个框架内。

原文链接：首个开源扩散VLA：Unified DVLA！实现SOTA性能+4倍加速

对于生成理解一体化的Unified VLA模型，我们关注的核心问题是如何实现图像生成和动作预测的相互裨益，针对这个问题我们提出了联合离散去噪过程Joint Discrete Denoising Diffusion Process (JD3P)，即我们将不同模态的去噪过程统一在同一个去噪轨迹中，通过hybrid attention让动作在去噪过程内持续受益于图像的去噪过程。为了在推理阶段充分发挥dllm的优势，我们设计了前缀KV Cache和基于置信度的decoding机制，在提升推理速度的同时保证动作质量。最后，作为第一个全面开源的Diffusion VLA在达到SOTA-level性能的同时相比自回归模型实现了四倍的加速，我们在主流benchmark (CALVIN, LIBERO, SIMPLER) 上进行了全面的评测提供了完整的训练、测试代码以及模型权重。

UD-VLA架构

1) Unified Tokenization

我们把 text / image / action 用emu3 tokenzier/VQ tokenizer/FAST tokenizer离散化为 tokens，并拼成一条单一多模态序列。并用特殊token/``and``/标记不同模态

序列结构：

text tokens ; current image tokens ; future image tokens ; action tokens

2) Hybrid Attention Mechanism

我们保持不同模态之间和文本模态内因果，视觉模态以及动作模态内保持双向。这样做的目的是让动作在去噪过程内持续受益于图像的去噪过程

3）Joint Discrete Denoising Diffusion Process (JD3P)

动作与图像在同一个去噪步骤中并行生成 。设未来图像 token 为 v 0 \mathbf{v}_0 v0，动作 token 为 a 0 \mathbf{a}_0 a0，其联合序列为：

$$

\mathbf{v}_0,\ \mathbf{a}_0

\bigl(v_{0,1},\dots,v_{0,L_v},\ a_{0,1},\dots,a_{0,L_a}\bigr).

我们加入一个掩码 token M \\mathrm{M} M。在步骤 t t t 的加噪转移为： ##

\mathbf{Q}t,\mathbf{e}{t,r}

(1-\beta_t),\mathbf{e}{t,r}
+
\beta_t,\mathbf{e} {\mathrm{M}}.

去噪过程可分解为： p θ ( v t − 1 , a t − 1 ∣ v t , a t , c )    =    p θ ( v t − 1 ∣ v t , c )    p θ ( a t − 1 ∣ v t , a t , c ) . p_\\theta(\\mathbf{v}_{t-1},\\mathbf{a}_{t-1}\\mid \\mathbf{v}_t,\\mathbf{a}_t,\\mathbf{c}) \\;=\\; p_\\theta(\\mathbf{v}_{t-1}\\mid \\mathbf{v}_t,\\mathbf{c})\\; p_\\theta(\\mathbf{a}_{t-1}\\mid \\mathbf{v}_t,\\mathbf{a}_t,\\mathbf{c}). pθ(vt−1,at−1∣vt,at,c)=pθ(vt−1∣vt,c)pθ(at−1∣vt,at,c). 我们采用 **单步掩码预测** 目标，仅对 **被掩码的位置** 计算交叉熵： L CE ( θ ) = − β ∑ j L v log ⁡ p θ ( v )  ⁣ ( v 0 , j ∣ v t , c )   1 { v t , j = M }    −    ∑ i L a log ⁡ p θ ( a )  ⁣ ( a 0 , i ∣ v t , a t , c )   1 { a t , i = M } . \\mathcal{L}_{\\text{CE}}(\\theta) = - \\beta \\sum_{j}\^{L_v} \\log p_\\theta\^{(v)}\\!\\big(v_{0,j}\\mid \\mathbf{v}_t,\\mathbf{c}\\big)\\, \\mathbf{1}\\{v_{t,j}=\\mathrm{M}\\} \\;-\\; \\sum_{i}\^{L_a} \\log p_\\theta\^{(a)}\\!\\big(a_{0,i}\\mid \\mathbf{v}_t,\\mathbf{a}_t,\\mathbf{c}\\big)\\, \\mathbf{1}\\{a_{t,i}=\\mathrm{M}\\}. LCE(θ)=−βj∑Lvlogpθ(v)(v0,j∣vt,c)1{vt,j=M}−i∑Lalogpθ(a)(a0,i∣vt,at,c)1{at,i=M}. #### 4） 训练 (Training) 1. **阶段 (i).** 在大规模视频数据集上进行后训练，注入未来图像生成能力。 \[    text tokens    ;    current image tokens    ;    future image tokens    \] . \[\\;\\text{text tokens}\\;;\\;\\text{current image tokens}\\;;\\;\\text{future image tokens}\\;\]. \[text tokens;current image tokens;future image tokens\]. 2. **阶段 (ii).** 共同优化图像和动作生成；将自回归解码重构为扩散过程（JD3P），通过移位操作预测下一个 token。 \[    text tokens    ;    current tokens    ;    future image tokens    action tokens \] . \[\\;\\text{text tokens}\\;;\\;\\text{current tokens}\\;;\\;\\text{future image tokens}\\;\\text{action tokens}\]. \[text tokens;current tokens;future image tokensaction tokens\]. ### 推理 (Inference) **并行解码与自适应掩码** 初始化 v T \\mathbf{v}_T vT 和 a T \\mathbf{a}_T aT 的所有位置为 ``，并进行少量迭代。 **前缀 KV 缓存与预填充** 复用前缀token的kv缓存和预填充 ``、``、`` 以引导去噪。 **基于置信度的解码** 使用通过置信度对掩码位置进行排序： q t − 1 , r = max ⁡ ℓ { p θ ( ℓ ∣ v t , u ) , r ∈ { 1 , ... , L v } , p θ ( ℓ ∣ v t , a t , u ) , r ∈ { L v + 1 , ... , L v + L a } . q_{t-1,r}=\\max_{\\ell}\\begin{cases} p_\\theta(\\ell \\mid \\mathbf v_t,\\mathbf u), \& r\\in\\{1,\\ldots,L_v\\},\\\\\[6pt\] p_\\theta(\\ell \\mid \\mathbf v_t,\\mathbf a_t,\\mathbf u), \& r\\in\\{L_v+1,\\ldots,L_v+L_a\\}. \\end{cases} qt−1,r=ℓmax⎩ ⎨ ⎧pθ(ℓ∣vt,u),pθ(ℓ∣vt,at,u),r∈{1,...,Lv},r∈{Lv+1,...,Lv+La}. 通过温度化的 Gumbel 采样更新前 ( 1 − ρ t ) ∣ M t ∣ (1-\\rho_t)\|M_t\| (1−ρt)∣Mt∣ 个条目： v t − 1 , j , a t − 1 , i = arg ⁡ max ⁡ y \[ 1 κ t log ⁡ p θ ( y ∣ v t , a t , u ) + η c \] ,    η c ∼ G u m b e l ( 0 , 1 ) . v_{t-1,j},a_{t-1,i}=\\arg\\max_{y}\\Big\[\\tfrac{1}{\\kappa_t}\\log p_\\theta(y \\mid \\mathbf v_t,\\mathbf a_t,\\mathbf u)+\\eta_c\\Big\],\\; \\eta_c\\sim \\mathrm{Gumbel}(0,1). vt−1,j,at−1,i=argymax\[κt1logpθ(y∣vt,at,u)+ηc\],ηc∼Gumbel(0,1). ### 实验 #### 仿真实验 ![](https://i-blog.csdnimg.cn/img_convert/031811a42b60f3c1666ef0c99d4014a4.jpeg) ![](https://i-blog.csdnimg.cn/img_convert/3ac851a91326a1374c68a9c164de9357.png) #### 视觉cot生成 ![](https://i-blog.csdnimg.cn/img_convert/e2e8040bae237ad9aa55931142dce943.jpeg) ![](https://i-blog.csdnimg.cn/img_convert/909086eb44428d7ed5e6e1a9e32c1a20.jpeg) #### 真机实验 ![](https://i-blog.csdnimg.cn/img_convert/30e017f8331e899dc180f18a1fc6a839.jpeg) #### 最后 我们在Diffusion VLA方向上长期的尝试，在今年三月就探索了Parallel VLA的一种形式PD-VLA（uniform的迭代形式），它通过并行且多次迭代输出action，可以视作diffusion VLA的最早期探索，基于PD-VLA，我们进一步探索了Diffusion VLA的推理加速，通过一致性蒸馏的方式将基于OpenVLA的模型速度提升了四倍。得益于dllm的发展，Unified Diffusion VLA探索了多模态的生成理解统一的关键问题，我们希望他不仅可以作为好的开源VLA基座，也可以作为团队在diffusion VLA一系列研究上的最新结果提供给大家真正的insights。 ### 具身求职内推来啦 [近50家主流具身公司，校招\&社招\&实习均可](https://mp.weixin.qq.com/s/jL20AolSpJJqu8F0cOMmpQ) ### 国内最大的具身智能全栈学习社区来啦！ [具身智能之心知识星球：国内最大的具身智能全栈技术社区来啦！](https://mp.weixin.qq.com/s/aLRwG433sA0QjzPZecp9OQ) ### 推荐阅读 [从零部署π0,π0.5！好用，高性价比！面向具身科研领域打造的轻量级机械臂](https://mp.weixin.qq.com/s/4K7QBk7ucXDvR-DLXk6DlA) [工业级真机教程+VLA算法实战（pi0/pi0.5/GR00T/世界模型等）](https://mp.weixin.qq.com/s/kHXwMdtqT9fTouVg9glbAQ) [具身智能算法与落地平台来啦！国内首个面向科研及工业的全栈具身智能机械臂](https://mp.weixin.qq.com/s/HvuMpbIoAe1bSlQBHCFgiQ) [VLA/VLA+触觉/VLA+RL/具身世界模型等！具身大脑+小脑算法与实战全栈路线来啦\~](https://mp.weixin.qq.com/s/x6p9VVtZXUdyBqVOnmUqcg) [MuJoCo具身智能实战：从零基础到强化学习与Sim2Real](https://mp.weixin.qq.com/s/9h8DNg2P3SzUwcoOF7DliA) [从零训练你的足式机器人！让你的足式机器人真正动起来\~](https://mp.weixin.qq.com/s/foYf_g9PvFVDJG2jjQE_-A) [具身领域的目标导航到底是什么？有哪些主流方法？](https://mp.weixin.qq.com/s/92oaQWQ18lNguDPgctIlSQ) [Diffusion Policy在具身智能领域是怎么应用的？为什么如此重要？](https://mp.weixin.qq.com/s/JSMQG9bGPpiX9aSkGI_3wA) [具身智能视觉语言动作模型，VLA怎么入门？](https://mp.weixin.qq.com/s/UhO0yLT74tA8WyCspCKkRg) [视觉语言导航的主流方法有哪些？是怎么用的？](https://mp.weixin.qq.com/s/AmxbgeL4X40KoVBaFzfmtQ) ### 1v1 科研论文辅导来啦！ [重磅！具身智能之心论文辅导来啦（近20+方向，顶会/顶刊/SCI/EI/中文核心/申博等）](https://mp.weixin.qq.com/s/J9ECh3r3rzjNrajAjtumFQ)

上一篇：JavaScript 性能优化：7 个 V8 引擎偏爱的编码模式让你提速 40%

下一篇：sourcefare社区版本与企业版本的详细对比

热门推荐

01GitHub 镜像站点 02OpenClaw 使用和管理 MCP 完全指南 03【OpenClaw 本地实战 Ep.3】突破瓶颈：强制修改 openclaw.json 解锁 32k 上下文记忆 04OpenClaw + 飞书（Feishu）环境搭建指南 05Claude Code + GLM4.7 避坑指南：解决 Unable to connect to Anthropic services 06OpenClaw优化飞书API 额度已耗尽问题 07Clawdbot部署教程：解决‘gateway token missing’授权问题的完整步骤 08OpenClaw大龙虾机器人完整安装教程 09Window 10部署openclaw报错node.exe : npm error code 128 10OpenClaw 接入阿里云百炼 Coding Plan 指南