首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速

Diffusion Large Language Model (DLLM)是大模型圈近期最火的topic之一,对于VLA来说,我们的motivation是充分利用dllm在生成理解一体化方面天然的优势,将未来帧生成和动作预测统一在一个框架内。

原文链接:首个开源扩散VLA:Unified DVLA!实现SOTA性能+4倍加速

对于生成理解一体化的Unified VLA模型,我们关注的核心问题是如何实现图像生成和动作预测的相互裨益,针对这个问题我们提出了联合离散去噪过程Joint Discrete Denoising Diffusion Process (JD3P),即我们将不同模态的去噪过程统一在同一个去噪轨迹中,通过hybrid attention让动作在去噪过程内持续受益于图像的去噪过程。为了在推理阶段充分发挥dllm的优势,我们设计了前缀KV Cache和基于置信度的decoding机制,在提升推理速度的同时保证动作质量。最后,作为第一个全面开源的Diffusion VLA在达到SOTA-level性能的同时相比自回归模型实现了四倍的加速,我们在主流benchmark (CALVIN, LIBERO, SIMPLER) 上进行了全面的评测提供了完整的训练、测试代码以及模型权重。

UD-VLA架构

1) Unified Tokenization

我们把 text / image / action 用emu3 tokenzier/VQ tokenizer/FAST tokenizer离散化为 tokens,并拼成一条单一多模态序列。并用特殊token/``and``/标记不同模态

序列结构:

text tokens ; current image tokens ; future image tokens ; action tokens


2) Hybrid Attention Mechanism

我们保持不同模态之间和文本模态内因果,视觉模态以及动作模态内保持双向。这样做的目的是让动作在去噪过程内持续受益于图像的去噪过程


3)Joint Discrete Denoising Diffusion Process (JD3P)

动作与图像在同一个去噪步骤中并行生成 。设未来图像 token 为 v 0 \mathbf{v}_0 v0,动作 token 为 a 0 \mathbf{a}_0 a0,其联合序列为:

$$

\mathbf{v}_0,\ \mathbf{a}_0

\bigl(v_{0,1},\dots,v_{0,L_v},\ a_{0,1},\dots,a_{0,L_a}\bigr).

我们加入一个掩码 token M \\mathrm{M} M。在步骤 t t t 的加噪转移为: ##

\mathbf{Q}t,\mathbf{e}{t,r}

(1-\beta_t),\mathbf{e}{t,r}
+
\beta_t,\mathbf{e}
{\mathrm{M}}.

$$

去噪过程可分解为:

p θ ( v t − 1 , a t − 1 ∣ v t , a t , c )    =    p θ ( v t − 1 ∣ v t , c )    p θ ( a t − 1 ∣ v t , a t , c ) . p_\theta(\mathbf{v}{t-1},\mathbf{a}{t-1}\mid \mathbf{v}t,\mathbf{a}t,\mathbf{c}) \;=\; p\theta(\mathbf{v}{t-1}\mid \mathbf{v}t,\mathbf{c})\; p\theta(\mathbf{a}_{t-1}\mid \mathbf{v}_t,\mathbf{a}_t,\mathbf{c}). pθ(vt−1,at−1∣vt,at,c)=pθ(vt−1∣vt,c)pθ(at−1∣vt,at,c).

我们采用 单步掩码预测 目标,仅对 被掩码的位置 计算交叉熵:

L CE ( θ ) = − β ∑ j L v log ⁡ p θ ( v )  ⁣ ( v 0 , j ∣ v t , c )   1 { v t , j = M }    −    ∑ i L a log ⁡ p θ ( a )  ⁣ ( a 0 , i ∣ v t , a t , c )   1 { a t , i = M } . \mathcal{L}{\text{CE}}(\theta) = - \beta \sum{j}^{L_v} \log p_\theta^{(v)}\!\big(v_{0,j}\mid \mathbf{v}t,\mathbf{c}\big)\, \mathbf{1}\{v{t,j}=\mathrm{M}\} \;-\; \sum_{i}^{L_a} \log p_\theta^{(a)}\!\big(a_{0,i}\mid \mathbf{v}_t,\mathbf{a}t,\mathbf{c}\big)\, \mathbf{1}\{a{t,i}=\mathrm{M}\}. LCE(θ)=−βj∑Lvlogpθ(v)(v0,j∣vt,c)1{vt,j=M}−i∑Lalogpθ(a)(a0,i∣vt,at,c)1{at,i=M}.

4) 训练 (Training)

  1. 阶段 (i). 在大规模视频数据集上进行后训练,注入未来图像生成能力。
       text tokens    ;    current image tokens    ;    future image tokens    . \\;\\text{text tokens}\\;;\\;\\text{current image tokens}\\;;\\;\\text{future image tokens}\\;. text tokens;current image tokens;future image tokens.

  2. 阶段 (ii). 共同优化图像和动作生成;将自回归解码重构为扩散过程(JD3P),通过移位操作预测下一个 token。
       text tokens    ;    current tokens    ;    future image tokens    action tokens . \\;\\text{text tokens}\\;;\\;\\text{current tokens}\\;;\\;\\text{future image tokens}\\;\\text{action tokens}. text tokens;current tokens;future image tokensaction tokens.

推理 (Inference)

并行解码与自适应掩码

初始化 v T \mathbf{v}_T vT 和 a T \mathbf{a}_T aT 的所有位置为 <MASK>,并进行少量迭代。

前缀 KV 缓存与预填充

复用前缀token的kv缓存和预填充 <BOI><EOI><BOA> 以引导去噪。

基于置信度的解码

使用通过置信度对掩码位置进行排序:
q t − 1 , r = max ⁡ ℓ { p θ ( ℓ ∣ v t , u ) , r ∈ { 1 , ... , L v } , p θ ( ℓ ∣ v t , a t , u ) , r ∈ { L v + 1 , ... , L v + L a } . q_{t-1,r}=\max_{\ell}\begin{cases} p_\theta(\ell \mid \mathbf v_t,\mathbf u), & r\in\{1,\ldots,L_v\},\\6pt p_\theta(\ell \mid \mathbf v_t,\mathbf a_t,\mathbf u), & r\in\{L_v+1,\ldots,L_v+L_a\}. \end{cases} qt−1,r=ℓmax⎩ ⎨ ⎧pθ(ℓ∣vt,u),pθ(ℓ∣vt,at,u),r∈{1,...,Lv},r∈{Lv+1,...,Lv+La}.

通过温度化的 Gumbel 采样更新前 ( 1 − ρ t ) ∣ M t ∣ (1-\rho_t)|M_t| (1−ρt)∣Mt∣ 个条目:
v t − 1 , j , a t − 1 , i = arg ⁡ max ⁡ y 1 κ t log ⁡ p θ ( y ∣ v t , a t , u ) + η c ,    η c ∼ G u m b e l ( 0 , 1 ) . v_{t-1,j},a_{t-1,i}=\arg\max_{y}\Big\\tfrac{1}{\\kappa_t}\\log p_\\theta(y \\mid \\mathbf v_t,\\mathbf a_t,\\mathbf u)+\\eta_c\\Big,\; \eta_c\sim \mathrm{Gumbel}(0,1). vt−1,j,at−1,i=argymaxκt1logpθ(y∣vt,at,u)+ηc,ηc∼Gumbel(0,1).

实验

仿真实验

视觉cot生成

真机实验

最后

我们在Diffusion VLA方向上长期的尝试,在今年三月就探索了Parallel VLA的一种形式PD-VLA(uniform的迭代形式),它通过并行且多次迭代输出action,可以视作diffusion VLA的最早期探索,基于PD-VLA,我们进一步探索了Diffusion VLA的推理加速,通过一致性蒸馏的方式将基于OpenVLA的模型速度提升了四倍。得益于dllm的发展,Unified Diffusion VLA探索了多模态的生成理解统一的关键问题,我们希望他不仅可以作为好的开源VLA基座,也可以作为团队在diffusion VLA一系列研究上的最新结果提供给大家真正的insights。

具身求职内推来啦

近50家主流具身公司,校招&社招&实习均可

国内最大的具身智能全栈学习社区来啦!

具身智能之心知识星球:国内最大的具身智能全栈技术社区来啦!

推荐阅读

从零部署π0,π0.5!好用,高性价比!面向具身科研领域打造的轻量级机械臂

工业级真机教程+VLA算法实战(pi0/pi0.5/GR00T/世界模型等)

具身智能算法与落地平台来啦!国内首个面向科研及工业的全栈具身智能机械臂

VLA/VLA+触觉/VLA+RL/具身世界模型等!具身大脑+小脑算法与实战全栈路线来啦~

MuJoCo具身智能实战:从零基础到强化学习与Sim2Real

从零训练你的足式机器人!让你的足式机器人真正动起来~

具身领域的目标导航到底是什么?有哪些主流方法?

Diffusion Policy在具身智能领域是怎么应用的?为什么如此重要?

具身智能视觉语言动作模型,VLA怎么入门?

视觉语言导航的主流方法有哪些?是怎么用的?

1v1 科研论文辅导来啦!

重磅!具身智能之心论文辅导来啦(近20+方向,顶会/顶刊/SCI/EI/中文核心/申博等)

相关推荐
竹叶青lvye12 小时前
ROS2自定义接口消息、参数服务案例
人工智能·ros2·具身智能·接口消息·参数服务
Godspeed Zhao12 小时前
跨越天际:从智能汽车到 eVTOL 的适航与系统级开发25——智能负载卸载策略
科技·汽车·航空·具身智能·evtol
chen_zn9512 小时前
OpenPi、GR00T的视觉语言模型与动作模型连接方式差异分析总结
人工智能·深度学习·具身智能·vla
REDcker17 小时前
TidyBot2 完整文档
机器人·开源项目·具身智能
chen_zn951 天前
RLinf复现RECAP(一):从轨迹回报到优势标签
人工智能·强化学习·具身智能·vla
Robot_Nav1 天前
TidyBot++ 一种用于机器人学习的开源全向移动机械臂【文献解读】
具身智能·模仿学习·轮式双臂机器人·全向移动
chen_zn951 天前
RLinf复现RECAP(二):优势标签驱动pi0.5的CFG训练
人工智能·强化学习·具身智能·vla
chen_zn952 天前
pi*0.6的RECAP:VLA如何从成功、失败和人工纠正中继续学习
人工智能·深度学习·强化学习·具身智能·vla
深蓝学院2 天前
Nature新刊Sensors:清华团队突破机器人触觉难题,多模态感知精度直逼人类指尖
机器人·触觉·具身智能
想要成为计算机高手2 天前
用meta quest 3 遥操宇树机器人-xr_teleoperate 复现(含docker安装与配置方式)
人工智能·docker·机器人·xr·g1·具身智能