Envision, Verify, and Act with Latent Interactive World Models

在具身智能领域,如何让机器人在执行动作前预先审视该动作可能带来的后果,一直是提升操作鲁棒性的关键命题。近期,由星源智 XYZ Embodied AI 团队提出的 ω-EVA 框架,通过构建一种潜变量交互式世界模型,实现了机器人动作生成过程中的"设想---验证---执行"闭环。该框架在不依赖额外机器人预训练数据的前提下,以约12亿参数的紧凑规模,在多项仿真操作基准中展现出具有竞争力的性能表现,为 world model 在机器人控制中的角色提供了新的可能性。
一、研究背景与核心挑战
具身操作天然具有反事实属性。机器人在面对复杂任务时,不仅要回答"当前场景下应该执行什么动作",更需要追问"如果执行了这个动作,场景将会如何变化"。这一区分在精细操作中尤为重要:微小的到达误差、抓取偏差或物体对齐失误,都可能在后续时序中累积为任务失败。
近年来,视觉-语言-动作(Vision-Language-Action, VLA)模型与生成式视觉运动策略取得了显著进展。大规模机器人 Transformer 与 VLA 模型在语言条件泛化方面表现突出,能够跨越多样化的操作任务进行推理;动作分块(Action Chunking)与扩散式策略则在连续、多模态控制轨迹的建模上展现出优势。然而,现有的大多数策略仍遵循直接的"观察→动作"范式:给定当前场景,直接解码一段动作序列。该动作序列的未来后果隐式地编码在策略参数内部,而非作为可被策略显式审视的信号。
世界模型(World Model)似乎为这一缺失的接口提供了解决方案。通过学习环境在动作条件下的演化规律,世界模型能够为策略提供预测性监督、表征或外部仿真。然而,现有方法通常以三种方式之一利用世界模型:部分方法将未来视频或潜变量预测仅作为训练阶段的辅助目标或表征学习信号,在推理时跳过显式想象以提升效率;另一些方法在测试时生成视频轨迹、目标条件预测或基于展开的规划,虽能提供更丰富的后果推理,但计算开销较大;还有一类方法将预测模型作为生成策略的外部引导或条件信号。这些方式虽各有价值,但很少在策略内部构建一个交互闭环,使得候选动作能够在执行前被送入世界模型进行检验和修正。
ω-EVA 的核心创新正是填补了这一空白。它提出了一种潜变量交互式世界建模范式,让策略在执行前与其自身的想象后果进行交互,从而将世界模型从被动的辅助预测器或独立的视频仿真器,转变为主动的动作反馈模块。
二、ω-EVA 方法框架
ω-EVA 围绕一个简洁但本质不同的范式构建:策略应在执行前与其想象的后果进行交互。具体而言,策略首先提出一段动作序列,世界模型设想该提案在潜变量空间中诱导的未来状态,随后一个精炼器结合当前状态、想象未来与原始提案,生成最终的动作序列。这一Envision--Verify--Act循环将未来预测转化为提案条件的反馈,使机器人不仅能从当下预测该做什么,还能检验其意图动作可能带来的结果。
2.1 问题设定与整体流程

在语言条件的机器人视觉操作任务中,机器人在时刻 t 接收视觉观察与语言指令,需要预测一段动作序列。传统的视觉运动策略直接建模从观察与语言到动作的映射,而 ω-EVA 则在动作提案与最终动作生成之间引入了一个动作条件的潜变量后果接口。其推理过程可概括为三个步骤的复合:首先,策略生成初始动作提案;其次,动作条件世界模型预测该提案对应的潜变量未来后果;最后,精炼器基于当前状态、想象未来与原始提案,输出精炼后的动作序列。
这一设计的关键在于,所有后果推理均在紧凑的特征空间内完成,无需在推理时生成像素级未来视频,从而在保留显式测试时后果推理能力的同时,保持了闭环控制的实用性。
2.2 三阶段训练流程
ω-EVA 通过三阶段训练逐步实现上述能力,每一阶段建立在前一阶段的基础上,最终形成完整的交互闭环。
Stage 1动作条件潜变量世界模型
第一阶段学习动作条件的潜变量世界模型。给定当前观察与一个动作前缀,模型预测对应未来观察的视觉特征。与此同时,该模型还输出一个动态感知当前状态表示,用于第二阶段的策略学习。
具体实现上,冻结的 DINOv3 视觉编码器将当前观察映射为图像块特征,动作序列通过投影映射为动作 token,同时引入一组可学习的未来查询 token。模型采用因果多模态注意力机制:未来查询可以关注当前状态与动作分支,而当前状态分支仅关注自身,从而确保当前状态表示不依赖于具体动作输入。训练时,通过随机采样不同的预测步长与动作截断前缀,迫使世界模型从部分动作序列中推断未来场景演化,避免对完整动作序列的过度依赖。

Stage 2世界感知动作生成器
第二阶段在动态感知当前表示之上训练语言条件的流匹配策略。该策略将第一阶段学到的动态感知当前表示与语言指令作为条件,生成初始动作提案。
动作生成被建模为条件流匹配问题。在训练时,从噪声与专家动作之间的线性插值路径上采样,策略网络预测速度场。网络采用时间条件的查询 Transformer 结构:噪声动作作为查询 token,通过自注意力、与当前视觉表示的交叉注意力、以及与语言 token 的交叉注意力逐步更新,最终映射为速度预测。该阶段可与第一阶段联合训练,也可在冻结世界模型后单独优化。
在推理时,策略首先从世界模型中提取当前表示(使用零动作虚拟输入),随后从标准高斯噪声出发,通过显式欧拉积分沿学习到的速度场进行去噪,得到初始动作提案。
Stage 3想象交互动作精炼器
第三阶段是 ω-EVA 的核心创新,它将预测能力与动作生成能力连接为交互闭环。此阶段冻结世界模型与提案策略,仅训练精炼器。具体流程为:给定当前观察与语言指令,冻结的第二阶段流水线首先提取当前表示并生成初始提案;随后,该提案被送回冻结的世界模型,获得其动作条件的潜变量未来后果;最后,精炼器基于当前状态、想象未来与原始提案,直接输出精炼后的动作序列。
精炼器接收三个对齐的 token 组:当前状态表示、想象未来表示与原始提案投影。三者通过多层三分支联合注意力模块进行交互,允许每个提案 token 同时与当前场景和预测后果进行比较。与扩散去噪不同,精炼器不引入流时间步或自适应层归一化,而是通过线性动作头直接映射为最终动作。训练目标为精炼动作与专家动作之间的平均绝对误差,且仅对有效动作步进行监督。
2.3 推理阶段的 Envision--Verify--Act 循环
在部署阶段,ω-EVA 在执行每段动作前均完成一次 Envision--Verify--Act 交互。给定当前观察与语言指令,系统首先提取当前表示;策略生成初始动作提案;世界模型基于该提案预测潜变量未来后果;精炼器利用当前状态、想象未来与原始提案生成最终动作。机器人执行该动作序列的前若干步后,接收新的观察,并重复上述完整流程。
值得注意的是,此处的"验证"并非奖励评估或显式验证分数,也不是多步规划,而是基于想象后果的单次后果感知精炼。系统既不观察真实未来,也不将潜变量未来解码为视频,所有后果推理均保持在潜变量特征空间内,兼顾了推理效率与后果感知能力。
三、实验验证与性能分析
研究团队在 LIBERO、LIBERO-PLUS 与 RoboTwin 2.0 三个仿真操作基准上对 ω-EVA 进行了系统评估,涵盖单臂与双臂控制、长程任务执行,以及对视觉、语言与环境扰动的鲁棒性测试。
3.1 LIBERO 基准测试
LIBERO 基准包含四个标准测试套件:空间推理(Spatial)、物体交互(Object)、目标理解(Goal)与长程执行(Long)。在不使用任何额外机器人预训练数据的情况下,ω-EVA 的 Stage 2 模型(约8亿参数)已达到平均 97.9% 的成功率。引入完整的 Stage 3 Envision--Verify--Act 流水线后,平均成功率提升至 98.6%,在全部四个套件上均有改善,其中长程执行套件的提升幅度最大,达到 1.6 个百分点。
这一结果表明,即便在已有较高基线的情况下,基于想象后果的提案修正仍能带来稳定的性能增益。同时,约12亿参数的完整模型在仅使用基准训练数据的条件下,其平均表现与经过大规模机器人预训练的更大模型相比具有竞争力,展现出良好的性能---规模---数据权衡。
|
方法
|
核心参数量
|
机器人预训练
|
Spatial
|
Object
|
Goal
|
Long
|
平均
|
| --- | --- | --- | --- | --- | --- | --- | --- |
|
π0
|
3.3B
|
是
|
96.8
|
98.8
|
95.8
|
85.2
|
94.1
|
|
Fast-WAM
|
6B
|
否
|
98.2
|
100.0
|
97.0
|
95.2
|
97.6
|
|
ω-EVA Stage 2
|
0.8B
|
否
|
98.8
|
99.4
|
97.6
|
95.8
|
97.9
|
| ω-EVA Stage 3 | 1.2B | 否 | 99.0 | 99.8 | 98.2 | 97.4 | 98.6 |
LIBERO 基准成功率对比(节选代表性方法)
3.2 LIBERO-PLUS 鲁棒性与迁移评估
LIBERO-PLUS 在 LIBERO 基础上引入了七种受控扰动类别,包括相机视角、机器人外观、语言指令、光照、背景、传感器噪声与场景布局。研究团队评估了两种设置:零样本迁移(仅在 LIBERO 上训练,直接在 LIBERO-PLUS 上测试)与基准特定训练(在 LIBERO-PLUS 划分数据上训练)。
在零样本迁移设置下,完整的 Stage 3 流水线将平均成功率从 71.3% 提升至 72.2%。在未经机器人预训练的方法中,ω-EVA 的表现优于同类方法。在 LIBERO-PLUS 基准训练设置下,Stage 3 带来了更显著的 2.2 个百分点提升,从 81.2% 增至 83.4%,在七个扰动类别中的六个上均有改善。这些结果支持了如下结论:Envision--Verify--Act 流水线能够一致地提升聚合性能,并对大多数视觉扰动类别产生积极作用。
3.3 RoboTwin 2.0 双臂操作验证
RoboTwin 2.0 基准用于评估双臂操作能力,覆盖干净环境与域随机化两种测试条件。ω-EVA 的完整流水线将平均成功率从 Stage 2 的 88.9% 提升至 90.3%,在两种评估条件下均有改善。尽管该基准上的绝对最高分由更大规模且经过预训练的模型保持,但 ω-EVA 以约12亿参数、无机器人预训练的紧凑配置,达到了与6B参数模型相差1.5个百分点以内的水平,再次验证了其性能---规模---数据权衡的有效性。同时,Stage 3 的增益从单臂 LIBERO 任务成功迁移至高维双臂控制场景,表明该交互机制具有良好的任务泛化能力。
四、消融实验与深度洞察
为了深入理解 ω-EVA 各组件的作用机制,研究团队设计了一系列消融实验,从表征学习、预测保真度与交互设计三个维度展开分析。
4.1 动态感知当前状态表示与动作无关性
Stage 1 的设计目标之一是产生两个互补输出:动作条件的未来预测与动作无关的当前状态表示。为了验证当前状态分支是否真正学到了动态感知特征,研究团队对空间激活进行了可视化分析。

(a) 当前观察

(b) DINOv3 特征

© Stage 1 当前表示

(d) Stage 2 当前表示
Figure 3:当前视觉表示的空间激活对比。相较于通用 DINOv3 特征,未来预测训练将激活重新分配至机器人末端执行器、被操作物体及附近交互区域。
上图展示了冻结 DINOv3 特征、Stage 1 训练后的当前表示以及 Stage 2 联合训练后的当前表示的空间激活热力图。可以观察到,经过未来预测训练后,表示的激活更加集中于末端执行器、被操作杯子以及附近可能在机器人动作下改变空间关系的物体。Stage 2 联合训练在保留这些动态相关线索的同时,进一步调整表示以适应动作生成。这一 progression 与未来预测训练的设计目标一致:它促使当前分支暴露对场景动态有用的视觉结构,而无需该分支本身直接观察动作输入。
此外,为了验证当前状态表示的动作无关性,研究团队在固定当前图像的条件下,分别使用专家动作、零动作虚拟输入、高斯随机动作以及批次打乱动作提取当前表示。结果显示,所有比较均产生零均值绝对差、零最大绝对差与单位余弦相似度,确认动作信息未通过未来监督泄漏到当前分支中。
4.2 动作条件潜变量未来保真度
由于世界模型预测的是未来 DINOv3 特征而非像素,研究团队训练了一个诊断解码器,将冻结的 DINOv3 特征映射回图像空间,以可视化潜变量后果的可解释性。

(a) 当前观察

(b) 原始未来帧

© 解码GT未来

(d) GT动作想象

(e) Stage 2提案

(f) Stage 3精炼
Figure 4:解码的动作条件未来潜变量。所有潜变量预测通过同一诊断解码器渲染。Stage 3 精炼动作产生的未来在机器人姿态与场景结构上更接近目标与GT动作参考。
实验结果以结构相似性指数(SSIM)与弗雷歇起始距离(FID)作为评估指标。以原始未来帧为参考,解码真实 DINOv3 特征的上限为 SSIM 0.9700。基于专家动作条件的想象达到 SSIM 0.9569,表明世界模型保留了目标未来的大部分结构。将 Stage 2 提案替换为 Stage 3 精炼动作后,SSIM 从 0.9520 提升至 0.9562,FID 从 7.41 降至 7.40,且接近专家动作条件的参考水平。这为精炼动作诱导的未来与目标更对齐提供了表示层面的证据。
4.3 解耦未来反馈与提案锚定
为了精确定位 Stage 3 增益的来源,研究团队进行了输入分支消融实验,分别移除想象未来分支与原始提案分支,同时保持精炼器深度与训练协议不变。
实验结果显示:移除想象未来后,平均成功率从 98.6% 降至 97.2%,且低于未精炼的 Stage 2 基线,表明仅靠当前状态与提案的通用精炼无法解释性能提升,提案条件的后果反馈提供了不可替代的信息。移除提案分支后,平均成功率进一步降至 96.0%,尽管该变体仍接收由相同 Stage 2 提案生成的想象未来,但精炼器无法观察是哪个动作产生了该后果,导致难以将未来反馈转化为精确的动作更新。两项消融共同验证了完整的当前---未来---提案交互机制:想象后果提供评估所需的反馈,而原始提案则作为修正锚定,将未来反馈转化为具体的动作调整。
五、总结与展望
ω-EVA 提出了一种将未来预测转化为提案条件反馈的潜变量交互式世界模型框架。通过三阶段训练------学习动作条件潜变量动态、训练世界感知动作生成策略、以及关闭提案---想象---精炼交互闭环------该框架使世界模型从被动的辅助预测器或独立仿真器,转变为动作生成过程中的主动反馈模块。
在 LIBERO、LIBERO-PLUS 与 RoboTwin 2.0 上的实验一致表明,完整的 Envision--Verify--Act 流水线能够稳定提升 Stage 2 提案策略的性能。Stage 3 在 LIBERO 上将平均成功率从 97.9% 提升至 98.6%,在 LIBERO-PLUS 零样本迁移中从 71.3% 提升至 72.2%,在 LIBERO-PLUS 基准训练中从 81.2% 提升至 83.4%,在 RoboTwin 2.0 上从 88.9% 提升至 90.3%。潜变量保真度分析进一步表明,动作条件预测保留了有意义的未来结构,且精炼动作诱导的未来比原始提案更接近目标。
这些结果以约12亿参数、无额外机器人数据预训练的紧凑配置获得,展示了世界模型作为内部动作反馈模块的可行性与有效性。展望未来,该框架可向多个方向延伸:在动作块执行过程中引入中间观察的连续闭环精炼;探索迭代式想象---精炼机制以加深后果推理;将预测接口扩展至触觉、力觉与本体感觉信号;以及利用执行后的真实观察与想象后果之间的差异,持续校准世界模型并自适应地优化策略与精炼器。这些方向指向一种持续感知、设想、修正与学习的具身世界模型智能体,为下一代机器人控制系统的研究提供了富有潜力的技术路径。
核心要点回顾
-
ω-EVA 首次将世界模型作为动作生成循环内部的主动验证模块,实现"设想---验证---执行"闭环。
-
三阶段训练分别建立潜变量动态预测、世界感知动作生成与后果感知动作精炼能力。
-
所有后果推理在潜变量特征空间完成,无需像素级视频生成,兼顾推理效率与闭环控制。
-
在多项仿真基准中,完整流水线以紧凑模型规模稳定提升性能,展现出良好的性能---规模---数据权衡。
-
消融实验验证了动态感知表示、潜变量未来保真度与三分支交互机制各自的关键作用。
具身智能&世界模型blog: https://jinxindeep.github.io/blog/blog2026.html