快速了解部分
基础信息:
- 题目: WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform
- 时间: 2026.05
- 机构: THU
- 3个英文关键词: World Model, Embodied Intelligence, Benchmark
1句话通俗总结
通过把评测标准从"光看视频像不像"升级到"多模态感知+真动手干活+现实世界测试",逼出真正能用的具身世界模型。
研究痛点
现有评测只看模型生成的视频画面是否逼真,导致模型"眼高手低":视频看着很真,但机器人拿它练不出真本事,一到现实世界就抓瞎。
核心方法
搞个新评测基准 WorldArena 2.0,在三个维度动刀:加触觉(Visuotactile)、让模型当训练场(Interactive RL Env)、以及必须去真实机器人上跑(Real-World)。
深入了解部分
作者核心主张
别再只盯着视频生成质量了,评测世界模型的唯一标准,应该是它能不能帮机器人在真实世界里把活干成。
创新本质
相比 SOTA,真正新在"功能定义"和"评测平台":把世界模型从单纯的"视频预测器"重新定义为"可交互的强化学习环境"。
方法直觉解释
输入是视觉画面+触觉信号,模型不仅要预测下一帧画面,还要能被策略网络反复调用进行"脑内模拟训练",最后把练好的策略直接部署到真实机械臂上跑任务。
关键实现细节
- 触觉注入:用 Tactile VAE 把触觉数据编码进视频 latent space,不改原模型架构直接插件式升级。
- 闭环 RL 评测:用世界模型替代 simulator 训练策略(如 GRPO 算法),看策略迁移到真机后的成功率。
技术传承
继承自 WorldArena (v1),保留了感知质量评测;但把下游任务从简单的"动作规划"升级到了复杂的"在线策略优化(RL)"。
实验验证(只列最关键的2-3个)
exp1: Visuotactile Evaluation (UniVTAC Sim)
- 设置: 对比加了触觉后的模型在插 HDMI 和提瓶子任务的成功率
- 数据: UniVTAC simulator
- 结论: Wan2.2 加触觉后插 HDMI 成功率达 100%,证明触觉对接触丰富任务至关重要。
exp2: Real-World Evaluation (AgileX ALOHA) - 设置: 在真实机器人上测"倒水"和"擦桌子"任务
- 数据: AgileX Split-Type ALOHA platform
- 结论: 现有模型在仿真里表现尚可,但迁移到真机后成功率断崖式下跌,揭示了巨大的 sim-to-real gap。
同类工作对比
- WorldArena 10 <2026>: v1 版只测视频质量和离线策略,v2.0 升级为在线 RL 训练和真机测试。
- WorldSimBench 7 <2024>: 只关注用视频生成控制信号,没涉及多模态和真实世界部署。
- UniVTAC 12 <2026>: 提供了触觉数据集,本文基于它构建了标准化的触觉评测流水线。
强相关文献(3篇)
- WorldArena: A unified benchmark for evaluating perception and functional utility of embodied world models <2026>
- UniVTAC: A unified simulation platform for visuo-tactile manipulation data generation, learning, and benchmarking <2026>
- WorldSimBench: Towards video generation models as world simulators <2024>
局限与适用边界
目前真实世界任务成功率普遍偏低,模型还撑不起直接部署;现阶段最适合用来筛选有潜力的模型架构,或者做仿真内的算法验证。