【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试

快速了解部分

题目: WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform
时间: 2026.05
机构: THU
3个英文关键词: World Model, Embodied Intelligence, Benchmark

通过把评测标准从"光看视频像不像"升级到"多模态感知+真动手干活+现实世界测试"，逼出真正能用的具身世界模型。

现有评测只看模型生成的视频画面是否逼真，导致模型"眼高手低"：视频看着很真，但机器人拿它练不出真本事，一到现实世界就抓瞎。

搞个新评测基准 WorldArena 2.0，在三个维度动刀：加触觉（Visuotactile）、让模型当训练场（Interactive RL Env）、以及必须去真实机器人上跑（Real-World）。

别再只盯着视频生成质量了，评测世界模型的唯一标准，应该是它能不能帮机器人在真实世界里把活干成。

相比 SOTA，真正新在"功能定义"和"评测平台"：把世界模型从单纯的"视频预测器"重新定义为"可交互的强化学习环境"。

输入是视觉画面+触觉信号，模型不仅要预测下一帧画面，还要能被策略网络反复调用进行"脑内模拟训练"，最后把练好的策略直接部署到真实机械臂上跑任务。

继承自 WorldArena (v1)，保留了感知质量评测；但把下游任务从简单的"动作规划"升级到了复杂的"在线策略优化（RL）"。

exp1: Visuotactile Evaluation (UniVTAC Sim)

设置: 对比加了触觉后的模型在插 HDMI 和提瓶子任务的成功率
数据: UniVTAC simulator
结论: Wan2.2 加触觉后插 HDMI 成功率达 100%，证明触觉对接触丰富任务至关重要。
exp2: Real-World Evaluation (AgileX ALOHA)
设置: 在真实机器人上测"倒水"和"擦桌子"任务
数据: AgileX Split-Type ALOHA platform
结论: 现有模型在仿真里表现尚可，但迁移到真机后成功率断崖式下跌，揭示了巨大的 sim-to-real gap。

WorldArena: A unified benchmark for evaluating perception and functional utility of embodied world models <2026>
UniVTAC: A unified simulation platform for visuo-tactile manipulation data generation, learning, and benchmarking <2026>
WorldSimBench: Towards video generation models as world simulators <2024>

目前真实世界任务成功率普遍偏低，模型还撑不起直接部署；现阶段最适合用来筛选有潜力的模型架构，或者做仿真内的算法验证。