【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试

快速了解部分

基础信息:

  1. 题目: WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform
  2. 时间: 2026.05
  3. 机构: THU
  4. 3个英文关键词: World Model, Embodied Intelligence, Benchmark

1句话通俗总结

通过把评测标准从"光看视频像不像"升级到"多模态感知+真动手干活+现实世界测试",逼出真正能用的具身世界模型。

研究痛点

现有评测只看模型生成的视频画面是否逼真,导致模型"眼高手低":视频看着很真,但机器人拿它练不出真本事,一到现实世界就抓瞎。

核心方法

搞个新评测基准 WorldArena 2.0,在三个维度动刀:加触觉(Visuotactile)、让模型当训练场(Interactive RL Env)、以及必须去真实机器人上跑(Real-World)。

深入了解部分

作者核心主张

别再只盯着视频生成质量了,评测世界模型的唯一标准,应该是它能不能帮机器人在真实世界里把活干成。

创新本质

相比 SOTA,真正新在"功能定义"和"评测平台":把世界模型从单纯的"视频预测器"重新定义为"可交互的强化学习环境"。

方法直觉解释

输入是视觉画面+触觉信号,模型不仅要预测下一帧画面,还要能被策略网络反复调用进行"脑内模拟训练",最后把练好的策略直接部署到真实机械臂上跑任务。

关键实现细节

  1. 触觉注入:用 Tactile VAE 把触觉数据编码进视频 latent space,不改原模型架构直接插件式升级。
  2. 闭环 RL 评测:用世界模型替代 simulator 训练策略(如 GRPO 算法),看策略迁移到真机后的成功率。

技术传承

继承自 WorldArena (v1),保留了感知质量评测;但把下游任务从简单的"动作规划"升级到了复杂的"在线策略优化(RL)"。

实验验证(只列最关键的2-3个)

exp1: Visuotactile Evaluation (UniVTAC Sim)

  • 设置: 对比加了触觉后的模型在插 HDMI 和提瓶子任务的成功率
  • 数据: UniVTAC simulator
  • 结论: Wan2.2 加触觉后插 HDMI 成功率达 100%,证明触觉对接触丰富任务至关重要。
    exp2: Real-World Evaluation (AgileX ALOHA)
  • 设置: 在真实机器人上测"倒水"和"擦桌子"任务
  • 数据: AgileX Split-Type ALOHA platform
  • 结论: 现有模型在仿真里表现尚可,但迁移到真机后成功率断崖式下跌,揭示了巨大的 sim-to-real gap。

同类工作对比

  • WorldArena 10 <2026>: v1 版只测视频质量和离线策略,v2.0 升级为在线 RL 训练和真机测试。
  • WorldSimBench 7 <2024>: 只关注用视频生成控制信号,没涉及多模态和真实世界部署。
  • UniVTAC 12 <2026>: 提供了触觉数据集,本文基于它构建了标准化的触觉评测流水线。

强相关文献(3篇)

  • WorldArena: A unified benchmark for evaluating perception and functional utility of embodied world models <2026>
  • UniVTAC: A unified simulation platform for visuo-tactile manipulation data generation, learning, and benchmarking <2026>
  • WorldSimBench: Towards video generation models as world simulators <2024>

局限与适用边界

目前真实世界任务成功率普遍偏低,模型还撑不起直接部署;现阶段最适合用来筛选有潜力的模型架构,或者做仿真内的算法验证。

相关推荐
蝎子莱莱爱打怪8 小时前
Claude Code 官宣新升级:子智能体默认后台跑,你边聊它边干活
人工智能
甲维斯8 小时前
最佳work模型sonnet5来了,直接就能用!
人工智能
IT_陈寒9 小时前
React hooks 闭包陷阱把我的状态吃掉了,原来问题出在这里
前端·人工智能·后端
冬奇Lab21 小时前
Workflow 系列(03):状态管理——持久化、幂等性与版本绑定
人工智能·工作流引擎
冬奇Lab21 小时前
每日一个开源项目(第146篇):openpilot - 开源自动驾驶辅助系统,曾在 Consumer Reports 评测中超过特斯拉 Autopilot
人工智能·开源·自动驾驶
吴佳浩1 天前
AI 工程师知识地图:模型格式、框架、部署工具一次讲明白
人工智能·aigc·ai编程
IT_陈寒1 天前
Java的Date类又坑了我一次,改用时间戳真香
前端·人工智能·后端
码农胖大海1 天前
AI额度不够用的解决方案
人工智能