【论文阅读】WorldArena 2.0:扩展具身世界模型在模态性、功能性与平台上的基准测试

快速了解部分

基础信息:

  1. 题目: WorldArena 2.0: Extending Embodied World Model Benchmarking on Modality, Functionality and Platform
  2. 时间: 2026.05
  3. 机构: THU
  4. 3个英文关键词: World Model, Embodied Intelligence, Benchmark

1句话通俗总结

通过把评测标准从"光看视频像不像"升级到"多模态感知+真动手干活+现实世界测试",逼出真正能用的具身世界模型。

研究痛点

现有评测只看模型生成的视频画面是否逼真,导致模型"眼高手低":视频看着很真,但机器人拿它练不出真本事,一到现实世界就抓瞎。

核心方法

搞个新评测基准 WorldArena 2.0,在三个维度动刀:加触觉(Visuotactile)、让模型当训练场(Interactive RL Env)、以及必须去真实机器人上跑(Real-World)。

深入了解部分

作者核心主张

别再只盯着视频生成质量了,评测世界模型的唯一标准,应该是它能不能帮机器人在真实世界里把活干成。

创新本质

相比 SOTA,真正新在"功能定义"和"评测平台":把世界模型从单纯的"视频预测器"重新定义为"可交互的强化学习环境"。

方法直觉解释

输入是视觉画面+触觉信号,模型不仅要预测下一帧画面,还要能被策略网络反复调用进行"脑内模拟训练",最后把练好的策略直接部署到真实机械臂上跑任务。

关键实现细节

  1. 触觉注入:用 Tactile VAE 把触觉数据编码进视频 latent space,不改原模型架构直接插件式升级。
  2. 闭环 RL 评测:用世界模型替代 simulator 训练策略(如 GRPO 算法),看策略迁移到真机后的成功率。

技术传承

继承自 WorldArena (v1),保留了感知质量评测;但把下游任务从简单的"动作规划"升级到了复杂的"在线策略优化(RL)"。

实验验证(只列最关键的2-3个)

exp1: Visuotactile Evaluation (UniVTAC Sim)

  • 设置: 对比加了触觉后的模型在插 HDMI 和提瓶子任务的成功率
  • 数据: UniVTAC simulator
  • 结论: Wan2.2 加触觉后插 HDMI 成功率达 100%,证明触觉对接触丰富任务至关重要。
    exp2: Real-World Evaluation (AgileX ALOHA)
  • 设置: 在真实机器人上测"倒水"和"擦桌子"任务
  • 数据: AgileX Split-Type ALOHA platform
  • 结论: 现有模型在仿真里表现尚可,但迁移到真机后成功率断崖式下跌,揭示了巨大的 sim-to-real gap。

同类工作对比

  • WorldArena 10 <2026>: v1 版只测视频质量和离线策略,v2.0 升级为在线 RL 训练和真机测试。
  • WorldSimBench 7 <2024>: 只关注用视频生成控制信号,没涉及多模态和真实世界部署。
  • UniVTAC 12 <2026>: 提供了触觉数据集,本文基于它构建了标准化的触觉评测流水线。

强相关文献(3篇)

  • WorldArena: A unified benchmark for evaluating perception and functional utility of embodied world models <2026>
  • UniVTAC: A unified simulation platform for visuo-tactile manipulation data generation, learning, and benchmarking <2026>
  • WorldSimBench: Towards video generation models as world simulators <2024>

局限与适用边界

目前真实世界任务成功率普遍偏低,模型还撑不起直接部署;现阶段最适合用来筛选有潜力的模型架构,或者做仿真内的算法验证。

相关推荐
chen_zn952 小时前
GR00T N1.7源码学习(一):工程入口、模型结构与动作生成流程解析
深度学习·具身智能·vla·流匹配
薛定猫AI2 小时前
【深度解析】ChatGPT vs Claude vs Gemini:2026年AI大模型选型全景对比
大数据·网络·人工智能
HIT_Weston2 小时前
112、【Agent】【OpenCode】Skill 工具提示词
人工智能·agent·opencode
A小码哥2 小时前
DeepSeek 大模型落地应用与场景探讨
人工智能
HIT_Weston2 小时前
111、【Agent】【OpenCode】todowrite 工具提示词(完结)
人工智能·agent·opencode
亦暖筑序2 小时前
Java 8老系统AI工具接入:API包装成受控工具,只读优先+权限拦截
java·人工智能·aigc·企业架构·mcp协议
2401_885665192 小时前
从神经元到BP反向传播,零基础吃透神经网络底层原理
人工智能·python·深度学习·神经网络·opencv
safium2 小时前
停车设备 OEM 供应商选型:从硬件到运营能力的综合考量
大数据·人工智能
山居秋暝LS2 小时前
【无标题】
人工智能·深度学习