WAM与AC-WM:具身智能时代的世界动作模型与动作条件世界模型

学习资料:https://zhuanlan.zhihu.com/p/2017556285294405036

在具身AI(Embodied AI)和机器人领域,世界模型(World Model) 正成为推动通用机器人发展的核心技术。它让智能体不再只是"看一眼就行动",而是像人类一样,在脑海中"模拟"未来可能发生的情况,再决定下一步动作。近年来,这一领域涌现出两种重要范式:WAM(World Action Model,世界动作模型)AC-WM(Action-Conditioned World Model,动作条件世界模型)。两者都以视频或视觉预测为核心,但架构、输入输出和使用方式存在显著差异。本文将系统介绍它们的定义、原理、优缺点及应用前景。

1. 什么是世界模型?为什么需要WAM和AC-WM?

传统**Vision-Language-Action (VLA)**模型直接从图像+语言指令预测动作,擅长语义理解,但对物理动态(如物体碰撞、摩擦、变形)的泛化能力较弱。世界模型则通过学习"未来预测"来弥补这一短板:它模拟环境如何随动作变化,从而支持规划、策略学习和零样本泛化。

  • AC-WM(动作条件世界模型):传统世界模型的代表形式。
  • WAM(世界动作模型):新兴统一框架,将"世界预测"和"动作生成"深度融合,常基于大规模预训练视频扩散模型。

两者都源于视频生成技术,但解决的问题侧重点不同:AC-WM更像"模拟器",WAM更像"自带策略的物理引擎"。

2. AC-WM:动作作为输入的"未来模拟器"

AC-WM 的核心是**动作条件化(Action-Conditioned)**预测。其输入-输出结构通常为:

  • 输入 :当前机器人观察(图像/视频帧) + 未来动作序列(例如接下来几步的末端执行器位姿、关节角或控制命令)。
  • 输出:对应的未来视觉序列(视频帧)、状态变化或接触图等。

典型工作流程:研究者或策略模块先提出一组候选动作,AC-WM则"滚出(rollout)"这些动作会导致的视觉后果,用于评估、规划或训练策略。这本质上是前向动态模型(Forward Dynamics),让智能体在想象空间中测试不同动作的风险和收益。

优势

  • 直观且理论清晰:动作是明确的条件,预测结果高度可控。
  • 适合规划任务:可与采样-based规划(如Model Predictive Control)结合,生成多条轨迹并挑选最优。
  • 在移动机器人、导航和社会导航中表现突出(如MWM等移动世界模型)。

局限

  • 需要高质量的动作提案(action proposal)。如果提案生成器弱,模拟效果再好也无用。
  • 测试时必须先想好动作再模拟,无法直接输出动作序列。
  • 对长时序预测易积累误差,尤其在接触密集或非结构化环境中。

代表性工作包括各种Action-Conditioned Video Prediction模型,以及近期MWM(Mobile World Models)等,它们通过结构预训练+动作条件一致性(ACC)后训练,提升了滚出一致性。

3. WAM:联合建模的"零样本策略"

WAM(World Action Model) 则将世界建模与动作建模统一在一个框架中。它不再把动作单纯当作"输入",而是让模型同时学习"未来视觉如何演化"和"机器人应该采取什么动作"。典型架构基于预训练视频扩散模型(如DiT或autoregressive扩散),通过联合去噪或共享注意力机制,同时预测视频帧和动作token。

核心特点(以DreamZero和Fast-WAM为例):

  • 输入:当前观察 + 语言目标(或无条件/文本提示)。
  • 输出 :未来视频序列 动作序列(或直接用于闭环控制的动作)。
  • 训练方式:利用异构机器人数据(甚至人类/其他机器人视频)联合优化视频预测和动作预测目标。视频作为"稠密监督信号",帮助模型习得物理 priors;动作则作为策略输出。

许多WAM采用imagine-then-execute范式:先在脑海中"想象"未来视频(条件于潜在动作),再从中解码或精炼动作。但最新研究(如Fast-WAM)发现,测试时显式生成未来视频未必必要------训练阶段的视频共同训练已足以注入强物理表示,推理时可直接跳过想象,极大降低延迟(从秒级降至190ms,实时7Hz+)。

优势

  • 零样本与泛化能力强:DreamZero等模型在真实机器人实验中,对新任务/新环境的泛化性能比SOTA VLA提升2倍以上;支持跨具身转移(cross-embodiment),只需10-30分钟异构数据即可适配新机器人。
  • 数据效率高:充分利用海量互联网/视频数据预训练,减少对昂贵机器人示范数据的依赖。
  • 闭环控制友好:可直接作为策略使用,无需额外规划器;支持文本提示生成多样动作。
  • 物理直觉更丰富:联合训练让模型同时掌握"世界如何变化"和"如何行动"。

局限

  • 早期版本测试时延迟较高(迭代去噪)。
  • 视频预测误差可能传播到动作解码(不过Fast-WAM等已缓解)。
  • 架构更复杂,需要大规模预训练 backbone。

代表性模型:DreamZero(基于14B视频扩散,实现7Hz实时控制)、Fast-WAM(无需测试时想象)、Motus、GigaWorld-Policy等。

4. WAM vs AC-WM:如何选择?

维度 AC-WM(动作条件世界模型) WAM(世界动作模型)
输入 当前观察 + 未来动作序列 当前观察 + 语言/目标(动作作为输出)
输出 未来视频/状态(模拟后果) 未来视频 + 动作序列(或直接动作)
角色 "模拟器"------用于规划和评估 "策略+模拟器"------直接生成动作并理解动态
优势场景 需要精确动作提案的规划任务(如导航) 零样本、跨具身、长时序泛化(如通用操作)
延迟 较低(无需生成视频即可评估动作) 传统较高,但Fast-WAM等已实时
数据需求 依赖高质量动作标签 可利用视频-only数据,效率更高
泛化 物理动态好,但依赖动作生成器 整体更强,尤其新环境/新物体
相关推荐
uzong2 小时前
AI Agent 是什么,如何理解它,未来挑战和思考
人工智能·后端·架构
2401_895521342 小时前
spring-ai 下载不了依赖spring-ai-openai-spring-boot-starter
java·人工智能·spring
冬奇Lab2 小时前
从 Prompt 工程师到 Harness 工程师:AI 协作范式的三次进化
人工智能
jixinghuifu2 小时前
理性权衡:手机系统更新,别盲目也别抗拒
人工智能·安全·智能手机
LJ97951112 小时前
从被动救火到主动防御:Infoseek舆情监测系统的技术架构与实战拆解
人工智能
CareyWYR3 小时前
每周AI论文速递(260323-260327)
人工智能
薛先生_0993 小时前
js学习语法第一天
开发语言·javascript·学习
guoji77883 小时前
安全与对齐的深层博弈:Gemini 3.1 Pro 安全护栏与对抗测试深度拆解
人工智能·安全
实在智能RPA3 小时前
实在 Agent 和通用大模型有什么不一样?深度拆解 AI Agent 的感知、决策与执行逻辑
人工智能·ai