VLA 模型其核心目标是让机器人像大模型理解文本一样理解环境,并直接输出可执行动作,实现"看懂世界 → 理解指令 → 完成操作"的闭环。
VLA=输入(图像/视频、语言指令、机器人状态)+视觉编码器,多模态大模型,动作解码器+机器人控制指令。其中cross attention是将Q(text)、K(image)、V(image)嵌入实现attention(Q,K,V)。动作解码器主要是文本语义映射到三维空间位置坐标和执行器在三维空间的姿态(偏航角、俯仰角、滚转角)。
WMA 是VLA进一步演化出来的新一代具身智能架构。VLA主要是看到+理解+动作,WMA主要是看到+预测未来世界+动作规划+动作执行。VLA缺乏对未来环境变化的显式预测能力。
WMA=输入(视觉编码器)+潜在状态+世界模型编解码器+未来状态预测+未来状态反馈+动作指令+机器执行
WMA=输入(图像、深度、语言、机器人状态)+世界模型学习(当前状态+动作分析未来状态)+输出(图像、视频、潜在状态)+输出动作解码执行
| 模块 | VLA | WMA |
|---|---|---|
| Vision | ✓ | ✓ |
| Language | ✓ | ✓ |
| Action | ✓ | ✓ |
| World Model | ✗ | ✓ |
| Future Prediction | ✗ | ✓ |
| Long-horizon Planning | 一般 | 强 |
| Simulation Capability | 无 | 有 |
VLA关注"现在该做什么",而WMA关注"做完之后世界会变成什么样,再决定该做什么"。
因此,WMA本质上是在 VLA + World Model + Future Prediction + Planning 的基础上构建的新一代机器人基础模型架构,被许多研究者视为通向通用机器人(AGI Robot)的关键路线。