【智能体系统AgentOS】核心21:VLA和WMA

VLA 模型其核心目标是让机器人像大模型理解文本一样理解环境,并直接输出可执行动作,实现"看懂世界 → 理解指令 → 完成操作"的闭环。

VLA=输入(图像/视频、语言指令、机器人状态)+视觉编码器,多模态大模型,动作解码器+机器人控制指令。其中cross attention是将Q(text)、K(image)、V(image)嵌入实现attention(Q,K,V)。动作解码器主要是文本语义映射到三维空间位置坐标和执行器在三维空间的姿态(偏航角、俯仰角、滚转角)。

WMA 是VLA进一步演化出来的新一代具身智能架构。VLA主要是看到+理解+动作,WMA主要是看到+预测未来世界+动作规划+动作执行。VLA缺乏对未来环境变化的显式预测能力。

WMA=输入(视觉编码器)+潜在状态+世界模型编解码器+未来状态预测+未来状态反馈+动作指令+机器执行

WMA=输入(图像、深度、语言、机器人状态)+世界模型学习(当前状态+动作分析未来状态)+输出(图像、视频、潜在状态)+输出动作解码执行

模块 VLA WMA
Vision
Language
Action
World Model
Future Prediction
Long-horizon Planning 一般
Simulation Capability

VLA关注"现在该做什么",而WMA关注"做完之后世界会变成什么样,再决定该做什么"。

因此,WMA本质上是在 VLA + World Model + Future Prediction + Planning 的基础上构建的新一代机器人基础模型架构,被许多研究者视为通向通用机器人(AGI Robot)的关键路线。

相关推荐
ZzT2 小时前
怎么做才不会被 AI 替代?
人工智能·程序员
道友可好2 小时前
从今天开始:你的第一个 Harness Engineering 实践
前端·人工智能·后端
小姜前线技术3 小时前
AI回答代码块高亮加一键复制
人工智能
洛阳泰山3 小时前
从 0 到 1.6K Star:一个 Java 开源项目的增长复盘
人工智能·后端·开源
米小虾4 小时前
Agent Skill 设计模式完全指南
人工智能·agent
饼干哥哥4 小时前
保姆级教程:用Image2 + Seedance2.0 做长视频,以品牌广告为例
人工智能
米小虾5 小时前
Agent Skill 规范与 Skill-Creator 核心思想
人工智能·agent
ZhengEnCi5 小时前
09e-斯坦福CS336作业四:大规模语言模型训练数据收集与处理
人工智能
oil欧哟5 小时前
Codex 最佳实践(超级长文):先搞懂 AI,再用好 AI
前端·人工智能·后端
甲维斯5 小时前
日本发布比肩Fable5的模型?Fugu Ultra初探!
人工智能·ai编程