【智能体系统AgentOS】核心21:VLA和WMA

VLA 模型其核心目标是让机器人像大模型理解文本一样理解环境,并直接输出可执行动作,实现"看懂世界 → 理解指令 → 完成操作"的闭环。

VLA=输入(图像/视频、语言指令、机器人状态)+视觉编码器,多模态大模型,动作解码器+机器人控制指令。其中cross attention是将Q(text)、K(image)、V(image)嵌入实现attention(Q,K,V)。动作解码器主要是文本语义映射到三维空间位置坐标和执行器在三维空间的姿态(偏航角、俯仰角、滚转角)。

WMA 是VLA进一步演化出来的新一代具身智能架构。VLA主要是看到+理解+动作,WMA主要是看到+预测未来世界+动作规划+动作执行。VLA缺乏对未来环境变化的显式预测能力。

WMA=输入(视觉编码器)+潜在状态+世界模型编解码器+未来状态预测+未来状态反馈+动作指令+机器执行

WMA=输入(图像、深度、语言、机器人状态)+世界模型学习(当前状态+动作分析未来状态)+输出(图像、视频、潜在状态)+输出动作解码执行

模块 VLA WMA
Vision
Language
Action
World Model
Future Prediction
Long-horizon Planning 一般
Simulation Capability

VLA关注"现在该做什么",而WMA关注"做完之后世界会变成什么样,再决定该做什么"。

因此,WMA本质上是在 VLA + World Model + Future Prediction + Planning 的基础上构建的新一代机器人基础模型架构,被许多研究者视为通向通用机器人(AGI Robot)的关键路线。

相关推荐
Bingorl1 小时前
机器学习之KNN算法
人工智能·算法·机器学习
Coder小相1 小时前
LangChain 1.0 第六篇 - 从Prompt模板到角色设计
人工智能·agent·ai编程
kcuwu.1 小时前
FastText文本分类全流程实战技术博客
人工智能·分类·数据挖掘
Agilex松灵机器人1 小时前
IsaacLab机械臂数据采集教程:实现松灵7轴机械臂键盘控制与遥操作!
人工智能·仿真·具身智能·isaaclab·松灵机器人·松灵机械臂
oort1231 小时前
VLStream 全开源可私有化的AI视频平台 真能解决传统项目的痛点吗? 太实用了
人工智能·开源·音视频
ZFSS1 小时前
Claude.ai 与 Kling MCP 的集成教程
人工智能·ai·ai作画·ai编程·ai写作
万岳科技程序员小金1 小时前
从0到1搭建企业内训平台:教育培训系统源码开发实践
大数据·人工智能
YOLO数据集集合1 小时前
无人机低空街景语义分割数据集|4K航拍|城市巡检|深度学习视觉任务数据集
人工智能·深度学习·yolo·目标检测·无人机
张祥前世界大同1 小时前
计立伟矢量光速螺旋时空归一化体系精简阅读指南
大数据·人工智能·时序数据库