WAM + 世界模拟器:具身智能世界模型的双引擎架构

在近期公布的CVPR 2026 WorldArena世界模型赛道评测中,智元(Agibot)自研的Genie Envisioner 2.0(GE 2.0)获得总分第一。

2025 年,智元落地开源世界模型平台 Genie Envisioner,率先实现机器人跨视觉、语言、动作统一建模,迈出机器理解真实物理世界的关键一步。时隔一年,Genie Envisioner World Simulator 2.0(GE 2.0)正式亮相,不再局限于"描述世界、预测画面",而是升级为可运行、可交互、可训练的虚拟世界本体。GE 2.0 并非单纯的视频生成模型,而是一套专为机器人设计的闭环视频世界模拟器,旨在为具身智能打造一个可供训练、学习与进化的"物理进化引擎"。

技术路线:"世界动作模型"+"世界模拟器"双主线研发架构

世界模型是具身智能系统理解物理世界、预测动作后果并支撑自主决策的重要技术底座。与通用视频生成模型不同,机器人所需要的世界模型并不只是生成"看起来真实"的画面,而是要能够回答一个更关键的问题:当机器人执行某个动作后,环境会如何变化,变化后的环境又将如何影响下一步决策。

在智元的技术路径里,世界模型是沿着两条主线生长:

  • 一条是世界动作模型(World Action Model,简称WAM),专注于动作表征的深度建模;
  • 另一条是世界模拟器(World Simulator),负责打造一个可交互、可推演、可训练的完整环境。

其中,WAM负责内在动作表征与因果推演,世界模拟器负责搭建可交互虚拟训练场,二者协同完成世界模型从 "描述世界" 到 "构筑世界" 的关键质变。

1)WAM:构建具身智能内在 "物理沙盘",实现先预判、后行动

传统世界模型主要对环境状态进行建模,而WAM将机器人动作作为影响世界演化的核心变量,建模"当前环境 → 机器人动作 → 环境变化 → 环境反馈"的完整闭环。其目标是让模型不仅预测画面,更能理解动作如何改变物理世界,以及变化后的环境如何反向修正动作策略,进而从底层补齐具身智能因果推理能力,支撑长时序连续决策与闭环自主学习。

2)世界模拟器:从表征推演到构建实体世界,构建完整落地闭环

在此之前,智元一直在基于世界模型进行探索,已陆续推出EnerVerse(4D世界模型)、GE-Act(动作轨迹生成) 和 Act2Goal(目标驱动长程控制) 等技术模块。这些探索,使得智元的世界模型具备了承载动作策略的能力。

但在实际落地中,智元发现仅靠底层世界动作模型(World Action Model,WAM)的动作建模能力,仍难以支撑完整的机器人系统:策略训练高度依赖真实环境,评估成本高昂,高质量数据的获取与扩展始终是瓶颈。

换言之,世界模型不应只描述世界,而应成为一个可以被使用、被交互、被训练的世界本身。基于这一思路,智元在强化WAM 建模能力的同时,同步推动世界模型走向可交互的模拟器能力:

  • EnerVerse-AC 引入动作条件化世界建模,使模型能基于动作推演未来;
  • Genie Envisioner Sim(GE 1.0) 构建可用于策略闭环评估的神经模拟器;
  • EWMBench 从场景一致性、动作正确性与语义对齐等维度,系统评估世界模型的模拟能力。

一套全新的数据与训练范式也随之建立。智元提出Real2Edit2Real 流程,真实数据不再只是被动采集,而是成为可被模型扩展与编辑的基础,从而显著提升数据规模与多样性。

由此,世界模型完成了一次本质跃迁:从表征模型演进为具备环境级能力的系统基础设施。GE 2.0 不再只是一个生成模型,而是一个可被使用的系统------一个真正意义上的"可操作世界"。

"三重跃迁"重塑具身智能机器人商业化落地逻辑

1)能力跃迁:长时序自主进化,突破传统机器人任务边界

WAM 打通状态---动作---环境反馈全链路建模,搭配记忆架构,能记住多步历史动作、约束后续环境变化,从算法层面支撑分钟级长链条任务推理、长程目标规划,持续自主进化通用操作能力。

2)成本跃迁:虚拟试错替代真机调试,大幅压缩机器人研发落地成本

依托GE-SIM 2.0 搭建的高保真虚拟世界,机器人策略试错、算法迭代可部分在世界模拟器完成,在不远的将来,极大可能实现不占用产线、样机、人力反复实测,缩短新技能训练周期,显著降低工业、商用机器人落地调试成本,从根本上解决机器人在现实世界中的泛化问题。

3)生态跃迁:开源底座赋能全行业,打开具身智能普惠空间

延续2025年Genie Envisioner开源策略,GE 2.0开源开放,降低具身智能研发门槛,以底层技术平台带动全产业链协同发展,巩固智元在具身智能世界模型赛道的领先地位。

结语

2026 年被行业视为具身智能"部署态"元年,机器人正从实验室走向工厂、家庭等真实场景。真实场景的持续运行将不断沉淀海量多元数据,转动物理世界的数据飞轮。数据闭环驱动技术进化,使适配落地场景成为世界模型发展的核心方向。

在这一阶段,竞争关键从单一技术突破转向系统性工程化能力,其中数据成为新的核心竞争力。以 GE 2.0 为代表的世界模型,其前沿探索之一正是为破解数据瓶颈提供可行路径------打造一个可供机器人自主训练与进化的"虚拟训练场",并实现数据从仿真到部署的有效回流。

智元以 WAM 与世界模拟器双主线架构,推动 世界模型GE 系列从画面生成迈向实体操控。只有当"数据---仿真---模型---部署"这一闭环飞轮真正转动起来,具身智能的"ChatGPT 时刻"才有可能更快到来。

相关推荐
千里马学框架1 小时前
重学Perfetto浏览器在线抓取trace及高频sql分享
android·sql·智能手机·架构·aaos·perfetto·车机
睡不醒男孩0308231 小时前
第十篇:PostgreSQL 生产环境高可用选型:CLUP 与 Patroni 深度架构对比与踩坑实录
数据库·postgresql·架构
doiito1 小时前
【Agent Harness实战】我让 Agent 的上下文“瘦身”成功,Token 省了,记忆反而更好了
人工智能·架构
Hello:CodeWorld2 小时前
AI Agent:从核心原理、架构框架到工程实战,大模型时代的自主智能革命
大数据·人工智能·python·架构
故渊at2 小时前
第七板块:Android 存储体系与文件系统 | 第二十一篇:Vold 与 FUSE 存储架构
android·架构·文件系统·fuse·vold·存储体系
小短腿的代码世界2 小时前
Qt Quick 3D场景导入与渲染架构深度解析:从USD到PBR材质的完整管线
qt·3d·架构
段一凡-华北理工大学2 小时前
工业领域的Hadoop架构学习~系列文章24:adoop工业应用总结与展望 - 技术路线图与最佳实践
大数据·人工智能·hadoop·分布式·学习·架构·高炉炼铁
小短腿的代码世界2 小时前
Qt文本布局引擎深度解析:从QTextDocument排版到渲染的完整架构
开发语言·qt·架构
heimeiyingwang2 小时前
【架构实战】注册中心选型:Nacos vs Eureka vs Consul
微服务·云原生·架构