在近期公布的CVPR 2026 WorldArena世界模型赛道评测中,智元(Agibot)自研的Genie Envisioner 2.0(GE 2.0)获得总分第一。
2025 年,智元落地开源世界模型平台 Genie Envisioner,率先实现机器人跨视觉、语言、动作统一建模,迈出机器理解真实物理世界的关键一步。时隔一年,Genie Envisioner World Simulator 2.0(GE 2.0)正式亮相,不再局限于"描述世界、预测画面",而是升级为可运行、可交互、可训练的虚拟世界本体。GE 2.0 并非单纯的视频生成模型,而是一套专为机器人设计的闭环视频世界模拟器,旨在为具身智能打造一个可供训练、学习与进化的"物理进化引擎"。
技术路线:"世界动作模型"+"世界模拟器"双主线研发架构
世界模型是具身智能系统理解物理世界、预测动作后果并支撑自主决策的重要技术底座。与通用视频生成模型不同,机器人所需要的世界模型并不只是生成"看起来真实"的画面,而是要能够回答一个更关键的问题:当机器人执行某个动作后,环境会如何变化,变化后的环境又将如何影响下一步决策。
在智元的技术路径里,世界模型是沿着两条主线生长:
- 一条是世界动作模型(World Action Model,简称WAM),专注于动作表征的深度建模;
- 另一条是世界模拟器(World Simulator),负责打造一个可交互、可推演、可训练的完整环境。
其中,WAM负责内在动作表征与因果推演,世界模拟器负责搭建可交互虚拟训练场,二者协同完成世界模型从 "描述世界" 到 "构筑世界" 的关键质变。
1)WAM:构建具身智能内在 "物理沙盘",实现先预判、后行动
传统世界模型主要对环境状态进行建模,而WAM将机器人动作作为影响世界演化的核心变量,建模"当前环境 → 机器人动作 → 环境变化 → 环境反馈"的完整闭环。其目标是让模型不仅预测画面,更能理解动作如何改变物理世界,以及变化后的环境如何反向修正动作策略,进而从底层补齐具身智能因果推理能力,支撑长时序连续决策与闭环自主学习。

2)世界模拟器:从表征推演到构建实体世界,构建完整落地闭环
在此之前,智元一直在基于世界模型进行探索,已陆续推出EnerVerse(4D世界模型)、GE-Act(动作轨迹生成) 和 Act2Goal(目标驱动长程控制) 等技术模块。这些探索,使得智元的世界模型具备了承载动作策略的能力。
但在实际落地中,智元发现仅靠底层世界动作模型(World Action Model,WAM)的动作建模能力,仍难以支撑完整的机器人系统:策略训练高度依赖真实环境,评估成本高昂,高质量数据的获取与扩展始终是瓶颈。
换言之,世界模型不应只描述世界,而应成为一个可以被使用、被交互、被训练的世界本身。基于这一思路,智元在强化WAM 建模能力的同时,同步推动世界模型走向可交互的模拟器能力:
- EnerVerse-AC 引入动作条件化世界建模,使模型能基于动作推演未来;
- Genie Envisioner Sim(GE 1.0) 构建可用于策略闭环评估的神经模拟器;
- EWMBench 从场景一致性、动作正确性与语义对齐等维度,系统评估世界模型的模拟能力。

一套全新的数据与训练范式也随之建立。智元提出Real2Edit2Real 流程,真实数据不再只是被动采集,而是成为可被模型扩展与编辑的基础,从而显著提升数据规模与多样性。
由此,世界模型完成了一次本质跃迁:从表征模型演进为具备环境级能力的系统基础设施。GE 2.0 不再只是一个生成模型,而是一个可被使用的系统------一个真正意义上的"可操作世界"。

"三重跃迁"重塑具身智能机器人商业化落地逻辑
1)能力跃迁:长时序自主进化,突破传统机器人任务边界
WAM 打通状态---动作---环境反馈全链路建模,搭配记忆架构,能记住多步历史动作、约束后续环境变化,从算法层面支撑分钟级长链条任务推理、长程目标规划,持续自主进化通用操作能力。
2)成本跃迁:虚拟试错替代真机调试,大幅压缩机器人研发落地成本
依托GE-SIM 2.0 搭建的高保真虚拟世界,机器人策略试错、算法迭代可部分在世界模拟器完成,在不远的将来,极大可能实现不占用产线、样机、人力反复实测,缩短新技能训练周期,显著降低工业、商用机器人落地调试成本,从根本上解决机器人在现实世界中的泛化问题。
3)生态跃迁:开源底座赋能全行业,打开具身智能普惠空间
延续2025年Genie Envisioner开源策略,GE 2.0开源开放,降低具身智能研发门槛,以底层技术平台带动全产业链协同发展,巩固智元在具身智能世界模型赛道的领先地位。
结语
2026 年被行业视为具身智能"部署态"元年,机器人正从实验室走向工厂、家庭等真实场景。真实场景的持续运行将不断沉淀海量多元数据,转动物理世界的数据飞轮。数据闭环驱动技术进化,使适配落地场景成为世界模型发展的核心方向。
在这一阶段,竞争关键从单一技术突破转向系统性工程化能力,其中数据成为新的核心竞争力。以 GE 2.0 为代表的世界模型,其前沿探索之一正是为破解数据瓶颈提供可行路径------打造一个可供机器人自主训练与进化的"虚拟训练场",并实现数据从仿真到部署的有效回流。
智元以 WAM 与世界模拟器双主线架构,推动 世界模型GE 系列从画面生成迈向实体操控。只有当"数据---仿真---模型---部署"这一闭环飞轮真正转动起来,具身智能的"ChatGPT 时刻"才有可能更快到来。