2026 年具身智能和世界模型领域开源模型爆发,以下按技术路线 + 应用场景双维度分类整理:
一、具身智能(Embodied AI)开源模型
1. VLA 路线(Vision-Language-Action,端到端决策)
| 模型 | 开发方 | 参数/特点 | 开源时间 |
|---|---|---|---|
| Xiaomi-Robotics-0 | 小米 | 47 亿参数,视觉语言理解与实时执行 | 2026.02 |
| Lingbot-VLA | 蚂蚁灵波 | 跨本体泛化,GM-100 基准成功率 15.7% | 2026.01 |
| UnifoLM-VLA-0 | 宇树科技 | 从图文理解向具身大脑进化 | 2026.01 |
| OpenDriveVLA | 社区 | 面向自动驾驶的 VLA 端到端决策 | --- |
| Octo | 社区 | 通用机器人策略,Open X-Embodiment 数据集训练 | 2024 |
2. 世界模型 + 动作生成(World Model for Robotics)
| 模型 | 开发方 | 核心特点 |
|---|---|---|
| LingBot-VA | 蚂蚁灵波 | 自回归视频-动作世界模型,边推演边行动 |
| GE-2 | AGIBOT | World Action Model,创建交互虚拟世界用于安全策略测试 |
| Kairos3.0-4B | 大晓机器人 | 原生世界模型,极致物理因果一致性,跨本体泛化 |
| DM0 | 原力灵机 | 全球首个具身原生大模型,多源数据预训练+空间推理思维链 |
3. 通用大脑/基础模型
| 模型 | 开发方 | 特点 |
|---|---|---|
| RynnBrain | 阿里达摩院 | 时空记忆+空间推理,16 项评测 SOTA |
| ABot-M0 | 高德 | 600 万+轨迹异构数据集,Action Manifold Learning |
| ACE-Brain-0 | 大晓机器人 | 全球首个空间智能底层框架,跨本体通用 |
| Thinker | 优必选 | 小参数、高性能、全开源,工业人形机器人 |
| RDT2 | RDT 团队 | 未见本体零样本部署 |
| Spirit v1.5 | 千寻智能 | 端到端具身基础模型 |
| GO-2 | AGIBOT | ViLLA Embodied Foundation Model,Action Chain-of-Thought |
二、世界模型(World Models)开源项目
按技术路线分类
路线 1:3D Occupancy 世界模型(自动驾驶主流)
| 项目 | 特点 | 地址 |
|---|---|---|
| OccWorld | 3D occupancy 预测未来场景,自监督训练,接近 Tesla Occupancy Network 路线 | wzzheng/OccWorld |
| Drive-OccWorld | 4D occupancy + action-conditioned generation,可直接接 planner | drive-occworld.github.io |
| 百度 BEVWorld | 多传感器 BEV 潜在空间融合,8 路摄像头+激光雷达+毫米波雷达 | 2026.02 开源 |
路线 2:Video / Generative 世界模型(生成式路线)
| 项目 | 特点 | 地址 |
|---|---|---|
| NVIDIA Cosmos | 物理 AI 基础模型,4B-14B 参数,<100ms 推理延迟,含 Predict/Transfer/Reason 三组件 | NVIDIA/cosmos |
| LingBot-World | 实时交互 3D 环境生成,16 FPS、10+ 分钟一致性,对标 Google Genie 3 | AntGroup/LingBot-World |
| DrivingWorld | Video GPT 架构,生成 40 秒未来驾驶视频 | huxiaotaostasy.github.io/DrivingWorld |
| Matrix-Game 2.0 | 3D causal VAE + DiT,实时 25 FPS,分钟级视频,动作注入模块 | matrix-game-v2/code |
| MineWorld | Minecraft 视觉-动作自回归 Transformer,VQ-VAE token 化 | aka.ms/mineworld |
路线 3:Latent / RSSM 世界模型(强化学习路线)
| 项目 | 特点 | 地址 |
|---|---|---|
| Dreamer / DreamerV3 | RSSM 循环状态空间模型,潜在想象用于闭环规划 | danijar/dreamer, google-research/dreamerv3 |
| CarDreamer | 自动驾驶 RL 训练平台,集成 DreamerV2/V3,Gym 接口 | ucd-dare/cardreamer |
| Humanoid World Models (HWM) | 人形机器人第一视角视频预测,Masked Transformer + Flow-Matching,1-2 GPU 可训练 | 1x-technologies/humanoid-world-models |
路线 4:Web / 通用世界模型
| 项目 | 特点 | 地址 |
|---|---|---|
| Web World Models | 网页规模世界,面向 LLM 语言 Agent | princeton-ai2-lab/Web-World-Models |
| Meta V-JEPA 2 | 视觉世界模型,对比学习视觉表示,零样本控制 | 2025.06 开源 |
| 智源"悟界" | 物理交互世界模型,轻量边缘部署 | --- |
三、怎么分类看这些模型?
建议用三维坐标系来理解和选型:
生成质量高
↑
Video/Generative │ Latent/RSSM
(Cosmos/DrivingWorld) (Dreamer/CarDreamer)
│
自动驾驶 ←─────────────┼─────────────→ 机器人/通用
│
3D Occupancy │ VLA/Embodied
(OccWorld/BEVWorld) (Octo/GO-2/Lingbot-VLA)
↓
控制精度高
维度 1:应用场景
| 场景 | 推荐路线 | 代表模型 |
|---|---|---|
| 自动驾驶 | 3D Occupancy / BEV | OccWorld、BEVWorld、Cosmos |
| 机器人操作 | VLA + World Model | Octo、GO-2、Lingbot-VLA、RDT2 |
| 人形机器人 | Egocentric 视频预测 | HWM、V-JEPA 2 |
| 游戏/仿真 | Generative 交互环境 | LingBot-World、Matrix-Game 2.0、MineWorld |
维度 2:技术架构
| 架构 | 原理 | 适用 |
|---|---|---|
| Diffusion / DiT | 去噪生成未来帧,质量高但计算重 | 视频生成、仿真 |
| Autoregressive | 自回归预测下一帧/token,适合动作生成 | 机器人控制、VLA |
| RSSM / Latent | 压缩为潜在状态向量,高效规划 | RL 训练、实时控制 |
| VAE + Transformer | 编码-预测-解码,平衡质量与效率 | 通用世界模型 |
维度 3:部署门槛
| 级别 | 硬件要求 | 代表 |
|---|---|---|
| 学术研究 | 1-2 GPU(RTX 4090/A100) | HWM、CarDreamer、MineWorld |
| 工业原型 | 4-8 GPU / 车载平台 | Cosmos-7B/14B、BEVWorld |
| 边缘部署 | 嵌入式 / Jetson / 车规芯片 | Thinker、V-JEPA 2、Cosmos-2.5(缩小 3.5 倍) |
四、关键趋势判断
-
VLA + World Model 融合:2026 年主流方向是"世界模型提供仿真环境,VLA 提供动作策略"的闭环(如蚂蚁灵波 LingBot-VA + Lingbot-VLA、AGIBOT GE-2 + GO-2)
-
跨本体泛化:从"一机一模型"走向"一个大脑驱动多形态机器人",RDT2、ACE-Brain-0、Kairos3.0-4B 均强调此能力
-
数据规模瓶颈:世界模型和具身智能目前最大制约是真实数据,AGIBOT World 2026、ABot-M0 的 600 万轨迹数据集正在打破这一瓶颈
-
端云协同:云端大模型预训练 + 车端/机器人端轻量化推理成为标配,Cosmos-2.5、悟界等都在走这条路