2026 年具身智能和世界模型领域开源模型爆发,以下按技术路线 + 应用场景双维度分类整理:
一、具身智能(Embodied AI)开源模型
1. VLA 路线(Vision-Language-Action,端到端决策)
| 模型 |
开发方 |
参数/特点 |
开源时间 |
| Xiaomi-Robotics-0 |
小米 |
47 亿参数,视觉语言理解与实时执行 |
2026.02 |
| Lingbot-VLA |
蚂蚁灵波 |
跨本体泛化,GM-100 基准成功率 15.7% |
2026.01 |
| UnifoLM-VLA-0 |
宇树科技 |
从图文理解向具身大脑进化 |
2026.01 |
| OpenDriveVLA |
社区 |
面向自动驾驶的 VLA 端到端决策 |
--- |
| Octo |
社区 |
通用机器人策略,Open X-Embodiment 数据集训练 |
2024 |
2. 世界模型 + 动作生成(World Model for Robotics)
| 模型 |
开发方 |
核心特点 |
| LingBot-VA |
蚂蚁灵波 |
自回归视频-动作世界模型,边推演边行动 |
| GE-2 |
AGIBOT |
World Action Model,创建交互虚拟世界用于安全策略测试 |
| Kairos3.0-4B |
大晓机器人 |
原生世界模型,极致物理因果一致性,跨本体泛化 |
| DM0 |
原力灵机 |
全球首个具身原生大模型,多源数据预训练+空间推理思维链 |
3. 通用大脑/基础模型
| 模型 |
开发方 |
特点 |
| RynnBrain |
阿里达摩院 |
时空记忆+空间推理,16 项评测 SOTA |
| ABot-M0 |
高德 |
600 万+轨迹异构数据集,Action Manifold Learning |
| ACE-Brain-0 |
大晓机器人 |
全球首个空间智能底层框架,跨本体通用 |
| Thinker |
优必选 |
小参数、高性能、全开源,工业人形机器人 |
| RDT2 |
RDT 团队 |
未见本体零样本部署 |
| Spirit v1.5 |
千寻智能 |
端到端具身基础模型 |
| GO-2 |
AGIBOT |
ViLLA Embodied Foundation Model,Action Chain-of-Thought |
二、世界模型(World Models)开源项目
按技术路线分类
路线 1:3D Occupancy 世界模型(自动驾驶主流)
| 项目 |
特点 |
地址 |
| OccWorld |
3D occupancy 预测未来场景,自监督训练,接近 Tesla Occupancy Network 路线 |
wzzheng/OccWorld |
| Drive-OccWorld |
4D occupancy + action-conditioned generation,可直接接 planner |
drive-occworld.github.io |
| 百度 BEVWorld |
多传感器 BEV 潜在空间融合,8 路摄像头+激光雷达+毫米波雷达 |
2026.02 开源 |
路线 2:Video / Generative 世界模型(生成式路线)
| 项目 |
特点 |
地址 |
| NVIDIA Cosmos |
物理 AI 基础模型,4B-14B 参数,<100ms 推理延迟,含 Predict/Transfer/Reason 三组件 |
NVIDIA/cosmos |
| LingBot-World |
实时交互 3D 环境生成,16 FPS、10+ 分钟一致性,对标 Google Genie 3 |
AntGroup/LingBot-World |
| DrivingWorld |
Video GPT 架构,生成 40 秒未来驾驶视频 |
huxiaotaostasy.github.io/DrivingWorld |
| Matrix-Game 2.0 |
3D causal VAE + DiT,实时 25 FPS,分钟级视频,动作注入模块 |
matrix-game-v2/code |
| MineWorld |
Minecraft 视觉-动作自回归 Transformer,VQ-VAE token 化 |
aka.ms/mineworld |
| 项目 |
特点 |
地址 |
| Dreamer / DreamerV3 |
RSSM 循环状态空间模型,潜在想象用于闭环规划 |
danijar/dreamer, google-research/dreamerv3 |
| CarDreamer |
自动驾驶 RL 训练平台,集成 DreamerV2/V3,Gym 接口 |
ucd-dare/cardreamer |
| Humanoid World Models (HWM) |
人形机器人第一视角视频预测,Masked Transformer + Flow-Matching,1-2 GPU 可训练 |
1x-technologies/humanoid-world-models |
路线 4:Web / 通用世界模型
| 项目 |
特点 |
地址 |
| Web World Models |
网页规模世界,面向 LLM 语言 Agent |
princeton-ai2-lab/Web-World-Models |
| Meta V-JEPA 2 |
视觉世界模型,对比学习视觉表示,零样本控制 |
2025.06 开源 |
| 智源"悟界" |
物理交互世界模型,轻量边缘部署 |
--- |
三、怎么分类看这些模型?
建议用三维坐标系来理解和选型:
生成质量高
↑
Video/Generative │ Latent/RSSM
(Cosmos/DrivingWorld) (Dreamer/CarDreamer)
│
自动驾驶 ←─────────────┼─────────────→ 机器人/通用
│
3D Occupancy │ VLA/Embodied
(OccWorld/BEVWorld) (Octo/GO-2/Lingbot-VLA)
↓
控制精度高
维度 1:应用场景
| 场景 |
推荐路线 |
代表模型 |
| 自动驾驶 |
3D Occupancy / BEV |
OccWorld、BEVWorld、Cosmos |
| 机器人操作 |
VLA + World Model |
Octo、GO-2、Lingbot-VLA、RDT2 |
| 人形机器人 |
Egocentric 视频预测 |
HWM、V-JEPA 2 |
| 游戏/仿真 |
Generative 交互环境 |
LingBot-World、Matrix-Game 2.0、MineWorld |
维度 2:技术架构
| 架构 |
原理 |
适用 |
| Diffusion / DiT |
去噪生成未来帧,质量高但计算重 |
视频生成、仿真 |
| Autoregressive |
自回归预测下一帧/token,适合动作生成 |
机器人控制、VLA |
| RSSM / Latent |
压缩为潜在状态向量,高效规划 |
RL 训练、实时控制 |
| VAE + Transformer |
编码-预测-解码,平衡质量与效率 |
通用世界模型 |
维度 3:部署门槛
| 级别 |
硬件要求 |
代表 |
| 学术研究 |
1-2 GPU(RTX 4090/A100) |
HWM、CarDreamer、MineWorld |
| 工业原型 |
4-8 GPU / 车载平台 |
Cosmos-7B/14B、BEVWorld |
| 边缘部署 |
嵌入式 / Jetson / 车规芯片 |
Thinker、V-JEPA 2、Cosmos-2.5(缩小 3.5 倍) |
四、关键趋势判断
-
VLA + World Model 融合:2026 年主流方向是"世界模型提供仿真环境,VLA 提供动作策略"的闭环(如蚂蚁灵波 LingBot-VA + Lingbot-VLA、AGIBOT GE-2 + GO-2)
-
跨本体泛化:从"一机一模型"走向"一个大脑驱动多形态机器人",RDT2、ACE-Brain-0、Kairos3.0-4B 均强调此能力
-
数据规模瓶颈:世界模型和具身智能目前最大制约是真实数据,AGIBOT World 2026、ABot-M0 的 600 万轨迹数据集正在打破这一瓶颈
-
端云协同:云端大模型预训练 + 车端/机器人端轻量化推理成为标配,Cosmos-2.5、悟界等都在走这条路