【AI】2026 年具身智能模型和世界模型总结

2026 年具身智能和世界模型领域开源模型爆发，以下按技术路线 + 应用场景双维度分类整理：

一、具身智能（Embodied AI）开源模型

1. VLA 路线（Vision-Language-Action，端到端决策）

模型	开发方	参数/特点	开源时间
Xiaomi-Robotics-0	小米	47 亿参数，视觉语言理解与实时执行	2026.02
Lingbot-VLA	蚂蚁灵波	跨本体泛化，GM-100 基准成功率 15.7%	2026.01
UnifoLM-VLA-0	宇树科技	从图文理解向具身大脑进化	2026.01
OpenDriveVLA	社区	面向自动驾驶的 VLA 端到端决策	---
Octo	社区	通用机器人策略，Open X-Embodiment 数据集训练	2024

2. 世界模型 + 动作生成（World Model for Robotics）

模型	开发方	核心特点
LingBot-VA	蚂蚁灵波	自回归视频-动作世界模型，边推演边行动
GE-2	AGIBOT	World Action Model，创建交互虚拟世界用于安全策略测试
Kairos3.0-4B	大晓机器人	原生世界模型，极致物理因果一致性，跨本体泛化
DM0	原力灵机	全球首个具身原生大模型，多源数据预训练+空间推理思维链

3. 通用大脑/基础模型

模型	开发方	特点
RynnBrain	阿里达摩院	时空记忆+空间推理，16 项评测 SOTA
ABot-M0	高德	600 万+轨迹异构数据集，Action Manifold Learning
ACE-Brain-0	大晓机器人	全球首个空间智能底层框架，跨本体通用
Thinker	优必选	小参数、高性能、全开源，工业人形机器人
RDT2	RDT 团队	未见本体零样本部署
Spirit v1.5	千寻智能	端到端具身基础模型
GO-2	AGIBOT	ViLLA Embodied Foundation Model，Action Chain-of-Thought

二、世界模型（World Models）开源项目

按技术路线分类

路线 1：3D Occupancy 世界模型（自动驾驶主流）

项目	特点	地址
OccWorld	3D occupancy 预测未来场景，自监督训练，接近 Tesla Occupancy Network 路线	wzzheng/OccWorld
Drive-OccWorld	4D occupancy + action-conditioned generation，可直接接 planner	drive-occworld.github.io
百度 BEVWorld	多传感器 BEV 潜在空间融合，8 路摄像头+激光雷达+毫米波雷达	2026.02 开源

路线 2：Video / Generative 世界模型（生成式路线）

项目	特点	地址
NVIDIA Cosmos	物理 AI 基础模型，4B-14B 参数，<100ms 推理延迟，含 Predict/Transfer/Reason 三组件	NVIDIA/cosmos
LingBot-World	实时交互 3D 环境生成，16 FPS、10+ 分钟一致性，对标 Google Genie 3	AntGroup/LingBot-World
DrivingWorld	Video GPT 架构，生成 40 秒未来驾驶视频	huxiaotaostasy.github.io/DrivingWorld
Matrix-Game 2.0	3D causal VAE + DiT，实时 25 FPS，分钟级视频，动作注入模块	matrix-game-v2/code
MineWorld	Minecraft 视觉-动作自回归 Transformer，VQ-VAE token 化	aka.ms/mineworld

路线 3：Latent / RSSM 世界模型（强化学习路线）

项目	特点	地址
Dreamer / DreamerV3	RSSM 循环状态空间模型，潜在想象用于闭环规划	danijar/dreamer, google-research/dreamerv3
CarDreamer	自动驾驶 RL 训练平台，集成 DreamerV2/V3，Gym 接口	ucd-dare/cardreamer
Humanoid World Models (HWM)	人形机器人第一视角视频预测，Masked Transformer + Flow-Matching，1-2 GPU 可训练	1x-technologies/humanoid-world-models

路线 4：Web / 通用世界模型

项目	特点	地址
Web World Models	网页规模世界，面向 LLM 语言 Agent	princeton-ai2-lab/Web-World-Models
Meta V-JEPA 2	视觉世界模型，对比学习视觉表示，零样本控制	2025.06 开源
智源"悟界"	物理交互世界模型，轻量边缘部署	---

三、怎么分类看这些模型？

建议用三维坐标系来理解和选型：

复制代码

                    生成质量高
                         ↑
        Video/Generative │ Latent/RSSM
        (Cosmos/DrivingWorld) (Dreamer/CarDreamer)
                         │
  自动驾驶 ←─────────────┼─────────────→ 机器人/通用
                         │
        3D Occupancy     │ VLA/Embodied
        (OccWorld/BEVWorld) (Octo/GO-2/Lingbot-VLA)
                         ↓
                    控制精度高

维度 1：应用场景

场景	推荐路线	代表模型
自动驾驶	3D Occupancy / BEV	OccWorld、BEVWorld、Cosmos
机器人操作	VLA + World Model	Octo、GO-2、Lingbot-VLA、RDT2
人形机器人	Egocentric 视频预测	HWM、V-JEPA 2
游戏/仿真	Generative 交互环境	LingBot-World、Matrix-Game 2.0、MineWorld

维度 2：技术架构

架构	原理	适用
Diffusion / DiT	去噪生成未来帧，质量高但计算重	视频生成、仿真
Autoregressive	自回归预测下一帧/token，适合动作生成	机器人控制、VLA
RSSM / Latent	压缩为潜在状态向量，高效规划	RL 训练、实时控制
VAE + Transformer	编码-预测-解码，平衡质量与效率	通用世界模型

维度 3：部署门槛

级别	硬件要求	代表
学术研究	1-2 GPU（RTX 4090/A100）	HWM、CarDreamer、MineWorld
工业原型	4-8 GPU / 车载平台	Cosmos-7B/14B、BEVWorld
边缘部署	嵌入式 / Jetson / 车规芯片	Thinker、V-JEPA 2、Cosmos-2.5（缩小 3.5 倍）

四、关键趋势判断

VLA + World Model 融合：2026 年主流方向是"世界模型提供仿真环境，VLA 提供动作策略"的闭环（如蚂蚁灵波 LingBot-VA + Lingbot-VLA、AGIBOT GE-2 + GO-2）
跨本体泛化：从"一机一模型"走向"一个大脑驱动多形态机器人"，RDT2、ACE-Brain-0、Kairos3.0-4B 均强调此能力
数据规模瓶颈：世界模型和具身智能目前最大制约是真实数据，AGIBOT World 2026、ABot-M0 的 600 万轨迹数据集正在打破这一瓶颈
端云协同：云端大模型预训练 + 车端/机器人端轻量化推理成为标配，Cosmos-2.5、悟界等都在走这条路