【AI】2026 年具身智能模型和世界模型总结

2026 年具身智能和世界模型领域开源模型爆发,以下按技术路线 + 应用场景双维度分类整理:


一、具身智能(Embodied AI)开源模型

1. VLA 路线(Vision-Language-Action,端到端决策)

模型 开发方 参数/特点 开源时间
Xiaomi-Robotics-0 小米 47 亿参数,视觉语言理解与实时执行 2026.02
Lingbot-VLA 蚂蚁灵波 跨本体泛化,GM-100 基准成功率 15.7% 2026.01
UnifoLM-VLA-0 宇树科技 从图文理解向具身大脑进化 2026.01
OpenDriveVLA 社区 面向自动驾驶的 VLA 端到端决策 ---
Octo 社区 通用机器人策略,Open X-Embodiment 数据集训练 2024

2. 世界模型 + 动作生成(World Model for Robotics)

模型 开发方 核心特点
LingBot-VA 蚂蚁灵波 自回归视频-动作世界模型,边推演边行动
GE-2 AGIBOT World Action Model,创建交互虚拟世界用于安全策略测试
Kairos3.0-4B 大晓机器人 原生世界模型,极致物理因果一致性,跨本体泛化
DM0 原力灵机 全球首个具身原生大模型,多源数据预训练+空间推理思维链

3. 通用大脑/基础模型

模型 开发方 特点
RynnBrain 阿里达摩院 时空记忆+空间推理,16 项评测 SOTA
ABot-M0 高德 600 万+轨迹异构数据集,Action Manifold Learning
ACE-Brain-0 大晓机器人 全球首个空间智能底层框架,跨本体通用
Thinker 优必选 小参数、高性能、全开源,工业人形机器人
RDT2 RDT 团队 未见本体零样本部署
Spirit v1.5 千寻智能 端到端具身基础模型
GO-2 AGIBOT ViLLA Embodied Foundation Model,Action Chain-of-Thought

二、世界模型(World Models)开源项目

按技术路线分类

路线 1:3D Occupancy 世界模型(自动驾驶主流)
项目 特点 地址
OccWorld 3D occupancy 预测未来场景,自监督训练,接近 Tesla Occupancy Network 路线 wzzheng/OccWorld
Drive-OccWorld 4D occupancy + action-conditioned generation,可直接接 planner drive-occworld.github.io
百度 BEVWorld 多传感器 BEV 潜在空间融合,8 路摄像头+激光雷达+毫米波雷达 2026.02 开源
路线 2:Video / Generative 世界模型(生成式路线)
项目 特点 地址
NVIDIA Cosmos 物理 AI 基础模型,4B-14B 参数,<100ms 推理延迟,含 Predict/Transfer/Reason 三组件 NVIDIA/cosmos
LingBot-World 实时交互 3D 环境生成,16 FPS、10+ 分钟一致性,对标 Google Genie 3 AntGroup/LingBot-World
DrivingWorld Video GPT 架构,生成 40 秒未来驾驶视频 huxiaotaostasy.github.io/DrivingWorld
Matrix-Game 2.0 3D causal VAE + DiT,实时 25 FPS,分钟级视频,动作注入模块 matrix-game-v2/code
MineWorld Minecraft 视觉-动作自回归 Transformer,VQ-VAE token 化 aka.ms/mineworld
路线 3:Latent / RSSM 世界模型(强化学习路线)
项目 特点 地址
Dreamer / DreamerV3 RSSM 循环状态空间模型,潜在想象用于闭环规划 danijar/dreamer, google-research/dreamerv3
CarDreamer 自动驾驶 RL 训练平台,集成 DreamerV2/V3,Gym 接口 ucd-dare/cardreamer
Humanoid World Models (HWM) 人形机器人第一视角视频预测,Masked Transformer + Flow-Matching,1-2 GPU 可训练 1x-technologies/humanoid-world-models
路线 4:Web / 通用世界模型
项目 特点 地址
Web World Models 网页规模世界,面向 LLM 语言 Agent princeton-ai2-lab/Web-World-Models
Meta V-JEPA 2 视觉世界模型,对比学习视觉表示,零样本控制 2025.06 开源
智源"悟界" 物理交互世界模型,轻量边缘部署 ---

三、怎么分类看这些模型?

建议用三维坐标系来理解和选型:

复制代码
                    生成质量高
                         ↑
        Video/Generative │ Latent/RSSM
        (Cosmos/DrivingWorld) (Dreamer/CarDreamer)
                         │
  自动驾驶 ←─────────────┼─────────────→ 机器人/通用
                         │
        3D Occupancy     │ VLA/Embodied
        (OccWorld/BEVWorld) (Octo/GO-2/Lingbot-VLA)
                         ↓
                    控制精度高

维度 1:应用场景

场景 推荐路线 代表模型
自动驾驶 3D Occupancy / BEV OccWorld、BEVWorld、Cosmos
机器人操作 VLA + World Model Octo、GO-2、Lingbot-VLA、RDT2
人形机器人 Egocentric 视频预测 HWM、V-JEPA 2
游戏/仿真 Generative 交互环境 LingBot-World、Matrix-Game 2.0、MineWorld

维度 2:技术架构

架构 原理 适用
Diffusion / DiT 去噪生成未来帧,质量高但计算重 视频生成、仿真
Autoregressive 自回归预测下一帧/token,适合动作生成 机器人控制、VLA
RSSM / Latent 压缩为潜在状态向量,高效规划 RL 训练、实时控制
VAE + Transformer 编码-预测-解码,平衡质量与效率 通用世界模型

维度 3:部署门槛

级别 硬件要求 代表
学术研究 1-2 GPU(RTX 4090/A100) HWM、CarDreamer、MineWorld
工业原型 4-8 GPU / 车载平台 Cosmos-7B/14B、BEVWorld
边缘部署 嵌入式 / Jetson / 车规芯片 Thinker、V-JEPA 2、Cosmos-2.5(缩小 3.5 倍)

四、关键趋势判断

  1. VLA + World Model 融合:2026 年主流方向是"世界模型提供仿真环境,VLA 提供动作策略"的闭环(如蚂蚁灵波 LingBot-VA + Lingbot-VLA、AGIBOT GE-2 + GO-2)

  2. 跨本体泛化:从"一机一模型"走向"一个大脑驱动多形态机器人",RDT2、ACE-Brain-0、Kairos3.0-4B 均强调此能力

  3. 数据规模瓶颈:世界模型和具身智能目前最大制约是真实数据,AGIBOT World 2026、ABot-M0 的 600 万轨迹数据集正在打破这一瓶颈

  4. 端云协同:云端大模型预训练 + 车端/机器人端轻量化推理成为标配,Cosmos-2.5、悟界等都在走这条路

相关推荐
徐礼昭|商派软件市场负责人2 小时前
2026年“服饰行业全渠道OMS系统”库存/订单运营策略:以“一盘货+分渠分级”驱动销售最大化
大数据·人工智能·oms系统·服饰行业库存管理
qq_283720052 小时前
本地大模型部署全教程:Python 低成本调用开源 AI 模型
人工智能·python·开源
胡利光2 小时前
AI Agent 实战避坑 05|AI 版 TDD:Eval-Driven Development 完全指南
人工智能
米奇妙啊妙2 小时前
agent 学习 -模拟AI调用工具
人工智能·学习
试剂界的爱马仕2 小时前
AI学习实现:如何给基金实时估值?
大数据·人工智能·科技·学习·机器学习
笑不语2 小时前
从共病网络到可解释 AI:同济医院 10 分 SCI 全流程复现(R 语言)
开发语言·人工智能·r语言
xiangzhihong82 小时前
Claude Code系列教程之Claude Code 基础用法基础用法
人工智能
deephub2 小时前
2026年的 ReAct Agent架构解析:原生 Tool Calling 与 LangGraph 状态机
人工智能·大语言模型·agent·langgraph