1. 核心结论
- 机器人基础模型 = 大规模预训练 + 微调下游任务,与 NLP 的 GPT 范式完全一致。
- 2024 年主流路线:VLM → VLA(把动作 token 化,当成"文本"一起生成)。
- 三大技术栈:
- Transformer(RT-1/Octo/CrossFormer)
- Diffusion(Diffusion Policy/RDT/PAD)
- VLM+Action(PaLM-E、RT-2、OpenVLA、HiRT、pi0、Helix、NVIDIA Groot N1)
- 最大瓶颈:跨本体泛化(Cross-Embodiment)→ CrossFormer / RT-X 已验证可行。
- 最快落地姿势:先上 VLM 做高层规划 → 再接 Diffusion Policy 做低层控制,成本最低。
3. PPT 脑图(markdown 版,直接复制)
markdown
# 从 VLM 到 VLA:机器人基础模型 2024 全景图
---
## 1. 背景:机器人学习痛点
- 数据稀缺 → 泛化差
- 每任务每模型 → 成本高
- 人工特征 → 迁移难
> 解法:借鉴 NLP,做 **Foundation Model**
---
## 2. 技术路线总览
```mermaid
graph TD
A[LLM] -->|SayCan| B(高层规划)
A -->|InnerMonologue| B
A -->|DoReMi| B
C[VLM] -->|PaLM-E/RT-2| D(语义理解)
D -->|Tokenize Action| E[VLA]
E -->|Transformer| F[RT-1/Octo]
E -->|Diffusion| G[Diffusion Policy/RDT]
E -->|VLM+Action| H[OpenVLA/Helix/Groot]
3. 代表模型速查表
| 模型 | 年份 | 参数量 | 范式 | 关键词 |
|---|---|---|---|---|
| RT-1 | 2022 | 35M | Transformer | 3Hz 直接输出动作 |
| Octo | 2023 | 93M | Transformer | 开源通用策略 |
| RT-2 | 2023 | 55B | VLM→VLA | Web 知识迁移 |
| OpenVLA | 2024 | 7B | VLM+Action | 全开源可商用 |
| RDT-1B | 2024 | 1.2B | Diffusion | 双臂扩散策略 |
| CrossFormer | 2024 | 210M | Cross-Embodiment | 900k 轨迹统一训练 |
| NVIDIA Groot N1 | 2024 | 未知 | VLA | 人形专属基础模型 |
4. 关键 trick 拆解
- 动作 token 化
- 连续动作 → 离散文本(RT-2 用 1024 个 token)
- 跨本体对齐
- 观察+动作统一坐标系(CrossFormer Tokenizer)
- 扩散做控制
- 去噪过程 ≈ 轨迹优化(Diffusion Policy)
- 冻结 VLM 训小头
- 降低显存,提速 3×(HiRT 异步机制)
5. 实验结果一句话
- RT-2-X 在 RT-X 数据集上 ↑3× emergent skill
- CrossFormer 6 类机器人 平均↑15% 超越专用策略
- RDT-1B 双臂泛化 ↑20% 优于 GR-1/GR-2
6. 2025 趋势预测
- 100B 级 统一 VLA 将出现(类似 GPT-4o)
- 视频预测+动作联合训练(PAD/VPP)成为新 SOTA
- 边缘端 1B 小模型 + 云端 100B 大模型 混合部署
- 仿真→真实 的域间迁移彻底解决(NeRF+Diffusion)
7. 快速上手清单
- 低成本硬件:Mobile ALOHA(32k 美元开源)
- 开源代码:
- 数据集:Open X-Embodiment(1M+ 轨迹)
- 仿真:NVIDIA Isaac Sim + OpenUSD
8. 致谢 & 引用
本文脑图基于 Google DeepMind、Stanford、UC Berkeley、NVIDIA 公开论文整理,完整 PDF 目录见原文《VLM_VLA.pdf》。
---
## 4. 如何选择你的第一条 baseline?
| 需求 | 推荐 |
|---|---|
| 毕业设计 / 论文复现 | OpenVLA(7B,全开源) |
| 工业臂分拣 | RT-1/Octo + 私有数据微调 |
| 双臂精密装配 | RDT-1B(扩散精度高) |
| 跨机器人平台 | CrossFormer(直接零样本) |
| 人形机器人 | 等 NVIDIA Groot N1 开源权重 |
---
## 5. 常见坑提示
1. **动作 token 别太长** → 控制频率骤降(RT-2 仅 3Hz)。
2. **Diffusion 实时性** → 需 TensorRT 加速,否则 100ms+。
3. **跨本体一定做** **Tokenizer 对齐**,不然动作维度对不上。
4. **VLM 冻结** 时梯度别回传图像编码器,显存爆炸。
---
## 6. 彩蛋:一键生成你自己的「机器人基础模型」目录
如果你要写综述 / 开题报告,直接复制下面一级标题即可:
```markdown
# 1 引言
# 2 相关技术
## 2.1 大语言模型
## 2.2 视觉语言模型
## 2.3 动作生成范式
# 3 方法总览
## 3.1 Transformer 路线
## 3.2 Diffusion 路线
## 3.3 VLM+Action 路线
# 4 实验与结果
# 5 讨论 & 未来工作
# 6 结论