【Embodied】具身智能基础模型发展

1. 核心结论

机器人基础模型 = 大规模预训练 + 微调下游任务，与 NLP 的 GPT 范式完全一致。
2024 年主流路线：VLM → VLA（把动作 token 化，当成"文本"一起生成）。
三大技术栈：
- Transformer（RT-1/Octo/CrossFormer）
- Diffusion（Diffusion Policy/RDT/PAD）
- VLM+Action（PaLM-E、RT-2、OpenVLA、HiRT、pi0、Helix、NVIDIA Groot N1）
最大瓶颈：跨本体泛化（Cross-Embodiment）→ CrossFormer / RT-X 已验证可行。
最快落地姿势：先上 VLM 做高层规划 → 再接 Diffusion Policy 做低层控制，成本最低。

3. PPT 脑图（markdown 版，直接复制）

markdown 复制代码

# 从 VLM 到 VLA：机器人基础模型 2024 全景图

---

## 1. 背景：机器人学习痛点
- 数据稀缺 → 泛化差  
- 每任务每模型 → 成本高  
- 人工特征 → 迁移难  

> 解法：借鉴 NLP，做 **Foundation Model**

---

## 2. 技术路线总览
```mermaid
graph TD
    A[LLM] -->|SayCan| B(高层规划)
    A -->|InnerMonologue| B
    A -->|DoReMi| B
    C[VLM] -->|PaLM-E/RT-2| D(语义理解)
    D -->|Tokenize Action| E[VLA]
    E -->|Transformer| F[RT-1/Octo]
    E -->|Diffusion| G[Diffusion Policy/RDT]
    E -->|VLM+Action| H[OpenVLA/Helix/Groot]

3. 代表模型速查表

模型	年份	参数量	范式	关键词
RT-1	2022	35M	Transformer	3Hz 直接输出动作
Octo	2023	93M	Transformer	开源通用策略
RT-2	2023	55B	VLM→VLA	Web 知识迁移
OpenVLA	2024	7B	VLM+Action	全开源可商用
RDT-1B	2024	1.2B	Diffusion	双臂扩散策略
CrossFormer	2024	210M	Cross-Embodiment	900k 轨迹统一训练
NVIDIA Groot N1	2024	未知	VLA	人形专属基础模型

4. 关键 trick 拆解

动作 token 化
- 连续动作 → 离散文本（RT-2 用 1024 个 token）
跨本体对齐
- 观察+动作统一坐标系（CrossFormer Tokenizer）
扩散做控制
- 去噪过程 ≈ 轨迹优化（Diffusion Policy）
冻结 VLM 训小头
- 降低显存，提速 3×（HiRT 异步机制）

5. 实验结果一句话

RT-2-X 在 RT-X 数据集上 ↑3× emergent skill
CrossFormer 6 类机器人 平均↑15% 超越专用策略
RDT-1B 双臂泛化 ↑20% 优于 GR-1/GR-2

6. 2025 趋势预测

100B 级 统一 VLA 将出现（类似 GPT-4o）
视频预测+动作联合训练（PAD/VPP）成为新 SOTA
边缘端 1B 小模型 + 云端 100B 大模型 混合部署
仿真→真实 的域间迁移彻底解决（NeRF+Diffusion）

7. 快速上手清单

低成本硬件：Mobile ALOHA（32k 美元开源）
开源代码：
- Octo https://github.com/octo-models/octo
- OpenVLA https://github.com/openvla/openvla
数据集：Open X-Embodiment（1M+ 轨迹）
仿真：NVIDIA Isaac Sim + OpenUSD

8. 致谢 & 引用

本文脑图基于 Google DeepMind、Stanford、UC Berkeley、NVIDIA 公开论文整理，完整 PDF 目录见原文《VLM_VLA.pdf》。

复制代码

---

## 4. 如何选择你的第一条 baseline？

| 需求 | 推荐 |
|---|---|
| 毕业设计 / 论文复现 | OpenVLA（7B，全开源） |
| 工业臂分拣 | RT-1/Octo + 私有数据微调 |
| 双臂精密装配 | RDT-1B（扩散精度高） |
| 跨机器人平台 | CrossFormer（直接零样本） |
| 人形机器人 | 等 NVIDIA Groot N1 开源权重 |

---

## 5. 常见坑提示

1. **动作 token 别太长** → 控制频率骤降（RT-2 仅 3Hz）。  
2. **Diffusion 实时性** → 需 TensorRT 加速，否则 100ms+。  
3. **跨本体一定做** **Tokenizer 对齐**，不然动作维度对不上。  
4. **VLM 冻结** 时梯度别回传图像编码器，显存爆炸。

---

## 6. 彩蛋：一键生成你自己的「机器人基础模型」目录

如果你要写综述 / 开题报告，直接复制下面一级标题即可：

```markdown
# 1 引言  
# 2 相关技术  
## 2.1 大语言模型  
## 2.2 视觉语言模型  
## 2.3 动作生成范式  
# 3 方法总览  
## 3.1 Transformer 路线  
## 3.2 Diffusion 路线  
## 3.3 VLM+Action 路线  
# 4 实验与结果  
# 5 讨论 & 未来工作  
# 6 结论