【Embodied】具身智能基础模型发展

1. 核心结论

  1. 机器人基础模型 = 大规模预训练 + 微调下游任务,与 NLP 的 GPT 范式完全一致。
  2. 2024 年主流路线:VLM → VLA(把动作 token 化,当成"文本"一起生成)。
  3. 三大技术栈:
    • Transformer(RT-1/Octo/CrossFormer)
    • Diffusion(Diffusion Policy/RDT/PAD)
    • VLM+Action(PaLM-E、RT-2、OpenVLA、HiRT、pi0、Helix、NVIDIA Groot N1)
  4. 最大瓶颈:跨本体泛化(Cross-Embodiment)→ CrossFormer / RT-X 已验证可行。
  5. 最快落地姿势:先上 VLM 做高层规划 → 再接 Diffusion Policy 做低层控制,成本最低。

3. PPT 脑图(markdown 版,直接复制)

markdown 复制代码
# 从 VLM 到 VLA:机器人基础模型 2024 全景图

---

## 1. 背景:机器人学习痛点
- 数据稀缺 → 泛化差  
- 每任务每模型 → 成本高  
- 人工特征 → 迁移难  

> 解法:借鉴 NLP,做 **Foundation Model**

---

## 2. 技术路线总览
```mermaid
graph TD
    A[LLM] -->|SayCan| B(高层规划)
    A -->|InnerMonologue| B
    A -->|DoReMi| B
    C[VLM] -->|PaLM-E/RT-2| D(语义理解)
    D -->|Tokenize Action| E[VLA]
    E -->|Transformer| F[RT-1/Octo]
    E -->|Diffusion| G[Diffusion Policy/RDT]
    E -->|VLM+Action| H[OpenVLA/Helix/Groot]

3. 代表模型速查表

模型 年份 参数量 范式 关键词
RT-1 2022 35M Transformer 3Hz 直接输出动作
Octo 2023 93M Transformer 开源通用策略
RT-2 2023 55B VLM→VLA Web 知识迁移
OpenVLA 2024 7B VLM+Action 全开源可商用
RDT-1B 2024 1.2B Diffusion 双臂扩散策略
CrossFormer 2024 210M Cross-Embodiment 900k 轨迹统一训练
NVIDIA Groot N1 2024 未知 VLA 人形专属基础模型

4. 关键 trick 拆解

  1. 动作 token 化
    • 连续动作 → 离散文本(RT-2 用 1024 个 token)
  2. 跨本体对齐
    • 观察+动作统一坐标系(CrossFormer Tokenizer)
  3. 扩散做控制
    • 去噪过程 ≈ 轨迹优化(Diffusion Policy)
  4. 冻结 VLM 训小头
    • 降低显存,提速 3×(HiRT 异步机制)

5. 实验结果一句话

  • RT-2-X 在 RT-X 数据集上 ↑3× emergent skill
  • CrossFormer 6 类机器人 平均↑15% 超越专用策略
  • RDT-1B 双臂泛化 ↑20% 优于 GR-1/GR-2

6. 2025 趋势预测

  1. 100B 级 统一 VLA 将出现(类似 GPT-4o)
  2. 视频预测+动作联合训练(PAD/VPP)成为新 SOTA
  3. 边缘端 1B 小模型 + 云端 100B 大模型 混合部署
  4. 仿真→真实 的域间迁移彻底解决(NeRF+Diffusion)

7. 快速上手清单


8. 致谢 & 引用

本文脑图基于 Google DeepMind、Stanford、UC Berkeley、NVIDIA 公开论文整理,完整 PDF 目录见原文《VLM_VLA.pdf》。

复制代码
---

## 4. 如何选择你的第一条 baseline?

| 需求 | 推荐 |
|---|---|
| 毕业设计 / 论文复现 | OpenVLA(7B,全开源) |
| 工业臂分拣 | RT-1/Octo + 私有数据微调 |
| 双臂精密装配 | RDT-1B(扩散精度高) |
| 跨机器人平台 | CrossFormer(直接零样本) |
| 人形机器人 | 等 NVIDIA Groot N1 开源权重 |

---

## 5. 常见坑提示

1. **动作 token 别太长** → 控制频率骤降(RT-2 仅 3Hz)。  
2. **Diffusion 实时性** → 需 TensorRT 加速,否则 100ms+。  
3. **跨本体一定做** **Tokenizer 对齐**,不然动作维度对不上。  
4. **VLM 冻结** 时梯度别回传图像编码器,显存爆炸。

---

## 6. 彩蛋:一键生成你自己的「机器人基础模型」目录

如果你要写综述 / 开题报告,直接复制下面一级标题即可:

```markdown
# 1 引言  
# 2 相关技术  
## 2.1 大语言模型  
## 2.2 视觉语言模型  
## 2.3 动作生成范式  
# 3 方法总览  
## 3.1 Transformer 路线  
## 3.2 Diffusion 路线  
## 3.3 VLM+Action 路线  
# 4 实验与结果  
# 5 讨论 & 未来工作  
# 6 结论

相关推荐
杨浦老苏7 小时前
本地优先的AI个人助手Moltis
人工智能·docker·ai·群晖
OBS插件网8 小时前
OBS直播如何给人脸加口罩特效?OBS口罩特效插件下载安装教程
人工智能·数码相机·语音识别·产品经理
LitchiCheng8 小时前
Mujoco 如何添加 Apriltag 并获得相机视野进行识别
人工智能·python·开源
想用offer打牌8 小时前
一站式了解Agent Skills
人工智能·后端·ai编程
一切尽在,你来8 小时前
LangGraph快速入门
人工智能·python·langchain·ai编程
阿杰学AI9 小时前
AI核心知识110—大语言模型之 AI Collaboration Manager(简洁且通俗易懂版)
人工智能·ai·语言模型·自然语言处理·aigc·人机交互·ai协作管理员
SCLchuck9 小时前
人工智能-概率密度估计
人工智能·python·概率论·概率密度估计
王解9 小时前
AI Agent记忆模块进化史:从临时缓存到认知架构的设计范式
人工智能·缓存·架构
琅琊榜首20209 小时前
AI+编程实战:小说高效改编短剧全指南
人工智能
新缸中之脑9 小时前
Graphlit: AI代理的上下文图层
大数据·人工智能