【Embodied】具身智能基础模型发展

1. 核心结论

  1. 机器人基础模型 = 大规模预训练 + 微调下游任务,与 NLP 的 GPT 范式完全一致。
  2. 2024 年主流路线:VLM → VLA(把动作 token 化,当成"文本"一起生成)。
  3. 三大技术栈:
    • Transformer(RT-1/Octo/CrossFormer)
    • Diffusion(Diffusion Policy/RDT/PAD)
    • VLM+Action(PaLM-E、RT-2、OpenVLA、HiRT、pi0、Helix、NVIDIA Groot N1)
  4. 最大瓶颈:跨本体泛化(Cross-Embodiment)→ CrossFormer / RT-X 已验证可行。
  5. 最快落地姿势:先上 VLM 做高层规划 → 再接 Diffusion Policy 做低层控制,成本最低。

3. PPT 脑图(markdown 版,直接复制)

markdown 复制代码
# 从 VLM 到 VLA:机器人基础模型 2024 全景图

---

## 1. 背景:机器人学习痛点
- 数据稀缺 → 泛化差  
- 每任务每模型 → 成本高  
- 人工特征 → 迁移难  

> 解法:借鉴 NLP,做 **Foundation Model**

---

## 2. 技术路线总览
```mermaid
graph TD
    A[LLM] -->|SayCan| B(高层规划)
    A -->|InnerMonologue| B
    A -->|DoReMi| B
    C[VLM] -->|PaLM-E/RT-2| D(语义理解)
    D -->|Tokenize Action| E[VLA]
    E -->|Transformer| F[RT-1/Octo]
    E -->|Diffusion| G[Diffusion Policy/RDT]
    E -->|VLM+Action| H[OpenVLA/Helix/Groot]

3. 代表模型速查表

模型 年份 参数量 范式 关键词
RT-1 2022 35M Transformer 3Hz 直接输出动作
Octo 2023 93M Transformer 开源通用策略
RT-2 2023 55B VLM→VLA Web 知识迁移
OpenVLA 2024 7B VLM+Action 全开源可商用
RDT-1B 2024 1.2B Diffusion 双臂扩散策略
CrossFormer 2024 210M Cross-Embodiment 900k 轨迹统一训练
NVIDIA Groot N1 2024 未知 VLA 人形专属基础模型

4. 关键 trick 拆解

  1. 动作 token 化
    • 连续动作 → 离散文本(RT-2 用 1024 个 token)
  2. 跨本体对齐
    • 观察+动作统一坐标系(CrossFormer Tokenizer)
  3. 扩散做控制
    • 去噪过程 ≈ 轨迹优化(Diffusion Policy)
  4. 冻结 VLM 训小头
    • 降低显存,提速 3×(HiRT 异步机制)

5. 实验结果一句话

  • RT-2-X 在 RT-X 数据集上 ↑3× emergent skill
  • CrossFormer 6 类机器人 平均↑15% 超越专用策略
  • RDT-1B 双臂泛化 ↑20% 优于 GR-1/GR-2

6. 2025 趋势预测

  1. 100B 级 统一 VLA 将出现(类似 GPT-4o)
  2. 视频预测+动作联合训练(PAD/VPP)成为新 SOTA
  3. 边缘端 1B 小模型 + 云端 100B 大模型 混合部署
  4. 仿真→真实 的域间迁移彻底解决(NeRF+Diffusion)

7. 快速上手清单


8. 致谢 & 引用

本文脑图基于 Google DeepMind、Stanford、UC Berkeley、NVIDIA 公开论文整理,完整 PDF 目录见原文《VLM_VLA.pdf》。

复制代码
---

## 4. 如何选择你的第一条 baseline?

| 需求 | 推荐 |
|---|---|
| 毕业设计 / 论文复现 | OpenVLA(7B,全开源) |
| 工业臂分拣 | RT-1/Octo + 私有数据微调 |
| 双臂精密装配 | RDT-1B(扩散精度高) |
| 跨机器人平台 | CrossFormer(直接零样本) |
| 人形机器人 | 等 NVIDIA Groot N1 开源权重 |

---

## 5. 常见坑提示

1. **动作 token 别太长** → 控制频率骤降(RT-2 仅 3Hz)。  
2. **Diffusion 实时性** → 需 TensorRT 加速,否则 100ms+。  
3. **跨本体一定做** **Tokenizer 对齐**,不然动作维度对不上。  
4. **VLM 冻结** 时梯度别回传图像编码器,显存爆炸。

---

## 6. 彩蛋:一键生成你自己的「机器人基础模型」目录

如果你要写综述 / 开题报告,直接复制下面一级标题即可:

```markdown
# 1 引言  
# 2 相关技术  
## 2.1 大语言模型  
## 2.2 视觉语言模型  
## 2.3 动作生成范式  
# 3 方法总览  
## 3.1 Transformer 路线  
## 3.2 Diffusion 路线  
## 3.3 VLM+Action 路线  
# 4 实验与结果  
# 5 讨论 & 未来工作  
# 6 结论

相关推荐
sxgzzn2 小时前
风电无人机巡检平台:如何用无人机与AI实现风机智能运维?
运维·人工智能·无人机
顾北122 小时前
基于 Spring AI 开发个性化旅游 AI 应用:会话记忆、Prompt 模板与 Token 统计全解析
人工智能
物联网软硬件开发-轨物科技2 小时前
技术白皮书:AI驱动下的光伏电站智能化运维新范式
运维·人工智能·物联网
北京宇音天下2 小时前
VTX316语音合成芯片:低功耗高自然度,开启TTS语音新未来
人工智能·语音识别
minhuan2 小时前
大模型应用:联邦学习融合本地大模型:隐私合规推荐的核心流程与实践.62
大数据·人工智能·大模型应用·联邦学习推荐系统·推荐系统案例
落叶,听雪2 小时前
性价比高的软著助手供应商选哪家
大数据·人工智能·python
懒羊羊吃辣条2 小时前
充分利用未来已知信息:DAG 用双因果结构把 TSF-X 时序预测推到新高度
人工智能·深度学习·机器学习
(; ̄ェ ̄)。2 小时前
机器学习入门(十一)逻辑回归,分类问题评估
机器学习·分类·逻辑回归
易晨 微盛·企微管家2 小时前
汽车经销服务实战案例解析|企业微信AI SCRM助力实现咨询标准化与即时化
人工智能