【Embodied】具身智能基础模型发展

1. 核心结论

  1. 机器人基础模型 = 大规模预训练 + 微调下游任务,与 NLP 的 GPT 范式完全一致。
  2. 2024 年主流路线:VLM → VLA(把动作 token 化,当成"文本"一起生成)。
  3. 三大技术栈:
    • Transformer(RT-1/Octo/CrossFormer)
    • Diffusion(Diffusion Policy/RDT/PAD)
    • VLM+Action(PaLM-E、RT-2、OpenVLA、HiRT、pi0、Helix、NVIDIA Groot N1)
  4. 最大瓶颈:跨本体泛化(Cross-Embodiment)→ CrossFormer / RT-X 已验证可行。
  5. 最快落地姿势:先上 VLM 做高层规划 → 再接 Diffusion Policy 做低层控制,成本最低。

3. PPT 脑图(markdown 版,直接复制)

markdown 复制代码
# 从 VLM 到 VLA:机器人基础模型 2024 全景图

---

## 1. 背景:机器人学习痛点
- 数据稀缺 → 泛化差  
- 每任务每模型 → 成本高  
- 人工特征 → 迁移难  

> 解法:借鉴 NLP,做 **Foundation Model**

---

## 2. 技术路线总览
```mermaid
graph TD
    A[LLM] -->|SayCan| B(高层规划)
    A -->|InnerMonologue| B
    A -->|DoReMi| B
    C[VLM] -->|PaLM-E/RT-2| D(语义理解)
    D -->|Tokenize Action| E[VLA]
    E -->|Transformer| F[RT-1/Octo]
    E -->|Diffusion| G[Diffusion Policy/RDT]
    E -->|VLM+Action| H[OpenVLA/Helix/Groot]

3. 代表模型速查表

模型 年份 参数量 范式 关键词
RT-1 2022 35M Transformer 3Hz 直接输出动作
Octo 2023 93M Transformer 开源通用策略
RT-2 2023 55B VLM→VLA Web 知识迁移
OpenVLA 2024 7B VLM+Action 全开源可商用
RDT-1B 2024 1.2B Diffusion 双臂扩散策略
CrossFormer 2024 210M Cross-Embodiment 900k 轨迹统一训练
NVIDIA Groot N1 2024 未知 VLA 人形专属基础模型

4. 关键 trick 拆解

  1. 动作 token 化
    • 连续动作 → 离散文本(RT-2 用 1024 个 token)
  2. 跨本体对齐
    • 观察+动作统一坐标系(CrossFormer Tokenizer)
  3. 扩散做控制
    • 去噪过程 ≈ 轨迹优化(Diffusion Policy)
  4. 冻结 VLM 训小头
    • 降低显存,提速 3×(HiRT 异步机制)

5. 实验结果一句话

  • RT-2-X 在 RT-X 数据集上 ↑3× emergent skill
  • CrossFormer 6 类机器人 平均↑15% 超越专用策略
  • RDT-1B 双臂泛化 ↑20% 优于 GR-1/GR-2

6. 2025 趋势预测

  1. 100B 级 统一 VLA 将出现(类似 GPT-4o)
  2. 视频预测+动作联合训练(PAD/VPP)成为新 SOTA
  3. 边缘端 1B 小模型 + 云端 100B 大模型 混合部署
  4. 仿真→真实 的域间迁移彻底解决(NeRF+Diffusion)

7. 快速上手清单


8. 致谢 & 引用

本文脑图基于 Google DeepMind、Stanford、UC Berkeley、NVIDIA 公开论文整理,完整 PDF 目录见原文《VLM_VLA.pdf》。

复制代码
---

## 4. 如何选择你的第一条 baseline?

| 需求 | 推荐 |
|---|---|
| 毕业设计 / 论文复现 | OpenVLA(7B,全开源) |
| 工业臂分拣 | RT-1/Octo + 私有数据微调 |
| 双臂精密装配 | RDT-1B(扩散精度高) |
| 跨机器人平台 | CrossFormer(直接零样本) |
| 人形机器人 | 等 NVIDIA Groot N1 开源权重 |

---

## 5. 常见坑提示

1. **动作 token 别太长** → 控制频率骤降(RT-2 仅 3Hz)。  
2. **Diffusion 实时性** → 需 TensorRT 加速,否则 100ms+。  
3. **跨本体一定做** **Tokenizer 对齐**,不然动作维度对不上。  
4. **VLM 冻结** 时梯度别回传图像编码器,显存爆炸。

---

## 6. 彩蛋:一键生成你自己的「机器人基础模型」目录

如果你要写综述 / 开题报告,直接复制下面一级标题即可:

```markdown
# 1 引言  
# 2 相关技术  
## 2.1 大语言模型  
## 2.2 视觉语言模型  
## 2.3 动作生成范式  
# 3 方法总览  
## 3.1 Transformer 路线  
## 3.2 Diffusion 路线  
## 3.3 VLM+Action 路线  
# 4 实验与结果  
# 5 讨论 & 未来工作  
# 6 结论

相关推荐
前端摸鱼匠1 分钟前
YOLOv8 环境配置全攻略:Python、PyTorch 与 CUDA 的和谐共生
人工智能·pytorch·python·yolo·目标检测
结局无敌6 分钟前
构建百年工程:cann/ops-nn 的可持续演进之道
人工智能·cann
MSTcheng.6 分钟前
CANN算子开发新范式:基于ops-nn探索aclnn两阶段调用架构
人工智能·cann
renhongxia17 分钟前
如何基于知识图谱进行故障原因、事故原因推理,需要用到哪些算法
人工智能·深度学习·算法·机器学习·自然语言处理·transformer·知识图谱
做人不要太理性8 分钟前
CANN Runtime 运行时与维测组件:异构任务调度、显存池管理与全链路异常诊断机制解析
人工智能·自动化
算法备案代理10 分钟前
大模型备案与算法备案,企业该如何选择?
人工智能·算法·大模型·算法备案
酷酷的崽79810 分钟前
CANN 生态可维护性与可观测性:构建生产级边缘 AI 系统的运维体系
运维·人工智能
哈__11 分钟前
CANN加速Inpainting图像修复:掩码处理与边缘融合优化
人工智能
深鱼~13 分钟前
ops-transformer算子库:解锁昇腾大模型加速的关键
人工智能·深度学习·transformer·cann
笔画人生17 分钟前
进阶解读:`ops-transformer` 内部实现与性能调优实战
人工智能·深度学习·transformer