文章目录
-
- [一、直接离散化:逐维分箱 / 语言式 Token](#一、直接离散化:逐维分箱 / 语言式 Token)
-
- [1. 标准 Bin Tokenization(OpenVLA、RT-2、VIMA 等)](#1. 标准 Bin Tokenization(OpenVLA、RT-2、VIMA 等))
- [2. 统一模态 Token 空间(MM-ACT 等)](#2. 统一模态 Token 空间(MM-ACT 等))
- [二、频域压缩离散化:FAST Token(π0-FAST)](#二、频域压缩离散化:FAST Token(π0-FAST))
-
- [1. 核心原理(Physical Intelligence)](#1. 核心原理(Physical Intelligence))
- [2. 优势](#2. 优势)
- [三、连续动作生成:Flow Matching(π0, SmolVLA, LLaDA-VLA 等)](#三、连续动作生成:Flow Matching(π0, SmolVLA, LLaDA-VLA 等))
-
- [1. Flow Matching 基本机制](#1. Flow Matching 基本机制)
- [2. 代表模型](#2. 代表模型)
- [3. 优缺点](#3. 优缺点)
- [四、三种方案对比(π0 系全覆盖)](#四、三种方案对比(π0 系全覆盖))
- 五、其他混合/进阶方案
目前 VLA(Vision-Language-Action)模型在机器人领域的 action 输出编码 主要分为三大流派: 直接离散化(语言/动作Token) 、 频域压缩离散化(FAST Token) 、 连续生成(Flow Matching / 扩散) 。你提到的 Π0(Physical Intelligence)同时覆盖了后两种( π0 用 Flow Matching, π0-FAST 用 FAST Token)。下面按类别详细总结(截至2026年4月主流方案)。
一、直接离散化:逐维分箱 / 语言式 Token
核心思想:把连续动作(关节角、位姿、 gripper 开合)按维度均匀分箱(binning),映射到固定词汇表的离散 Token,让 VLA 像生成文本一样自回归生成动作序列。
1. 标准 Bin Tokenization(OpenVLA、RT-2、VIMA 等)
- 做法 :
- 每个动作维度(如 x/y/z、关节1~7、夹爪)归一化到
[-1, 1] - 均匀分成
N个 bin(常用256 / 512 / 1024) - 每个 bin 对应一个专用动作 Token(或复用语言词表空余位)
- 模型输出:
[action_103, action_198, ...]序列,再反插值回连续值
- 每个动作维度(如 x/y/z、关节1~7、夹爪)归一化到
- 代表:OpenVLA、RT-2、CogACT、早期 Octo
- 优缺点 :
- ✅ 与 LLM/VLM 自回归范式完全兼容、易实现
- ❌ 精度低、高频动作(灵巧操作)失真、误差累积
2. 统一模态 Token 空间(MM-ACT 等)
- 做法 :
- 文本、图像、动作用各自分词器但共享大词表
- 动作:
[-1,1] → bin → 专用动作 Token(如 2048 个) - 用特殊标记区分模态:
<IMG>,<TEXT>,<ACT>
- 代表:MM-ACT、LLaDA-VLA
- 特点:多模态完全统一,但动作仍是简单分箱离散。
二、频域压缩离散化:FAST Token(π0-FAST)
你说的 Π0 中的 FAST Token 就是 FAST (Frequency-space Action Sequence Tokenization)。
1. 核心原理(Physical Intelligence)
- 痛点 :简单分箱对高频、长序列、灵巧动作(如拧螺丝、穿线)效果极差。
- 方法 :
- 对整条动作序列 (而非单步)做 DCT 离散余弦变换,转到频域
- 保留低频主成分(丢弃高频噪声),实现序列级压缩
- 对频域系数分箱、量化 → FAST Token
- 自回归生成 FAST Token 序列,再 IDCT 反变换回连续动作
- π0-FAST :
- π0 模型的离散版本:
π0 (Flow Matching)↔π0-FAST (FAST Token) - 词表:约 1024 个专用动作 Token
- 训练速度比标准分箱 快 ~5倍、支持高频灵巧技能
- π0 模型的离散版本:
2. 优势
- ✅ 保留时序相关性、压缩冗余、高频动作保真
- ✅ 可作为黑盒分词器跨机器人/动作空间复用
- ✅ 支持零样本泛化(DROID 数据集上首次实现)
三、连续动作生成:Flow Matching(π0, SmolVLA, LLaDA-VLA 等)
主流连续方案 :用 Flow Matching(流匹配) 直接输出连续动作向量/块,不做离散 Token。
1. Flow Matching 基本机制
- 建模:从先验分布 (高斯噪声)→ 专家动作分布的连续概率流
- 学习 时间依赖的向量场
v_θ(x_t, t, c) - ODE 积分:
dx_t/dt = v_θ(x_t, t, c),从噪声x₀流到目标动作x₁ - 输出:连续动作块(如 8/16 步动作序列),直接发给机器人控制器
2. 代表模型
- π0 / π0.5 (Physical Intelligence)
- 原生 Flow Matching 头,输出连续关节角/位姿
- 支持 50Hz 实时控制、高精度灵巧操作
- SmolVLA、AsyncVLA、ProbeFlow
- 变体:异步流匹配(选择性修正低置信度动作)、门控流匹配
- LLaDA-VLA
- 扩散 + 局部化 Token 分类(混合离散-连续)
3. 优缺点
- ✅ 高精度、平滑轨迹、无离散化误差
- ✅ 支持并行生成(Chunking)、低延迟
- ❌ 不能直接复用 LLM 自回归损失,需额外训练头
四、三种方案对比(π0 系全覆盖)
| 方式 | 输出形式 | 代表模型 | 精度 | 速度/训练 | 适用场景 |
|---|---|---|---|---|---|
| 直接分箱 Token | 离散语言式Token | OpenVLA, RT-2 | 低 | 快、易实现 | 简单任务、桌面抓取 |
| FAST Token | 频域压缩离散Token | π0-FAST | 中高 | 极快、5×加速 | 灵巧操作、长序列、泛化 |
| Flow Matching | 连续动作向量/块 | π0, π0.5, SmolVLA | 最高 | 较慢、精度优先 | 精密操控、实时控制、多模态 |
一句话总结你关心的 Π0:
- π0 :Flow Matching 连续动作(高精度、实时)
- π0-FAST :FAST 频域 Token(高效、离散、泛化强)
- 两者同属 Physical Intelligence 一系,覆盖连续/离散两条技术路线。
五、其他混合/进阶方案
- 扩散模型(Diffusion):类似 Flow Matching、迭代去噪、多模态分布建模(Octo、LLaDA-VLA)
- 动作 BPE:对动作序列做聚类/ BPE 压缩(类似文本分词)
- 层级动作解码:先高层面子任务 → 再低连续动作(VLSA、DFM-VLA)