VLA（Vision-Language-Action）模型在机器人领域的action 输出编码

文章目录

- [一、直接离散化：逐维分箱 / 语言式 Token](#一、直接离散化：逐维分箱 / 语言式 Token)
- - [1. 标准 Bin Tokenization（OpenVLA、RT-2、VIMA 等）](#1. 标准 Bin Tokenization（OpenVLA、RT-2、VIMA 等）)
  - [2. 统一模态 Token 空间（MM-ACT 等）](#2. 统一模态 Token 空间（MM-ACT 等）)
- [二、频域压缩离散化：FAST Token（π0-FAST）](#二、频域压缩离散化：FAST Token（π0-FAST）)
- - [1. 核心原理（Physical Intelligence）](#1. 核心原理（Physical Intelligence）)
  - [2. 优势](#2. 优势)
- [三、连续动作生成：Flow Matching（π0, SmolVLA, LLaDA-VLA 等）](#三、连续动作生成：Flow Matching（π0, SmolVLA, LLaDA-VLA 等）)
- - [1. Flow Matching 基本机制](#1. Flow Matching 基本机制)
  - [2. 代表模型](#2. 代表模型)
  - [3. 优缺点](#3. 优缺点)
- [四、三种方案对比（π0 系全覆盖）](#四、三种方案对比（π0 系全覆盖）)
- 五、其他混合/进阶方案

目前 VLA（Vision-Language-Action）模型在机器人领域的 action 输出编码 主要分为三大流派： 直接离散化（语言/动作Token） 、 频域压缩离散化（FAST Token） 、 连续生成（Flow Matching / 扩散） 。你提到的 Π0（Physical Intelligence）同时覆盖了后两种（ π0 用 Flow Matching， π0-FAST 用 FAST Token）。下面按类别详细总结（截至2026年4月主流方案）。

一、直接离散化：逐维分箱 / 语言式 Token

核心思想：把连续动作（关节角、位姿、 gripper 开合）按维度均匀分箱（binning），映射到固定词汇表的离散 Token，让 VLA 像生成文本一样自回归生成动作序列。

1. 标准 Bin Tokenization（OpenVLA、RT-2、VIMA 等）

做法：
- 每个动作维度（如 x/y/z、关节1~7、夹爪）归一化到 [-1, 1]
- 均匀分成 N 个 bin（常用 256 / 512 / 1024）
- 每个 bin 对应一个专用动作 Token（或复用语言词表空余位）
- 模型输出：[action_103, action_198, ...] 序列，再反插值回连续值
代表：OpenVLA、RT-2、CogACT、早期 Octo
优缺点 ：
- ✅ 与 LLM/VLM 自回归范式完全兼容、易实现
- ❌ 精度低、高频动作（灵巧操作）失真、误差累积

2. 统一模态 Token 空间（MM-ACT 等）

做法：
- 文本、图像、动作用各自分词器但共享大词表
- 动作：[-1,1] → bin → 专用动作 Token（如 2048 个）
- 用特殊标记区分模态：<IMG>, <TEXT>, <ACT>
代表：MM-ACT、LLaDA-VLA
特点：多模态完全统一，但动作仍是简单分箱离散。

二、频域压缩离散化：FAST Token（π0-FAST）

你说的 Π0 中的 FAST Token 就是 FAST (Frequency-space Action Sequence Tokenization)。

1. 核心原理（Physical Intelligence）

痛点：简单分箱对高频、长序列、灵巧动作（如拧螺丝、穿线）效果极差。
方法：
1. 对整条动作序列 （而非单步）做 DCT 离散余弦变换，转到频域
2. 保留低频主成分（丢弃高频噪声），实现序列级压缩
3. 对频域系数分箱、量化 → FAST Token
4. 自回归生成 FAST Token 序列，再 IDCT 反变换回连续动作
π0-FAST ：
- π0 模型的离散版本：π0 (Flow Matching) ↔ π0-FAST (FAST Token)
- 词表：约 1024 个专用动作 Token
- 训练速度比标准分箱 快 ~5倍、支持高频灵巧技能

2. 优势

✅ 保留时序相关性、压缩冗余、高频动作保真
✅ 可作为黑盒分词器跨机器人/动作空间复用
✅ 支持零样本泛化（DROID 数据集上首次实现）

三、连续动作生成：Flow Matching（π0, SmolVLA, LLaDA-VLA 等）

主流连续方案 ：用 Flow Matching（流匹配） 直接输出连续动作向量/块，不做离散 Token。

1. Flow Matching 基本机制

建模：从先验分布 （高斯噪声）→ 专家动作分布的连续概率流
学习 时间依赖的向量场 v_θ(x_t, t, c)
ODE 积分：dx_t/dt = v_θ(x_t, t, c)，从噪声 x₀ 流到目标动作 x₁
输出：连续动作块（如 8/16 步动作序列），直接发给机器人控制器

2. 代表模型

π0 / π0.5 （Physical Intelligence）
- 原生 Flow Matching 头，输出连续关节角/位姿
- 支持 50Hz 实时控制、高精度灵巧操作
SmolVLA、AsyncVLA、ProbeFlow
- 变体：异步流匹配（选择性修正低置信度动作）、门控流匹配
LLaDA-VLA
- 扩散 + 局部化 Token 分类（混合离散-连续）

3. 优缺点

✅ 高精度、平滑轨迹、无离散化误差
✅ 支持并行生成（Chunking）、低延迟
❌ 不能直接复用 LLM 自回归损失，需额外训练头

四、三种方案对比（π0 系全覆盖）

方式	输出形式	代表模型	精度	速度/训练	适用场景
直接分箱 Token	离散语言式Token	OpenVLA, RT-2	低	快、易实现	简单任务、桌面抓取
FAST Token	频域压缩离散Token	π0-FAST	中高	极快、5×加速	灵巧操作、长序列、泛化
Flow Matching	连续动作向量/块	π0, π0.5, SmolVLA	最高	较慢、精度优先	精密操控、实时控制、多模态

一句话总结你关心的 Π0：

π0 ：Flow Matching 连续动作（高精度、实时）

π0-FAST ：FAST 频域 Token（高效、离散、泛化强）

两者同属 Physical Intelligence 一系，覆盖连续/离散两条技术路线。

五、其他混合/进阶方案

扩散模型（Diffusion）：类似 Flow Matching、迭代去噪、多模态分布建模（Octo、LLaDA-VLA）
动作 BPE：对动作序列做聚类/ BPE 压缩（类似文本分词）
层级动作解码：先高层面子任务 → 再低连续动作（VLSA、DFM-VLA）