VLA(Vision-Language-Action)模型在机器人领域的action 输出编码

文章目录

    • [一、直接离散化:逐维分箱 / 语言式 Token](#一、直接离散化:逐维分箱 / 语言式 Token)
      • [1. 标准 Bin Tokenization(OpenVLA、RT-2、VIMA 等)](#1. 标准 Bin Tokenization(OpenVLA、RT-2、VIMA 等))
      • [2. 统一模态 Token 空间(MM-ACT 等)](#2. 统一模态 Token 空间(MM-ACT 等))
    • [二、频域压缩离散化:FAST Token(π0-FAST)](#二、频域压缩离散化:FAST Token(π0-FAST))
      • [1. 核心原理(Physical Intelligence)](#1. 核心原理(Physical Intelligence))
      • [2. 优势](#2. 优势)
    • [三、连续动作生成:Flow Matching(π0, SmolVLA, LLaDA-VLA 等)](#三、连续动作生成:Flow Matching(π0, SmolVLA, LLaDA-VLA 等))
      • [1. Flow Matching 基本机制](#1. Flow Matching 基本机制)
      • [2. 代表模型](#2. 代表模型)
      • [3. 优缺点](#3. 优缺点)
    • [四、三种方案对比(π0 系全覆盖)](#四、三种方案对比(π0 系全覆盖))
    • 五、其他混合/进阶方案

目前 VLA(Vision-Language-Action)模型在机器人领域的 action 输出编码 主要分为三大流派: 直接离散化(语言/动作Token)频域压缩离散化(FAST Token)连续生成(Flow Matching / 扩散) 。你提到的 Π0(Physical Intelligence)同时覆盖了后两种( π0 用 Flow Matching, π0-FAST 用 FAST Token)。下面按类别详细总结(截至2026年4月主流方案)。


一、直接离散化:逐维分箱 / 语言式 Token

核心思想:把连续动作(关节角、位姿、 gripper 开合)按维度均匀分箱(binning),映射到固定词汇表的离散 Token,让 VLA 像生成文本一样自回归生成动作序列。

1. 标准 Bin Tokenization(OpenVLA、RT-2、VIMA 等)

  • 做法
    • 每个动作维度(如 x/y/z、关节1~7、夹爪)归一化到 [-1, 1]
    • 均匀分成 N 个 bin(常用 256 / 512 / 1024
    • 每个 bin 对应一个专用动作 Token(或复用语言词表空余位)
    • 模型输出:[action_103, action_198, ...] 序列,再反插值回连续值
  • 代表:OpenVLA、RT-2、CogACT、早期 Octo
  • 优缺点
    • ✅ 与 LLM/VLM 自回归范式完全兼容、易实现
    • ❌ 精度低、高频动作(灵巧操作)失真、误差累积

2. 统一模态 Token 空间(MM-ACT 等)

  • 做法
    • 文本、图像、动作用各自分词器但共享大词表
    • 动作:[-1,1] → bin → 专用动作 Token(如 2048 个)
    • 用特殊标记区分模态:<IMG>, <TEXT>, <ACT>
  • 代表:MM-ACT、LLaDA-VLA
  • 特点:多模态完全统一,但动作仍是简单分箱离散。

二、频域压缩离散化:FAST Token(π0-FAST)

你说的 Π0 中的 FAST Token 就是 FAST (Frequency-space Action Sequence Tokenization)

1. 核心原理(Physical Intelligence)

  • 痛点 :简单分箱对高频、长序列、灵巧动作(如拧螺丝、穿线)效果极差。
  • 方法
    1. 整条动作序列 (而非单步)做 DCT 离散余弦变换,转到频域
    2. 保留低频主成分(丢弃高频噪声),实现序列级压缩
    3. 对频域系数分箱、量化 → FAST Token
    4. 自回归生成 FAST Token 序列,再 IDCT 反变换回连续动作
  • π0-FAST
    • π0 模型的离散版本:π0 (Flow Matching)π0-FAST (FAST Token)
    • 词表:约 1024 个专用动作 Token
    • 训练速度比标准分箱 快 ~5倍、支持高频灵巧技能

2. 优势

  • ✅ 保留时序相关性、压缩冗余、高频动作保真
  • ✅ 可作为黑盒分词器跨机器人/动作空间复用
  • ✅ 支持零样本泛化(DROID 数据集上首次实现)

三、连续动作生成:Flow Matching(π0, SmolVLA, LLaDA-VLA 等)

主流连续方案 :用 Flow Matching(流匹配) 直接输出连续动作向量/块,不做离散 Token

1. Flow Matching 基本机制

  • 建模:从先验分布 (高斯噪声)→ 专家动作分布的连续概率流
  • 学习 时间依赖的向量场 v_θ(x_t, t, c)
  • ODE 积分:dx_t/dt = v_θ(x_t, t, c),从噪声 x₀ 流到目标动作 x₁
  • 输出:连续动作块(如 8/16 步动作序列),直接发给机器人控制器

2. 代表模型

  • π0 / π0.5 (Physical Intelligence)
    • 原生 Flow Matching 头,输出连续关节角/位姿
    • 支持 50Hz 实时控制、高精度灵巧操作
  • SmolVLA、AsyncVLA、ProbeFlow
    • 变体:异步流匹配(选择性修正低置信度动作)、门控流匹配
  • LLaDA-VLA
    • 扩散 + 局部化 Token 分类(混合离散-连续)

3. 优缺点

  • 高精度、平滑轨迹、无离散化误差
  • ✅ 支持并行生成(Chunking)、低延迟
  • ❌ 不能直接复用 LLM 自回归损失,需额外训练头

四、三种方案对比(π0 系全覆盖)

方式 输出形式 代表模型 精度 速度/训练 适用场景
直接分箱 Token 离散语言式Token OpenVLA, RT-2 快、易实现 简单任务、桌面抓取
FAST Token 频域压缩离散Token π0-FAST 中高 极快、5×加速 灵巧操作、长序列、泛化
Flow Matching 连续动作向量/块 π0, π0.5, SmolVLA 最高 较慢、精度优先 精密操控、实时控制、多模态

一句话总结你关心的 Π0

  • π0Flow Matching 连续动作(高精度、实时)
  • π0-FASTFAST 频域 Token(高效、离散、泛化强)
  • 两者同属 Physical Intelligence 一系,覆盖连续/离散两条技术路线。

五、其他混合/进阶方案

  • 扩散模型(Diffusion):类似 Flow Matching、迭代去噪、多模态分布建模(Octo、LLaDA-VLA)
  • 动作 BPE:对动作序列做聚类/ BPE 压缩(类似文本分词)
  • 层级动作解码:先高层面子任务 → 再低连续动作(VLSA、DFM-VLA)
相关推荐
冬奇Lab2 小时前
一天一个开源项目(第62篇):lark-cli - 飞书/Lark 官方 CLI 与 AI Agent Skills
人工智能·开源·资讯
guslegend2 小时前
Ollama
人工智能·大模型
空空潍3 小时前
Spring AI与LangChain对比:组件对应关系、设计差异与选型指南
人工智能·spring·langchain
0 13 小时前
260401日志
人工智能·深度学习·nlp
是有头发的程序猿3 小时前
用Open Claw接口做1688选品、价格监控、货源对比
开发语言·c++·人工智能
chools3 小时前
Java后端拥抱AI开发之个人学习路线 - - Spring AI【第一期】
java·人工智能·学习·spring·ai
IT_陈寒3 小时前
Vite热更新坑了我三天,原来配置要这么写
前端·人工智能·后端
嘉恩督4 小时前
ACoT-VLA:让机器人用动作思考——CVPR2026
机器人·大模型·vim
子兮曰4 小时前
CLI正在吞掉GUI:不是替代,是统治,AI时代的入口争夺战
人工智能·github·命令行