《VLA 系列》π0.5 | 流匹配 | 分层推理

π0.5 基于π0 模型升级，采用统一Transformer架构，核心是分层推理 、离散+连续动作融合表示，是首个实现开放世界复杂家庭任务泛化的端到端VLA模型。

推理机制：分层推理 ，先根据全局任务指令和场景观测预测高层语义子任务 ，再基于高层子任务生成低层连续动作块，二者由同一模型实现，区别于传统的双模型分离设计。
动作表示：融合离散token （预训练阶段，训练效率高）与连续流匹配（后训练/推理阶段，支持精细动作、实时推理），通过联合损失函数优化，兼顾训练效率与实际控制效果。

论地地址：π0.5：a Vision-Language-Action Model with Open-World Generalization

开源地址：https://github.com/Physical-Intelligence/openpi

1、模型架构

如下图所示，是π0.5后训练&推理阶段的核心流程，聚焦"全局任务→子任务→连续动作"的分层控制。

思路流程要点如下：

1.1、输入组件：任务指令+场景观测

高层提示（high-level prompt）：全局任务指令（如"clean the bedroom"）
场景图像：真实环境的视觉观测（如卧室场景图）
噪声（noise）：用于流匹配算法的去噪过程，辅助生成连续动作

1.2、核心模块

预训练VLA：承接预训练阶段的VLA模型，负责高层任务的子任务拆解
动作专家（action expert，300M参数）：独立模块，专门处理连续机器人动作的生成

1.3、处理流程（分层推理+连续动作生成）

① 高层子任务拆解 ：预训练VLA基于"高层提示+场景图像"，完成子任务预测（subtask prediction），将全局任务拆解为可执行的低层指令（low-level command，如"pick up the pillow"）

② 低层连续动作生成 ：动作专家接收"低层指令+场景信息+噪声"，通过流匹配算法（逐步去噪）生成精细的连续机器人动作

1.4、输出结果

连续动作参数（如"-1.7、1.25"等数值），对应机器人的关节角度、底座速度等控制量，直接用于硬件的端到端控制。

1.5、π0.5 与 π0区别

π0.5 与 π0 的推理流程核心区别可从推理层次、架构设计、任务拆解、输入处理、动作生成逻辑等维度分析。

回顾看一下π0的架构：

对比维度	π0推理流程特征	π0.5推理流程特征
推理层次	单层扁平逻辑，直接从"全局指令+场景图像+机器人状态"生成动作（"任务→动作"）	分层推理逻辑，遵循 "全局任务→高层子任务推理→低层连续动作生成" 的链式流程，先预测高层子任务再生成动作
架构设计	双专家分离：VLM专家与动作专家是分离模块，仅共享注意力层交互	统一模型一体化推理：同一VLA模型完成"高层子任务推理+低层动作生成"，动作专家为模型分支模块
任务拆解能力	无自主分解能力，仅能处理训练覆盖的短时序简单任务，长时程任务规划能力弱	显式子任务预测，可自主拆解全局复杂任务，适配10-15分钟长时程任务的连续决策
输入处理	机器人状态以连续向量形式输入，通过线性投影转化为嵌入后与视觉-语言特征拼接	机器人状态离散化为文本Token，作为语言指令的一部分输入模型，适配语义推理逻辑
动作生成逻辑	直接基于"全局指令+场景图像"生成动作，动作与任务的关联依赖模型隐式学习	基于"预测的高层子任务+场景图像"生成动作，动作与当前子任务强绑定，控制合理性提升

2、π0.5架构设计思路

2.1、核心目标

设计单一统一的Transformer架构 ，实现高层语义子任务预测 与低层连续动作生成 的一体化推理，同时支持多模态输入输出 与异构多源数据的灵活处理，打破传统VLA模型"双模型分离推理"的冗余设计，实现知识共享与推理效率提升。

2.2、具体实现

多模态输入输出定义

模型的核心输入为观测 o t o_t ot （多相机图像+机器人本体状态：关节角度、夹爪姿态、躯干高度、底座速度）+全局任务语言指令 ℓ \ell ℓ （如"清洁厨房"）；

核心输出为高层文本子任务 ℓ ^ \hat{\ell} ℓ^ （如"拿起盘子"，可为子任务预测/视觉语言问答结果）+低层连续动作块 a t : t + H a_{t:t+H} at:t+H ，同时支持图像描述、目标定位等视觉语言任务的输出。

本体状态被离散化为文本token输入模型，实现多模态输入的统一token化处理。
核心概率分布分解

模型将联合预测分布拆解为高层子任务分布 与低层动作分布 的乘积，公式为：（在第4节会详细讲解的）
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_{\theta}\left(a_{t: t+H}, \hat{\ell} | o_{t}, \ell\right)=\pi_{\theta}\left(a_{t: t+H} | o_{t}, \hat{\ell}\right) \pi_{\theta}\left(\hat{\ell} | o_{t}, \ell\right) πθ(at:t+H,ℓ^∣ot,ℓ)=πθ(at:t+H∣ot,ℓ^)πθ(ℓ^∣ot,ℓ)

该分解是分层推理 的核心数学基础：低层动作生成仅依赖高层子任务，而非原始全局指令，让模型先完成"任务拆解"再执行"动作生成"，适配长时程复杂任务的规划需求。
Transformer架构的灵活拓展

模型的Transformer骨干支持多类型token输入（文本离散token、图像块token、流匹配连续动作token），并通过三大机制实现模态差异化处理：
- 模态专属编码器：图像块经视觉编码器处理，文本token经词嵌入矩阵处理，连续动作token经线性投影融入嵌入空间；
- 模态专属专家权重 ：不同类型token在Transformer中由独立的专家权重处理，尤其是动作token由专属的动作专家权重处理（继承π0设计），提升模态处理的针对性；
- 灵活注意力机制 ：突破传统LLM的因果注意力 限制，采用双向注意力处理图像块、文本指令、连续动作token，仅对离散动作token保留自回归因果注意力，提升多模态信息融合效率。
输出分支设计

Transformer的输出被分为文本token输出分支 与动作输出分支：
- 文本分支输出子任务/问答的logits，用于自回归解码生成高层文本；
- 动作分支由独立的动作专家生成连续动作token，经线性投影转化为流匹配向量场，最终生成连续动作块（动作专家规模远小于骨干网络，兼顾效率）。

2.3、关键细节

模型的输入token为混合类型 （离散+连续），输出分支相互独立，且损失仅作用于有效输出token（ M + H ≤ N M+H ≤N M+H≤N，M为文本token数，H为动作token数）；
注意力矩阵通过token类型标识 ρ ( x i ) \rho(x_i) ρ(xi)控制注意力交互，确保不同模态token的合理交互，为后续"离散-连续动作表示融合"的注意力掩码设计奠定基础。

2.4、设计意义

首次实现同一模型 完成VLA模型的高层推理与低层动作生成，解决了双模型分离设计的知识割裂、推理冗余 问题，让预训练的通用知识能同时服务于子任务拆解和动作生成；
灵活的多模态输入输出设计，让模型能处理机器人动作数据、视觉语言网络数据、人类语言指令数据等异构数据，为后续"多源数据协同训练"提供架构支撑；
概率分布的分层分解，让模型具备长时程任务的规划能力，能自主将"清洁厨房"这类全局任务拆解为一系列可执行的子任务，适配真实家庭的复杂操作需求。

3、离散-连续动作表示的融合

3.1、核心目标

解决VLA模型训练效率 与推理效果的核心矛盾：离散动作token训练效率高但推理实时性差，连续流匹配动作表示推理精细、实时性好但训练效率低。

通过混合表示+联合损失，融合二者优势，实现"高效预训练+高质量实时推理"。

3.2、具体实现

两种动作表示的分工
- 离散token ：用于预训练阶段 ，将连续机器人动作压缩为离散token，采用自回归下一个token预测的方式训练，与大模型训练逻辑一致，实现异构多源数据的高效协同训练；
- 连续流匹配表示 ：用于后训练+推理阶段 ，继承π0的流匹配技术，模型预测流匹配向量场，通过逐步去噪生成连续动作块，支持精细的机器人控制与实时推理。
流匹配技术的核心原理（继承π0）

给定带噪动作 a t : t + H τ , ω = τ a t : t + H + ( 1 − τ ) ω a_{t: t+H}^{\tau, \omega}=\tau a_{t: t+H}+(1-\tau) \omega at:t+Hτ,ω=τat:t+H+(1−τ)ω（ ω ∼ N ( 0 , I ) \omega \sim N(0, I) ω∼N(0,I)为高斯噪声， τ ∈ [ 0 , 1 ] \tau \in[0,1] τ∈[0,1]为流匹配时间索引），模型训练目标为预测流匹配向量场 ω − a t \omega-a_{t} ω−at，通过逐步去噪（τ从0到1）生成干净的连续动作。
联合损失函数的设计

模型通过联合损失 同时优化离散token预测与连续流匹配预测，解决两种表示的融合问题，损失函数为：（详细的公式分析请查看第5节）
E D , τ , ω [ H ( x 1 : M , f θ ℓ ( o t , ℓ ) ) + α ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , ℓ ) ∥ 2 ] \mathbb{E}{\mathcal{D}, \tau, \omega}\left[ H\left(x{1: M}, f_{\theta}^{\ell}\left(o_{t}, \ell\right)\right)+\alpha\left\| \omega-a_{t: t+H}-f_{\theta}^{a}\left(a_{t: t+H}^{\tau, \omega}, o_{t}, \ell\right)\right\| ^{2}\right] ED,τ,ω[H(x1:M,fθℓ(ot,ℓ))+α ω−at:t+H−fθa(at:t+Hτ,ω,ot,ℓ) 2]

其中：
- H ( ⋅ ) H(\cdot) H(⋅)为交叉熵损失，优化文本token（含离散动作token）的自回归预测；
- ∥ ⋅ ∥ 2 \|\cdot\|^2 ∥⋅∥2为均方误差损失，优化流匹配向量场的预测；
- α \alpha α为损失平衡参数 ，预训练阶段 α = 0 \alpha=0 α=0（仅优化离散token），后训练阶段 α = 10.0 \alpha=10.0 α=10.0（联合优化）。
注意力掩码的关键设计

通过注意力矩阵掩码 ，让离散动作token与连续流匹配动作token互不关注，避免两种表示之间的信息泄漏，确保训练过程中两种表示的独立优化，推理时再实现无缝衔接。

3.3、关键细节

预训练阶段仅用离散token，后训练阶段加入流匹配动作专家（随机权重初始化），逐步将离散的通用动作知识转化为连续的精细操作能力；
推理时，模型先通过自回归解码 生成高层文本子任务，再基于子任务，通过10步流匹配去噪生成连续动作块，兼顾推理效率与动作精细度。

3.4、设计意义

解决了VLA模型的核心技术矛盾（训练效率vs推理效果），是π0.5能实现"280k步大规模预训练+高效实时推理"的关键；
离散token的使用让预训练能兼容机器人动作数据、视觉语言数据等异构数据，实现多源数据的统一token化训练；
连续流匹配的使用让模型能生成高维、精细的连续动作（18-19DoF），适配移动操作器的复杂控制需求，避免离散token的动作量化误差。

3.5、预训练框架

如下图所示，是π0.5预训练阶段的核心流程，聚焦VLA通用知识的离散化学习

π0.5预训练阶段，思路流程要点如下：

1. 输入组件：多模态数据+任务指引

多模态数据源（左侧）：提供视觉信息，包含不同来源图像
任务特定提示（右侧）：提供语言形式的任务指令/请求，包含：高层任务（如"clean the kitchen"）、子任务（如"pick up the pillow"）、功能请求（如"caption the image""localize the gripper"）

2. 核心处理模型

预训练VLM，由下面两部分组成：

SigLIP（400M）：负责处理视觉图像，提取视觉特征
Gemma（2.6B） ：负责处理语言文本，提供语言语义能力
二者组成的视觉-语言骨干架构，实现多模态信息的融合。

3. 处理逻辑：多模态输入→离散令牌序列学习

模型将"多模态图像 + 任务特定提示"统一转化为离散令牌序列 ，通过自回归下一个令牌预测任务，学习"视觉-语言-动作-目标"之间的关联，实现跨模态通用知识的融合。

4. 输出结果：离散化的多模态知识

生成四类离散化输出，对应预训练学习到的通用能力：

语言子任务（如"put the plate in the sink"）：任务拆解知识
离散动作（如"-17、12"等令牌）：机器人基础操作知识
开放词汇描述（如"a dog catches a frisbee"）：视觉-语言语义知识
边界框（如"3、35"等坐标）：目标定位知识

4、π0.5架构核心公式分析

π0.5的架构，核心设计目标是打造**单一统一的Transformer架构**，打破传统VLA模型"高层推理与低层动作生成双模型分离"的冗余设计，实现**高层语义子任务预测**和**低层连续动作生成**的一体化推理；

同时通过灵活的多模态处理设计，支撑异构多源数据的训练与开放世界泛化。

核心目标 ：用一个Transformer模型 同时完成V LA的多模态输入处理 、高层语义子任务的文本推理 、低层机器人连续动作的生成 ，实现三者的知识共享，解决双模型分离的知识割裂、推理冗余 问题，适配清洁厨房/卧室这类长时程复杂任务的规划与执行需求。

4.1、核心公式解析

π0.5架构的核心公式为联合概率分布的分层分解式 ，也是整个架构设计的逻辑起点，先放完整公式：
π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) = π θ ( a t : t + H ∣ o t , ℓ ^ ) π θ ( ℓ ^ ∣ o t , ℓ ) \pi_{\theta}\left(a_{t: t+H}, \hat{\ell} | o_{t}, \ell\right)=\pi_{\theta}\left(a_{t: t+H} | o_{t}, \hat{\ell}\right) \pi_{\theta}\left(\hat{\ell} | o_{t}, \ell\right) πθ(at:t+H,ℓ^∣ot,ℓ)=πθ(at:t+H∣ot,ℓ^)πθ(ℓ^∣ot,ℓ)

（一）公式中所有符号的精准释义（结合论文预备知识+架构定义）

先把公式中每个符号的含义讲透，这是理解公式的基础，其中部分基础符号继承自论文预备知识章节，π0.5做了小幅拓展：

符号	类型	具体含义	补充说明
π θ \pi_{\theta} πθ	模型分布	由参数 θ \theta θ表征的π0.5模型的概率分布	θ \theta θ是模型的所有可训练权重（Transformer骨干+动作专家等）
a t : t + H a_{t:t+H} at:t+H	输出：低层动作	模型在 t t t时刻预测的连续动作块，涵盖 t t t到 t + H t+H t+H共 H H H步的机器人动作	继承预备知识的"动作块"设计，π0.5中 H = 49 H=49 H=49（动作视野50），动作是18-19DoF的连续值（机械臂+底座+躯干）
ℓ ^ \hat{\ell} ℓ^	输出：高层子任务	模型在 t t t时刻预测的高层语义子任务文本（token化表示）	如全局指令是"清洁厨房"， ℓ ^ \hat{\ell} ℓ^可是"拿起盘子""打开橱柜"，也可作为视觉语言任务的输出（如图像描述、VQA答案）
o t o_{t} ot	输入：观测	模型在 t t t时刻的多模态观测	包含4台相机的图像+机器人本体状态（关节角度、夹爪姿态、底座速度等），本体状态被离散化为文本token输入
ℓ \ell ℓ	输入：全局指令	人类给出的高层全局语言任务指令（token化表示）	如"清洁厨房""把衣服放进洗衣篮"，是模型的核心任务指引
$	$	条件概率符号	表示"在......条件下"的条件概率

（二）公式的分层分解逻辑：从"联合预测"到"先推理、后动作"

公式左侧是模型的联合预测分布 ： π θ ( a t : t + H , ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(a_{t:t+H}, \hat{\ell} | o_{t}, \ell) πθ(at:t+H,ℓ^∣ot,ℓ)表示在当前观测 o t o_t ot和全局指令 ℓ \ell ℓ的条件下，模型同时预测出正确动作块 a t : t + H a_{t:t+H} at:t+H和正确高层子任务 ℓ ^ \hat{\ell} ℓ^的概率。

π0.5将这个联合概率 拆解为两个条件概率的乘积 ，这是整个架构分层推理 的核心数学设计，拆解的核心逻辑是：让低层动作的生成，仅依赖模型预测的高层子任务 ℓ ^ \hat{\ell} ℓ^，而非原始的全局指令 ℓ \ell ℓ。

我们把拆解后的两个条件概率单独解读，理解其分工：

第一部分： π θ ( ℓ ^ ∣ o t , ℓ ) \boldsymbol{\pi_{\theta}(\hat{\ell} | o_{t}, \ell)} πθ(ℓ^∣ot,ℓ)------高层子任务推理分布
- 含义：在当前观测 o t o_t ot和全局指令 ℓ \ell ℓ的条件下，模型预测出**合理高层子任务 ℓ ^ \hat{\ell} ℓ^**的概率。
- 核心作用：实现**"全局任务拆解"，让模型根据当前的场景（ o t o_t ot）和最终目标（ ℓ \ell ℓ），自主判断下一步该做什么具体子任务，这是长时程复杂任务的规划核心**。
- 推理方式：模型通过自回归解码 生成文本token形式的 ℓ ^ \hat{\ell} ℓ^，属于语言语义推理，依赖模型的视觉-语言知识和任务拆解能力。
第二部分： π θ ( a t : t + H ∣ o t , ℓ ^ ) \boldsymbol{\pi_{\theta}(a_{t:t+H} | o_{t}, \hat{\ell})} πθ(at:t+H∣ot,ℓ^)------低层动作生成分布
- 含义：在当前观测 o t o_t ot和模型预测的高层子任务 ℓ ^ \hat{\ell} ℓ^的条件下，模型生成**合理连续动作块 a t : t + H a_{t:t+H} at:t+H**的概率。
- 核心作用：实现**"子任务执行"，让模型根据当前场景（ o t o_t ot）和具体子任务（ ℓ ^ \hat{\ell} ℓ^），生成能完成该子任务的机器人连续动作，这是机器人操作的控制核心**。
- 推理方式：由模型的动作专家 模块生成连续动作token，通过流匹配去噪得到最终动作，属于连续动作控制，依赖模型的机器人操作知识。

4.2、公式的具象化举例：用"清洁厨房"理解推理过程

用论文的核心任务**"清洁厨房"**做具象化举例，让公式的推理逻辑更直观，贴合真实的机器人操作场景：

输入：全局指令 ℓ = \ell= ℓ="清洁厨房" ，当前观测 o t = o_t= ot="厨房台面上有盘子，水槽为空，橱柜关闭"；
第一步：模型计算 π θ ( ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\hat{\ell} | o_{t}, \ell) πθ(ℓ^∣ot,ℓ)，在观测和全局指令下，预测出合理的高层子任务 ℓ ^ = \hat{\ell}= ℓ^="拿起盘子"；
第二步：模型计算 π θ ( a t : t + H ∣ o t , ℓ ^ ) \pi_{\theta}(a_{t:t+H} | o_{t}, \hat{\ell}) πθ(at:t+H∣ot,ℓ^)，在观测和"拿起盘子"的子任务下，生成对应的连续动作块 a t : t + H = a_{t:t+H}= at:t+H="机械臂移动到盘子上方→夹爪闭合→机械臂抬起盘子"；
完成该子任务后，模型更新观测 o t + H o_{t+H} ot+H，重复上述两步，继续预测下一个子任务（如"把盘子放进水槽"）并生成对应动作，直到完成全局指令"清洁厨房"。

核心亮点 ：如果直接让模型从全局指令 ℓ = \ell= ℓ="清洁厨房"生成动作，模型无法直接完成长时程规划；而通过公式的分层分解，模型将复杂的全局任务拆解为一系列简单的子任务，逐个执行，大幅降低了推理难度，这也是π0.5能完成10-15分钟长时程任务的关键。

4.3、支撑公式落地的架构核心模块设计

公式定义了"先推理、后动作"的分层逻辑，而π0.5的架构通过多模态输入输出定义 、灵活的Transformer拓展 、双分支输出设计三大模块，将这个数学逻辑落地为实际的模型结构，三个模块均围绕公式的分层推理展开，缺一不可。

（一）模块1：多模态输入输出的统一定义

为了支撑公式的条件概率计算，π0.5对输入和输出做了多模态、token化的统一定义，让图像、语言、动作、机器人状态能在同一个Transformer中处理：

输入层 ：将观测 o t o_t ot （图像+机器人本体状态）和全局指令 ℓ \ell ℓ （语言）全部转化为token序列 ，实现多模态输入的统一：
- 相机图像：通过视觉编码器转化为图像块token（连续值）；
- 全局指令 ℓ \ell ℓ：通过词嵌入矩阵转化为文本离散token；
- 机器人本体状态：离散化为文本离散token，融入语言指令的token序列中。
输出层 ：直接对应公式的两个输出------高层子任务 ℓ ^ \hat{\ell} ℓ^ （文本token）和低层动作块 a t : t + H a_{t:t+H} at:t+H（连续动作token），让模型的输出与公式的预测目标完全一致。

设计意义：统一的token化输入，让模型能在同一个架构中计算公式的条件概率，无需为不同模态设计独立的子模型，实现了知识共享。

（二）模块2：Transformer骨干的灵活拓展

π0.5的Transformer骨干在传统VLA模型的基础上做了三大关键拓展 ，使其能处理多模态token，并适配公式的分层推理，核心是让不同模态的token得到差异化处理，同时实现高效的信息融合：

模态专属编码器 ：不同类型的输入token由独立的编码器处理，再投影到同一嵌入空间，保证处理的针对性：
- 图像块token→视觉编码器；
- 文本token（ ℓ \ell ℓ+本体状态）→词嵌入矩阵；
- 后续推理的连续动作token→线性投影层（继承π0的设计）。
模态专属专家权重 ：Transformer内部为不同类型的token配备独立的专家权重 ，尤其是动作token由专属的「动作专家」权重处理 ：
- 文本token的推理（计算 π θ ( ℓ ^ ∣ o t , ℓ ) \pi_{\theta}(\hat{\ell} | o_{t}, \ell) πθ(ℓ^∣ot,ℓ)）由LLM骨干专家权重处理，侧重语义推理；
- 动作token的生成（计算 π θ ( a t : t + H ∣ o t , ℓ ^ ) \pi_{\theta}(a_{t:t+H} | o_{t}, \hat{\ell}) πθ(at:t+H∣ot,ℓ^)）由动作专家权重处理，侧重连续动作控制；
- 两者共享Transformer的注意力机制，实现知识互通。
灵活的注意力机制 ：突破传统LLM的因果注意力 限制，采用**"双向注意力+因果注意力"混合模式**，适配多模态信息融合和分层推理：
- 对图像块token、文本token（ ℓ \ell ℓ+本体状态）、连续动作token ：采用双向注意力，让token之间能相互交互，充分融合场景观测和任务指令的信息，为高层子任务推理提供支撑；
- 对离散动作token（预训练阶段） ：保留因果注意力，保证自回归预测的合理性。

设计意义：Transformer的三大拓展，让模型能高效处理多模态输入，同时为公式的两个条件概率计算分配了专属的处理权重，实现"推理"与"动作"的分工协作，又不割裂知识。

（三）模块3：双分支输出设计

模型的Transformer骨干输出端，直接对应公式的两个预测目标，设计了文本token输出分支 和动作输出分支 ，实现高层推理 与低层动作生成的物理分离、逻辑联动：

文本token输出分支 ：
- 输出：高层子任务/视觉语言任务的文本tokenlogits；
- 推理：通过自回归解码 生成离散的文本token序列，即高层子任务 ℓ ^ \hat{\ell} ℓ^；
- 核心作用：完成公式中的高层子任务推理，为动作生成提供具体的任务指引。
动作输出分支 ：
- 核心组件：独立的动作专家模块（继承π0设计，规模远小于Transformer骨干）；
- 输入：当前观测 o t o_t ot的嵌入+高层子任务 ℓ ^ \hat{\ell} ℓ^的文本嵌入；
- 输出：流匹配向量场 ，通过10步去噪生成连续的动作块 a t : t + H a_{t:t+H} at:t+H；
- 核心作用：完成公式中的低层动作生成 ，仅以 ℓ ^ \hat{\ell} ℓ^为任务指引，不直接依赖原始全局指令 ℓ \ell ℓ，严格遵循公式的分层逻辑。

关键细节 ：两个输出分支的损失仅作用于各自的有效token（ M + H ≤ N M+H ≤N M+H≤N， M M M为文本token数， H H H为动作token数），避免了不同任务的损失相互干扰，保证模型训练的稳定性。

4.4、π0.5架构设计的核心优势（对比传统VLA模型）

π0.5的单一统一架构+公式的分层分解，相比传统VLA模型的双模型分离设计（一个模型做高层推理，一个模型做低层动作），具备三大核心优势，也是其能实现开放世界泛化和长时程任务的关键：

知识共享，泛化能力更强：所有的视觉-语言-动作知识都存储在同一个Transformer模型中，高层子任务推理的语义知识能直接为低层动作生成提供支撑（如识别"盘子"的语义知识，能指导机械臂精准抓取盘子），避免了双模型的知识割裂，大幅提升模型的开放世界泛化能力。
推理高效，适配长时程任务：公式的分层分解让模型将复杂的全局任务拆解为简单的子任务，逐个执行，降低了单步推理的难度；同时单一模型的推理无需跨模型传递信息，推理效率远高于双模型设计，能支撑10-15分钟的长时程连续操作。
架构简洁，训练效率更高 ：单一Transformer架构仅需训练一套参数 θ \theta θ，无需训练两个独立的模型，大幅降低了训练的计算成本；同时多模态数据能在同一个架构中做协同训练，让模型从异构多源数据中高效学习通用知识。

5、离散-连续动作表示融合（公式详细分析）

5.1、核心设计目标

VLA模型在机器人控制中，动作表示始终存在难以调和的核心矛盾，而π0.5的离散-连续融合设计正是为了解决这一矛盾：

离散动作token（如FAST） ：将高维连续机器人动作压缩为离散token，可直接沿用大模型自回归下一个token预测 的训练方式，训练效率极高 ，适合大规模异构数据的预训练，但推理时需昂贵的自回归解码，实时性差 ，且动作存在量化误差，难以实现精细的机器人控制；
连续动作表示（流匹配/扩散） ：直接对机器人的连续动作分布建模，能生成高维、精细的连续动作 ，推理时无需自回归解码，实时性好 ，适配机器人硬件控制，但训练效率低，无法支撑大规模异构数据的预训练。

5.2、流匹配连续动作表示的基础公式（带噪动作构造）

π0.5的连续动作表示完全继承自π0的流匹配（Flow Matching）技术，而联合损失函数的核心是优化流匹配的向量场预测 ，因此理解带噪动作的构造公式是理解核心损失公式的前提（这是流匹配的基础，论文中也先给出了该公式）。

1. 带噪动作构造公式

a t : t + H τ , ω = τ ⋅ a t : t + H + ( 1 − τ ) ⋅ ω a_{t: t+H}^{\tau, \omega}=\tau \cdot a_{t: t+H}+(1-\tau) \cdot \omega at:t+Hτ,ω=τ⋅at:t+H+(1−τ)⋅ω

该公式的作用是为原始干净的连续动作块添加高斯噪声，构造带噪动作，流匹配的核心是让模型学习"从带噪动作逐步去噪还原为干净动作"的向量场，而非直接预测干净动作。

2. 公式逐符号精准释义

符号	类型	具体含义	补充说明
a t : t + H τ , ω a_{t:t+H}^{\tau, \omega} at:t+Hτ,ω	连续动作（带噪）	t t t时刻的带噪连续动作块，涵盖 t t t到 t + H t+H t+H共 H H H步动作	π0.5中 H = 49 H=49 H=49（动作视野50），动作是18-19DoF的连续值（机械臂+底座+躯干）
τ \tau τ	标量（流匹配时间索引）	流匹配的去噪时间步，取值范围 τ ∈ [ 0 , 1 ] \tau \in [0,1] τ∈[0,1]	τ = 0 \tau=0 τ=0时，带噪动作完全是噪声； τ = 1 \tau=1 τ=1时，带噪动作就是原始干净动作
a t : t + H a_{t:t+H} at:t+H	连续动作（干净）	机器人专家演示的原始干净连续动作块（模型的目标输出）	来自机器人实采数据，是流匹配去噪的最终目标
ω \omega ω	随机变量（高斯噪声）	服从标准正态分布的高斯噪声， ω ∼ N ( 0 , I ) \omega \sim \mathcal{N}(0, I) ω∼N(0,I)	I I I为单位矩阵，噪声维度与干净动作块 a t : t + H a_{t:t+H} at:t+H完全一致

3. 公式核心逻辑

流匹配的去噪过程是 τ \tau τ从0逐步增加到1 的过程：

当 τ = 0 \tau=0 τ=0时， a t : t + H 0 , ω = ω a_{t:t+H}^{0, \omega}=\omega at:t+H0,ω=ω，动作完全是噪声；
随着 τ \tau τ增大，噪声的权重 ( 1 − τ ) (1-\tau) (1−τ)降低，干净动作的权重 τ \tau τ升高；
当 τ = 1 \tau=1 τ=1时， a t : t + H 1 , ω = a t : t + H a_{t:t+H}^{1, \omega}=a_{t:t+H} at:t+H1,ω=at:t+H，带噪动作还原为干净动作。

模型的核心训练目标 并非直接预测干净动作，而是预测流匹配的向量场 ω − a t : t + H \omega - a_{t:t+H} ω−at:t+H ------即让模型学习"带噪动作需要朝着哪个方向、以多大的幅度调整，才能逐步还原为干净动作"，这是流匹配的核心思想，也是后续联合损失函数中均方误差项的优化目标。

5.3、核心重点：联合损失函数解析

π0.5通过单一联合损失函数 同时优化离散token的自回归预测 和连续流匹配的向量场预测 ，实现离散-连续动作表示的融合训练；该函数也是π0.5预训练和后训练 阶段损失函数切换的核心依据 （通过调节参数 α \alpha α实现）。

1. 联合损失函数完整公式

E D , τ , ω [ H ( x 1 : M , f θ ℓ ( o t , ℓ ) ) + α ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , ℓ ) ∥ 2 ] \mathbb{E}{\mathcal{D}, \tau, \omega}\left[ H\left(x{1: M}, f_{\theta}^{\ell}\left(o_{t}, \ell\right)\right)+\alpha\left\| \omega-a_{t: t+H}-f_{\theta}^{a}\left(a_{t: t+H}^{\tau, \omega}, o_{t}, \ell\right)\right\| ^{2}\right] ED,τ,ω[H(x1:M,fθℓ(ot,ℓ))+α ω−at:t+H−fθa(at:t+Hτ,ω,ot,ℓ) 2]

该公式的核心是两个损失项的加权和 ：第一项是交叉熵损失 ，优化离散token（文本/动作token）的预测；第二项是L2均方误差损失 ，优化流匹配向量场的预测；通过期望 E \mathbb{E} E对数据集、流匹配时间步、高斯噪声做整体期望，保证训练的鲁棒性。

2. 公式逐符号/逐部分精准解析

为了清晰理解，我们将公式拆分为期望部分 、交叉熵损失项 、均方误差损失项 、权重参数四部分分别解析，同时结合论文上下文说明各部分的落地意义：

（1）期望部分： E D , τ , ω [ ⋅ ] \mathbb{E}_{\mathcal{D}, \tau, \omega}[\cdot] ED,τ,ω[⋅]

E \mathbb{E} E：数学期望，代表对括号内的损失项在所有采样维度上取平均值，让损失更稳定，避免单样本/单采样的随机性；
下标 D , τ , ω \mathcal{D}, \tau, \omega D,τ,ω：期望的采样维度，即对训练数据集 D \mathcal{D} D 、流匹配时间步 τ \tau τ 、**高斯噪声 ω \omega ω**三个维度做联合采样并计算损失均值；
- D \mathcal{D} D：π0.5的训练数据集（预训练为异构多源数据，后训练为聚焦移动操作的高质量数据）；
- τ \tau τ：流匹配时间索引，论文中采用Beta分布采样（而非均匀采样），侧重低时间步的学习，提升去噪效率；
- ω \omega ω：标准高斯噪声，每次训练都随机采样，让模型学习对不同噪声的去噪能力。

（2）第一损失项：交叉熵损失 H ( x 1 : M , f θ ℓ ( o t , ℓ ) ) H\left(x_{1: M}, f_{\theta}^{\ell}\left(o_{t}, \ell\right)\right) H(x1:M,fθℓ(ot,ℓ))

核心作用 ：优化离散token的自回归预测 ，包括离散动作token 和文本token （如高层子任务、图像描述），是预训练阶段的唯一损失项。

H ( ⋅ , ⋅ ) H(\cdot, \cdot) H(⋅,⋅)：交叉熵损失（Cross-Entropy Loss），分类任务的经典损失，用于衡量模型预测的离散token分布 与真实的离散token分布之间的差异，差异越小，模型预测越准确；
x 1 : M x_{1:M} x1:M：真实的离散token序列 ，长度为 M M M，包括离散动作token、高层子任务文本token、目标定位边界框token等；
f θ ℓ ( o t , ℓ ) f_{\theta}^{\ell}\left(o_{t}, \ell\right) fθℓ(ot,ℓ)：模型基于当前观测 o t o_t ot和** 全局语言指令 ℓ \ell ℓ** ，预测的离散tokenlogits （未经过softmax的概率得分）；
- θ \theta θ：π0.5模型的所有可训练权重；
- 上标 ℓ \ell ℓ：代表语言/离散token分支（language/logits），与动作专家分支做区分。

（3）第二损失项：L2均方误差 α ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , ℓ ) ∥ 2 \alpha\left\| \omega-a_{t: t+H}-f_{\theta}^{a}\left(a_{t: t+H}^{\tau, \omega}, o_{t}, \ell\right)\right\| ^{2} α ω−at:t+H−fθa(at:t+Hτ,ω,ot,ℓ) 2

核心作用 ：优化流匹配向量场的预测，训练模型学习从带噪动作还原为干净动作的"调整方向和幅度"，是后训练阶段新增的损失项，用于学习连续动作表示。

∥ ⋅ ∥ 2 \|\cdot\|^2 ∥⋅∥2：L2范数的平方，即均方误差（MSE） ，用于衡量模型预测的向量场 与真实的向量场之间的连续值差异；
ω − a t : t + H \omega - a_{t:t+H} ω−at:t+H：真实的流匹配向量场，即带噪动作需要朝着该方向调整，才能逐步还原为干净动作（流匹配的核心目标）；
f θ a ( a t : t + H τ , ω , o t , ℓ ) f_{\theta}^{a}\left(a_{t: t+H}^{\tau, \omega}, o_{t}, \ell\right) fθa(at:t+Hτ,ω,ot,ℓ)：模型基于带噪动作 a t : t + H τ , ω a_{t:t+H}^{\tau, \omega} at:t+Hτ,ω 、当前观测 o t o_t ot 、全局语言指令 ℓ \ell ℓ ，预测的流匹配向量场 ；
- 上标 a a a：代表动作专家分支（action expert），是π0.5中专门处理连续动作的独立模块，规模远小于Transformer骨干；
a t : t + H τ , ω a_{t:t+H}^{\tau, \omega} at:t+Hτ,ω：前文解析的带噪动作块，是动作专家分支的核心输入之一（模型基于带噪动作预测去噪的向量场）。

（4）权重参数： α ∈ R \alpha \in \mathbb{R} α∈R

核心作用 ：调节交叉熵损失 和均方误差损失 的相对权重 ，是实现π0.5预训练和后训练 损失切换的关键参数，论文中明确给出了两个阶段的取值：

预训练阶段 ： α = 0 \alpha=0 α=0，此时均方误差项完全失效，损失函数仅保留交叉熵损失，模型仅优化离散token的预测（动作token+文本token），实现高效的大规模预训练；
后训练阶段 ： α = 10.0 \alpha=10.0 α=10.0，此时两个损失项同时生效，模型联合优化离散token预测和连续流匹配向量场预测，实现从离散动作表示到连续动作表示的过渡。

3. 损失函数的核心逻辑

该联合损失函数的设计遵循**"主次分明、阶段化切换"**的原则：

预训练阶段以离散token预测 为主（ α = 0 \alpha=0 α=0），充分发挥离散表示的训练效率优势，让模型从异构多源数据中学习通用的视觉-语言-动作知识；
后训练阶段加入流匹配向量场预测 （ α = 10.0 \alpha=10.0 α=10.0），在保留离散token预测能力（避免语义/任务知识遗忘）的同时，让模型学习精细的连续动作表示，适配机器人硬件控制；
两个损失项分别对应模型的离散token分支 和连续动作专家分支，相互独立又加权融合，实现离散-连续动作表示的无缝衔接。

5.4、离散-连续动作表示的阶段化分工（训练+推理）

π0.5的离散-连续融合并非简单的"同时训练"，而是基于预训练/后训练/推理的阶段化分工 ，让两种表示在不同阶段发挥各自的优势，这也是联合损失函数通过 α \alpha α调节的核心落地场景，具体分工如下：

1. 预训练阶段：仅用离散动作token

损失设置： α = 0 \alpha=0 α=0，联合损失仅保留交叉熵损失；
动作表示：将所有机器人的连续动作通过FAST token化算法 压缩为离散token，与文本token、图像块token统一为离散token序列；
训练方式：沿用大模型的自回归下一个token预测，训练模型学习异构多源数据的通用知识；
核心目标：高效学习，无需考虑实时推理，重点积累视觉-语言-动作的通用知识。

2. 后训练阶段：离散+连续联合优化

损失设置： α = 10.0 \alpha=10.0 α=10.0，联合损失同时优化交叉熵（离散）和均方误差（连续）；
动作表示：新增流匹配连续动作表示，动作专家模块随机权重初始化，逐步学习向量场预测；同时保留FAST离散token，避免预训练知识遗忘；
训练方式：对高质量的移动操作数据做精细训练，聚焦机器人实际控制的连续动作学习；
核心目标：将预训练的通用离散知识，转化为适配机器人硬件的连续动作控制能力。

3. 推理阶段：仅用连续流匹配动作表示

动作表示：完全舍弃离散token，模型基于流匹配做连续动作生成；
推理流程：
1. 模型先通过自回归解码生成高层语义子任务 ℓ ^ \hat{\ell} ℓ^（如"拿起盘子"）；
2. 基于子任务 ℓ ^ \hat{\ell} ℓ^、当前观测 o t o_t ot，动作专家模块对带噪动作做10步流匹配去噪（论文设定），逐步还原为干净的连续动作块；
3. 以50Hz的频率输出连续动作，直接控制机器人硬件（机械臂、底座、躯干）；
核心目标：实现精细、实时的端到端机器人控制，适配真实家庭环境的操作需求。

5.5、关键支撑设计：注意力掩码（避免信息泄漏）

为了让离散-连续动作表示的融合训练更稳定，π0.5在Transformer的注意力机制 中设计了专门的注意力掩码，这是论文中提到的关键细节，也是联合损失函数能有效优化的重要保障：

通过注意力矩阵 A ( x 1 : N ) A(x_{1:N}) A(x1:N)严格限制：离散动作token与连续流匹配动作token****互不关注 （即注意力权重为0），避免两种动作表示之间的信息泄漏。

设计原因：

如果两种表示相互关注，模型会在训练中"走捷径"------比如从离散token中直接推导连续动作，而非真正学习流匹配的向量场预测，导致连续动作表示的学习失效，无法实现精细的机器人控制。

效果：

让离散和连续动作表示在同一模型中独立学习、互不干扰 ，同时通过联合损失函数实现优势融合，既保留了预训练的通用知识，又学到了高质量的连续动作控制能力。

5.6、具象化举例：以「拿起盘子」为例理解公式与设计落地

用π0.5的核心任务**"拿起盘子"**做具象化举例，让抽象的公式和设计落地为具体的机器人操作过程，更易理解：

预训练阶段 ： α = 0 \alpha=0 α=0，损失仅为 H ( x 1 : M , f θ ℓ ( o t , ℓ ) ) H(x_{1:M}, f_{\theta}^{\ell}(o_t, \ell)) H(x1:M,fθℓ(ot,ℓ))
- 真实离散token x 1 : M x_{1:M} x1:M：token化后的"拿起盘子"离散动作序列+"拿起盘子"文本token；
- 模型输入 o t o_t ot：相机拍摄的"台面上有盘子"的图像+全局指令 ℓ \ell ℓ="清洁厨房"；
- 模型预测： f θ ℓ ( o t , ℓ ) f_{\theta}^{\ell}(o_t, \ell) fθℓ(ot,ℓ)输出离散tokenlogits，交叉熵损失优化模型让预测token与真实token一致，模型学习"看到盘子+清洁厨房指令→生成拿起盘子的离散token"的通用知识。
后训练阶段 ： α = 10.0 \alpha=10.0 α=10.0，损失为交叉熵+均方误差
- 离散部分：与预训练一致，优化"拿起盘子"的离散token预测，避免知识遗忘；
- 连续部分：损失为 10 × ∥ ω − a t : t + H − f θ a ( a t : t + H τ , ω , o t , ℓ ) ∥ 2 10 \times \|\omega - a_{t:t+H} - f_{\theta}^{a}(a_{t:t+H}^{\tau, \omega}, o_t, \ell)\|^2 10×∥ω−at:t+H−fθa(at:t+Hτ,ω,ot,ℓ)∥2
  - 真实向量场： ω − a t : t + H \omega - a_{t:t+H} ω−at:t+H（带噪动作还原为"拿起盘子"干净连续动作的调整方向）；
  - 模型输入：带噪动作 a t : t + H τ , ω a_{t:t+H}^{\tau, \omega} at:t+Hτ,ω+"台面上有盘子"的观测 o t o_t ot+"清洁厨房"的指令 ℓ \ell ℓ；
  - 模型预测： f θ a ( ⋅ ) f_{\theta}^{a}(\cdot) fθa(⋅)输出预测的向量场，均方误差损失优化模型让预测向量场与真实向量场一致，模型学习"带噪动作→朝着正确方向调整→生成拿起盘子的连续动作"的控制能力。
推理阶段：
- 模型先预测高层子任务 ℓ ^ \hat{\ell} ℓ^="拿起盘子"；
- 动作专家模块采样高斯噪声 ω \omega ω，构造带噪动作 a t : t + H 0 , ω = ω a_{t:t+H}^{0, \omega}=\omega at:t+H0,ω=ω（ τ = 0 \tau=0 τ=0）；
- 经过10步流匹配去噪（ τ \tau τ从0逐步到1），模型逐步预测向量场并调整带噪动作，最终还原为干净的连续动作块 a t : t + H a_{t:t+H} at:t+H（如"机械臂移动到盘子上方→夹爪闭合→机械臂抬起"）；
- 以50Hz的频率输出连续动作，直接控制机器人完成"拿起盘子"的操作。

下面这张图展示了π0.5 预训练与后训练阶段的异构多源数据体系，清晰呈现了模型训练所用的各类数据类型及对应的任务场景。

这张图展示了π0.5预训练与后训练阶段的异构多源数据体系，清晰呈现了模型训练所用的各类数据类型及对应的任务场景，核心内容如下：

预训练阶段（Pre-training）数据源

图中左侧至中间模块为预训练数据，覆盖跨机器人形态、跨场景、跨任务类型的异构数据：

Laboratory cross-embodiment（实验室跨体数据）：实验室环境下不同形态机器人（单/双臂、静/动底座）完成的任务（如Sort drawer、Fold laundry），含Open X-Embodiment开源数据，提供通用操作原语。
Diverse mobile manipulator（多样化移动操作器数据）：移动操作器在家庭场景完成的日常任务（如Shirt in basket、Make bed），是锚定家庭任务的核心数据（对应MM数据）。
Diverse non-mobile manipulator（多样化非移动操作器数据）：非移动机械臂完成的室内/家庭任务（如Item in drawer、Fold linen），补充跨环境的操作经验（对应ME数据）。
High-level subtask（高层子任务数据）：含家庭场景图像、任务问题、目标边界框标注、子任务文本（如move to closet），是人工标注的任务拆解与目标定位数据（对应HL数据）。
Multi-modal web data（多模态网络数据）：网络图像的描述、问答数据（如描述大象前腿、识别派的类型），补充通用视觉-语言语义知识（对应WD数据）。

后训练阶段（Post-training）

图中右侧 Verbal instruction（口头指令数据） 为后训练新增数据：展示人类通过口头指令远程控制机器人的场景（如Put cup in sink），含任务策略的重标注，用于提升模型子任务推理与人类意图的对齐度（对应VI数据）。

π0.5"预训练学通用（多源异构数据）、后训练做特化（人类口头指令数据）"的训练数据体系，覆盖实验室/家庭场景、移动/非移动机器人、标注/网络数据等类型，支撑模型的开放世界泛化与长时程任务能力。

6、模型效果

如下图所示，展示3个完全未参与训练的真实家庭（Home 1-3）中，π0.5 的任务执行过程：

每个家庭对应人类给出的高层指令（如 "把物品放进抽屉""把餐具放进水槽"）；
π0.5 自主预测高层子任务（HL prediction），并执行对应的机器人操作步骤（如 "拉开抽屉→拿起工具→放入抽屉""拿起盘子→放进水槽"）；

如下图所示，在模拟家庭测试环境中，π0.5的表现同时优于 π₀ 与 π₀-FAST+Flow

其中，π₀-FAST+Flow（π₀ 的一个变体版本，结合了离散动作令牌与流匹配动作表示）

分享完成～

《VLA 系列》π0.5 | 流匹配 | 分层推理 | VLA