机器人领域 Physical Intelligence π 系列论文综述

本文整理 Physical Intelligence（PI）在机器人基础模型方向的 π 系列主线论文。这里把 FAST 纳入为 π0-FAST 的动作表示论文，把 MEM 纳入为 π0.6-MEM 的长时记忆论文。PDF 已保存到本文件夹。

序号	本地 PDF	论文 / 技术报告	主题
1	`pi0.pdf`	`π0: A Vision-Language-Action Flow Model for General Robot Control`	用 VLM + flow matching 构建通用机器人控制基础模型
2	`pi0-fast_FAST.pdf`	`FAST: Efficient Action Tokenization for Vision-Language-Action Models`	用频域动作 token 化训练自回归 VLA，也即 π0-FAST 的关键技术
3	`pi0.5.pdf`	`π0.5: a Vision-Language-Action Model with Open-World Generalization`	异构共训练，让机器人进入未见过真实家庭环境执行长任务
4	`pi_star_0.6_RECAP.pdf`	`π*0.6: a VLA That Learns From Experience`	用 RECAP 让 VLA 从真实部署、奖励和人工纠正中自我改进
5	`pi0.6_MEM.pdf`	`MEM: Multi-Scale Embodied Memory for Vision Language Action Models`	给 π0.6 加入短期视频记忆和长期文本记忆
6	`pi0.7.pdf`	`π0.7: a Steerable Generalist Robotic Foundation Model with Emergent Capabilities`	用丰富上下文控制策略、吸收混合质量数据，并出现组合泛化

一条主线

π 系列的核心目标不是做某一个机器人任务的专用策略，而是逐步回答一个问题：怎样训练一个能控制多种机器人、理解自然语言、处理真实场景变化、并能通过经验继续进步的通用机器人基础模型？

它的发展路线大致是：

π0：先证明 VLM 可以接上连续动作生成头，成为一个能控制真实机器人的 VLA 基础模型。
FAST / π0-FAST：解决自回归 VLA 难以表达高频连续动作的问题，让机器人动作也可以像语言一样 token 化。
π0.5：从"会做多任务"走向"在未见过的家庭中泛化"，关键是异构数据共训练和高低层统一推理。
π*0.6：从模仿学习走向从真实部署经验中改进，把奖励、失败、纠正和演示统一进训练闭环。
π0.6-MEM：解决长任务中的记忆瓶颈，让模型记住刚刚发生的视觉细节，也记住更久远的语义进度。
π0.7：把任务指令、策略偏好、质量标签、子目标图像等放进 prompt，让模型可 steer，并在未训练任务上组合已有技能。

1. π0：VLM 到机器人动作的第一块基石

π0 的出发点是：语言模型和视觉语言模型已经通过互联网数据获得了强大的语义理解，但它们并没有身体，不能直接输出连续机器人动作。π0 的思想是把预训练 VLM 作为"大脑的语义底座"，再加入机器人状态和动作输出，使它成为 Vision-Language-Action（VLA）模型。

架构上，π0 使用 PaliGemma 类 VLM backbone 处理图像和语言，把机器人本体状态也嵌入到同一序列空间中。关键创新是加入独立的 action expert，用 conditional flow matching 生成未来一段动作 chunk。这样做的意义在于：机器人动作不是离散词，而是高频、连续、多模态的轨迹。用 flow matching 预测动作分布，可以比简单离散化更适合洗衣折叠、装盒、清桌等精细操作。

训练思想是"预训练 + 后训练"。预训练阶段混合来自多个机器人和任务的大规模数据，让模型获得广泛能力；后训练阶段用更高质量、目标更明确的数据修正行为风格，使模型更稳定、更高效。论文中特别强调，只用高质量演示会缺少失败恢复能力，只用混杂低质量数据又会让策略不够可靠，因此两阶段配方很重要。

π0 的重要性在于它把机器人基础模型的形态固定下来：预训练 VLM backbone、跨机器人数据、语言条件、连续动作生成、动作 chunk、再加上后训练。后续 π0.5、π0.6、π0.7 基本都在这个框架上扩展。

局限也很清楚：π0 已经能在很多任务上表现出泛化，但开放世界泛化还不够。它更像一个强大的基础控制器，还需要更好的高层推理、数据混合方法、记忆和自我改进机制。

2. FAST / π0-FAST：把连续动作变成好学的 token

FAST 关注的是另一个关键问题：如果 VLA 像语言模型一样自回归预测 token，那么连续机器人动作该怎么 token 化？

早期方法常把每个时间步、每个动作维度单独分桶。这个方法在低频、简单动作上能用，但在高频灵巧控制中会出问题：相邻动作高度相关，模型只要"复制上一个 token"就能获得低训练损失，却学不到真正的动作结构；同时 token 数量也会爆炸，训练和推理都慢。

FAST 的核心思想是：先压缩动作序列，再 token 化。它借鉴 JPEG 等信号压缩方法，把一个动作 chunk 从时间域转换到频域，使用离散余弦变换（DCT）表示动作轨迹，再保留重要频率成分并进行离散化和 BPE 风格压缩。这样得到的 token 序列更短，信息密度更高，也减少了相邻 token 之间的无意义相关。

FAST 的贡献不只是一个 tokenizer。它证明了自回归 VLA 并非不能做高频灵巧控制，问题在于动作表示。基于 FAST 的 π0-FAST 可以用标准 next-token prediction 训练，在许多任务上接近 diffusion / flow VLA 的性能，同时显著降低训练成本。

从思想上看，FAST 是 π 系列中"动作语言化"的关键一步：把机器人动作从连续控制信号改造成可被大规模 Transformer 高效学习的符号序列。它也为后续模型中的离散动作监督、知识隔离训练和高效预训练提供了基础。

局限是 FAST 主要解决动作表示和训练效率，不直接解决开放环境泛化、长时记忆或真实部署中的自我修正问题。它更像 π 系列工具箱里非常底层但很关键的一块。

3. π0.5：从实验室泛化走向开放家庭环境

π0.5 的问题意识是：一个机器人如果只能在训练环境或近似场景中完成任务，还不能算真正实用。家庭环境变化极大，物体、布局、光照、柜子位置、任务顺序都可能没见过。π0.5 试图让 VLA 在完全未见过的真实家庭中执行 10 到 15 分钟级别的清洁、整理等长任务。

π0.5 的核心思想是异构共训练。它并不只依赖目标机器人在家庭中的数据。论文中目标移动操作数据大约 400 小时，但绝大多数训练样本来自其他来源：不同机器人平台、实验室任务、高层语义子任务预测、人类口头指导、互联网图像文本数据、目标检测、问答、定位等。这背后的判断是：开放世界泛化需要很多层次的知识，低层动作可以从其他机器人迁移，高层语义可以从网络和语言监督中迁移，任务结构可以从人类指导和子任务标注中迁移。

架构上，π0.5 引入简单但有效的层次化推理。模型先根据高层命令和场景推断下一步语义子任务，例如"拿起盘子""关上柜门"，再根据这个子任务输出低层动作 chunk。重要的是，高层和低层不是两个完全分离的模型，而是同一个 VLA 通过不同上下文完成两类推理。这有点像机器人版 chain-of-thought：先想下一步做什么，再执行动作。

实验结论强调三点。第一，完整的 π0.5 明显优于 π0 和若干增强基线。第二，web data、人类 verbal instruction、高层子任务训练都很关键；去掉这些数据会明显降低高层决策质量。第三，直接用通用大模型做高层策略并不能替代机器人数据适配，因为机器人任务中的"下一步该做什么"依赖物理状态、可操作性和任务历史。

π0.5 的意义是把 π 系列从"多任务机器人控制"推进到"开放世界机器人系统"。它证明广泛泛化不是单纯扩大机器人演示数据，而是要把多来源知识对齐到一个 VLA 训练目标中。

局限在于它仍依赖精心构造的数据混合和任务体系，且长任务成功还受限于记忆、错误恢复和持续部署学习能力。这些正好成为 π0.6 和 π0.7 的后续方向。

4. π*0.6 / RECAP：从经验和纠正中学习

π*0.6 关注的是模仿学习的天花板。只靠人类演示，机器人最多学到演示者的行为分布；真实部署时遇到失败，模型如果不能从自己的错误中学习，就很难持续变强。RECAP 的目标是让 VLA 可以通过真实机器人部署、奖励反馈和人工纠正进行强化学习式改进。

RECAP 全称是 RL with Experience and Corrections via Advantage-conditioned Policies。它把三类数据放到同一个改进流程中：离线演示、机器人自主 rollout、专家远程介入纠正。模型先通过离线 RL 预训练出能理解 advantage conditioning 的 π*0.6，然后在具体任务上部署收集数据，用任务结果或稀疏奖励训练 value function，再估计每个动作相对当前策略的 advantage，最后把 advantage 指示放入 VLA prompt / prefix 中训练更优策略。

这个思路的妙处在于它没有直接对大型 VLA 做复杂且不稳定的在线 policy gradient，而是把"哪些行为更好"转成条件化监督学习问题。模型被训练成：当上下文告诉它选择高 advantage 行为时，它倾向于输出更优动作。这使得旧数据、失败数据、人工介入数据和新采集数据都能被复用。

实验任务包括折叠真实家庭中的衣物、组装纸箱、使用专业咖啡机制作饮品等。这些任务都很长、很细、含有液体或可变形物体，传统模仿学习容易失败。论文报告 RECAP 在一些困难任务上能显著提高吞吐量并降低失败率，说明真实经验不仅能提高成功率，也能让机器人做得更快。

π*0.6 的思想意义在于：机器人基础模型不能只靠一次性训练完成，它必须具备部署后学习的机制。对于真实世界机器人，错误不是例外，而是训练信号。RECAP 把失败、纠正、奖励都变成可学习资产。

局限在于它仍需要任务奖励或结果标签，也需要真实机器人采集成本；不同任务的奖励定义和安全边界仍是工程难点。

5. π0.6-MEM：让机器人记住短期细节和长期进度

MEM 解决长任务中的记忆问题。没有记忆的 VLA 通常只看当前图像和少量历史，很容易重复失败动作，忘记刚刚把东西放在哪里，也无法稳定跟踪"厨房清洁到哪一步了"。

MEM 的核心判断是：机器人记忆不是一种东西。短期记忆需要保留视觉细节，例如手臂遮挡前物体在哪里、刚刚尝试的抓取姿态是否失败；长期记忆只需要语义摘要，例如已经擦过台面、已经拿出某个食材、冰箱门应该从另一侧开。把所有历史图像硬塞进上下文既昂贵又低效，因此需要多尺度、多模态记忆。

MEM 由两部分组成。第一是短期视频记忆，用高效视频编码器压缩最近几秒的图像历史，帮助模型处理遮挡、运动和失败后的重新尝试。第二是长期文本记忆，让模型在高层推理时生成和更新自然语言记忆，并在未来步骤中读回这些记忆。这样模型既能"看见刚才发生的细节"，又能"知道任务整体进度"。

论文把 MEM 集成到 π0.6 中，展示了最长约 15 分钟的任务，例如做 grilled cheese、按食谱取食材、清理整个厨房。它还展示了 in-context adaptation：模型第一次抓筷子或开冰箱失败后，会基于记忆改变策略，而不是重复同一种失败动作。

MEM 的意义是把 VLA 从短技能控制器推进到长任务执行器。机器人要真正做家务、做饭、整理房间，必须在数分钟甚至数小时范围内保持任务叙事和状态记忆。MEM 提供了一个可扩展方向：短期用图像，长期用语言，各取所长。

局限是文本记忆可能遗漏细节或写错摘要，视频记忆窗口仍有限；如何让记忆更可靠、更可验证，以及如何跨小时级任务扩展，是后续问题。

6. π0.7：可 steer 的通用机器人基础模型与组合泛化

π0.7 是这一系列中最强调"组合泛化"的模型。它不仅要执行训练过的任务，还要把已有技能以新方式组合起来，例如操作没专门训练过的厨房电器，或把洗衣折叠能力迁移到未见过的新机器人上。

π0.7 的核心思想是丰富上下文条件化。传统 VLA prompt 主要包含语言命令，例如"清理厨房"。π0.7 把 prompt 扩展成更完整的上下文：详细语言标签、任务质量和策略 metadata、控制模式、子目标图像、由高层 policy 或 world model 生成的期望状态等。这些上下文不仅描述"做什么"，还描述"怎么做""做到什么质量""目标看起来是什么样"。

这解决了大规模异构数据的一个关键矛盾：数据越多越杂，里面就越有不同质量、不同策略、甚至失败和次优行为。如果没有上下文，模型可能平均这些行为，学出含糊策略；如果每段数据都带有质量、策略和子目标信息，模型就能学习"在什么条件下该模仿哪种行为"，从而把失败数据、自动执行数据、人类视频和互联网多模态数据都纳入训练，而不显著伤害性能。

架构上，π0.7 建立在 π0.6 和 MEM 相关能力之上，使用 VLM backbone、action expert、FAST token 监督、知识隔离训练等技术，同时加强多模态 context conditioning。它的目标不是只提出新结构，而是提出一种训练方法论：用更丰富的上下文吸收更杂的数据，让模型在推理时可控、可指定策略、可组合技能。

实验展示了几类能力：开箱执行灵巧长任务，如使用咖啡机、折叠衣物、倒垃圾、削蔬菜；在未见环境中遵循复杂语言指令；零样本跨 embodiment 迁移，例如让一个没学过叠衣服的机器人折 T 恤；组合泛化，例如把已有抓取、放置、家电使用等技能组合成新任务。

π0.7 的思想意义很大：它把机器人基础模型向 LLM 式泛化推进了一步。LLM 的强项是把训练中分散的知识组合成新能力；π0.7 试图让 VLA 也能把不同物理技能、策略和语义知识组合起来。

局限同样值得注意。组合泛化的边界仍不完全可预测，模型成功可能依赖数据覆盖、上下文质量、硬件稳定性和任务难度。它已经出现重要迹象，但距离可靠通用家用机器人还有距离。

横向比较

论文	解决的核心瓶颈	关键方法	思想关键词
π0	VLM 如何变成机器人控制模型	VLM backbone + action expert + flow matching + 预训练/后训练	通用控制、连续动作、跨机器人
FAST / π0-FAST	自回归 VLA 如何处理高频连续动作	DCT 频域压缩 + 离散 token + BPE 风格压缩	动作 token 化、训练效率
π0.5	如何在未见真实家庭中泛化	异构共训练 + 高层子任务推理 + 低层动作执行	开放世界泛化、知识迁移
π*0.6	如何从部署经验中进步	RECAP、value function、advantage-conditioned policy、人工纠正	自我改进、强化学习、纠错
π0.6-MEM	长任务中如何不遗忘	短期视频记忆 + 长期文本记忆	记忆、长时任务、上下文适应
π0.7	如何组合已有技能解决新任务	丰富 prompt、metadata、子目标图像、混合质量数据训练	可控泛化、组合泛化、steerability

统一思想总结

π 系列背后的大思想可以概括为四句话：

第一，机器人基础模型要像语言模型一样通过大规模、多来源数据获得通用能力，但机器人数据更贵、更异构，因此必须同时利用其他机器人、互联网视觉语言数据、人类视频、失败轨迹和人工纠正。

第二，机器人动作不是语言 token，必须认真设计动作表示。π0 走 flow matching 连续生成路线，FAST 走频域压缩 token 路线，二者共同说明：动作建模是 VLA 能否做精细控制的核心。

第三，开放世界机器人不是单步控制问题，而是高层语义、低层动作、记忆、恢复、策略选择共同作用的问题。π0.5、MEM、π0.7 都在把 VLA 从"根据当前图像输出动作"扩展成"理解任务、分解步骤、记住历史、选择策略、持续执行"的系统。

第四，真实机器人必须能从经验中变强。π*0.6/RECAP 把部署数据纳入训练闭环，说明通用机器人模型未来很可能不是一次训练完毕，而是像人一样通过练习、失败和纠正持续进步。

建议阅读顺序

先读 π0，理解整个系列的基础架构：VLM、VLA、action expert、flow matching、cross-embodiment、pre-training/post-training。
再读 FAST，理解为什么动作表示会限制自回归 VLA，以及 π0-FAST 如何降低训练成本。
读 π0.5，重点看异构共训练和高低层统一推理，这是开放世界泛化的核心。
读 MEM，补上长任务记忆能力。
读 π*0.6，理解真实部署中的强化学习闭环。
最后读 π0.7，把前面的数据、动作、记忆、RL、上下文条件化统一起来看组合泛化。

参考来源

π0 arXiv: https://arxiv.org/abs/2410.24164
π0 官方 PDF: https://www.physicalintelligence.company/download/pi0.pdf
FAST 官方 PDF: https://www.pi.website/download/fast.pdf
π0.5 arXiv: $2504.16054$ $π_{0.5}$ : a Vision-Language-Action Model with Open-World Generalization
π0.5 官方 PDF: https://www.physicalintelligence.company/download/pi05.pdf
π*0.6 官方 PDF: https://www.pi.website/download/pistar06.pdf
MEM 官方 PDF: https://www.pi.website/download/Mem.pdf
π0.7 arXiv: https://arxiv.org/abs/2604.15483
π0.7 官方 PDF: https://www.pi.website/download/pi07.pdf