具身智能（一）关于VLA模型π0

关于VLA模型π0

官网介绍：

https://www.physicalintelligence.company/blog/pi0https://www.physicalintelligence.company/blog/pi0

π₀：我们的首个通用策略

《π₀：迈向通用机器人策略的重要突破》

发布时间：2024 年 10 月 31 日 00:00:00

https://www.physicalintelligence.company/download/pi0.pdfhttps://www.physicalintelligence.company/download/pi0.pdf

我们正经历一场人工智能革命：在过去十年里，实用的人工智能助手、能生成照片级逼真图像和视频的人工智能系统，乃至可预测蛋白质结构的模型纷纷问世。然而，尽管取得了这些进步，在物理世界领域，人类智能仍远超人工智能 。套用莫拉维克悖论的说法，赢得一盘国际象棋或研发一种新药对人工智能而言是 "简单 " 的问题，但折叠一件衬衫或清理一张桌子 ，却需要解决一些人类构想过的最复杂的工程难题 。要打造出具备人类那样的物理环境适应性的人工智能系统，我们需要一种新方法 ------ 必须让人工智能系统具备实体形态，使其能够获得物理智能。

在过去八个月里，我们研发出了一款通用机器人基础模型，并将其命名为 π₀（pi-zero，派零）。我们认为，这是朝着研发人工物理智能这一长期目标迈出的第一步。未来，用户只需向机器人下达指令，就能让机器人执行任意任务，就像他们对大型语言模型（LLMs）和聊天机器人助手下达指令一样。与大型语言模型类似，我们的模型经过了广泛且多样的数据训练，能够遵循各类文本指令。但与大型语言模型不同的是，它涵盖图像、文本和动作三大领域，通过从机器人的实体体验中学习来获取物理智能，并借助创新架构直接输出低级别的运动指令。该模型能够控制多种不同类型的机器人，既可以通过提示指令让其执行期望任务，也可以通过微调使其专门适用于高难度的应用场景。关于我们研究工作的详细文章可在此处查看。

通用机器人策略的前景

如今的机器人都是单一领域的专用设备 。工业机器人在预设场景中执行重复性动作，比如在装配线上反复对同一位置进行焊接，或是将同一物品放入同一个箱子。即便如此简单的动作，也需要大量的人工工程设计 ；而在家庭等混乱的现实环境中执行更复杂的动作，则根本无法实现。人工智能有望改变这一现状，让机器人能够学习并遵循用户指令 ------ 届时，为机器人编写新动作程序 将变得像告诉机器人你想做什么一样简单，机器人自身也能自主判断如何根据环境调整动作。但这一切都离不开数据的支撑。语言模型及其他基础模型从互联网上挖掘数据，会利用到大量已有的文档资源。然而，机器人领域并不存在这样丰富的数据宝库。因此，要让机器人掌握一项新技能，就需要针对该特定机器人和特定应用场景收集大量数据。

如果我们能训练出一个单一的通用机器人策略，使其既能掌握多种不同技能，又能控制多种不同类型的机器人，就能攻克这一难题：这样的模型只需从每种机器人和每个应用场景中获取少量数据即可。就像人类能凭借毕生经验快速掌握新技能一样，这种通用机器人策略只需少量数据，就能专门适配新任务。通用模型在专用领域击败专用模型并非首次：语言模型之所以能取代更专业的语言处理系统 ，正是因为它们凭借多样化的通用预训练，能更好地解决那些下游的专业任务。正如大型语言模型是语言领域的基础模型，这些通用机器人策略也将成为物理智能领域的机器人基础模型。

要实现这一目标，我们需要攻克重大的技术难题。π₀便是我们迈出的第一步，它是一款原型模型，融合了大规模多任务与多机器人数据收集技术，以及全新的网络架构，打造出了迄今为止性能最强、灵活性最高的通用机器人策略。尽管我们认为，这只是朝着研发真正通用的机器人模型迈出的微小初步步伐，但我们相信，这是极具意义的一步，让我们得以窥见未来的发展方向。

跨实体训练数据组合

π₀以互联网规模的视觉 - 语言预训练数据、开源机器人操作数据集，以及我们自主收集的包含 8 种不同机器人灵巧任务的数据集作为输入数据。

输入数据

Open X 实体数据集
互联网规模的预训练数据
π 数据集：多台灵巧机器人相关数据
- UR5e 机器人
- 双臂 UR5e 机器人
- Franka 机器人
- 双臂 Trossen 机器人
- 双臂 Arx 机器人
- 移动式 Trossen 机器人
- 移动式 Fibocom 机器人

模型

该模型可通过直接提示或微调两种方式，执行多种不同任务。

输出任务

洗衣相关：折叠衣物
制作咖啡
食品装袋
清理餐桌
打开爆米花包装

我们的首款通用机器人策略原型，是在迄今为止规模最大的机器人交互数据集上训练而成的。完整的训练数据组合既包含开源数据，也涵盖我们在 8 种不同机器人上收集的大量多样的灵巧任务数据集。

我们的数据集包含各类任务，每个任务都涉及多种运动基本动作、不同的物体以及多样的场景。

这些任务既考验机器人在不同维度的灵活性，又涵盖了这些机器人可能需要执行的各类实际任务，例如清理餐具、将物品装入信封、折叠衣物、整理线缆、组装盒子、插电源插头、将食物装入外卖盒，以及捡拾并丢弃垃圾等。我们选择这些任务，并非为了解决某一特定应用问题，而是为了让模型初步形成对物理交互的整体认知 ------ 为其构建物理智能打下初步基础。

承袭互联网规模的语义理解能力

除了在多台不同机器人上进行训练外，π₀还以预训练的视觉 - 语言模型（VLM） 为基础，从而承袭了互联网规模预训练所带来的语义知识与视觉理解能力。视觉 - 语言模型通过学习互联网上的文本和图像数据进行训练，目前广泛使用的视觉 - 语言模型包括 GPT-4V 和 Gemini。我们以一个参数规模为 30 亿的小型视觉 - 语言模型为基础，对其进行适配，使其能够实现实时的灵巧机器人控制。

视觉 - 语言模型能有效从互联网上迁移语义知识，但这类模型仅能输出离散的语言标记 。而灵巧的机器人操作要求 π₀以高频输出运动指令，频率可达每秒 50 次 。为实现这一灵活性，我们研发了一种创新方法：通过流匹配（扩散模型的一种变体） ，为预训练的视觉 - 语言模型增加连续动作输出功能。我们以多样化的机器人数据和经过互联网规模数据预训练的视觉 - 语言模型为基础，训练出视觉 - 语言 - 动作流匹配模型，随后再利用高质量的机器人数据 对该模型进行后续训练，使其能够完成一系列下游任务。

π 跨实体机器人数据集相关任务：制作咖啡、装载餐具、乐高分类、瓶子装袋、摆放餐具、压平盒子、打开爆米花包装
互联网规模预训练数据
Open X 实体数据集
π₀视觉 - 语言 - 动作模型
预训练视觉 - 语言模型
动作专家相关任务：折叠衬衫
高质量后续训练数据相关：高灵活性任务、未见过的任务（重复两次）
零样本分布内任务：清理餐桌
针对高难度任务的专项后续训练：清空公寓烘干机、批量折叠衬衫
针对未见过任务的高效后续训练：将物品放入抽屉
针对灵巧操作的后续训练

对于更复杂、对灵活性要求更高的任务，可能需要对模型进行微调，使其专门适配下游的高难度任务。用高质量数据对模型进行微调以完成某一高难度任务（如折叠衣物），这一过程与大型语言模型研发者采用的后续训练过程类似。预训练让模型了解物理世界，而微调则确保模型能出色完成特定任务。下面我们来介绍其中几项任务。

经过后续训练后，机器人能够从烘干机中取出衣物，将衣物搬运至餐桌，并将其折叠成堆叠状。相关视频为无剪辑版本，全程由单一策略实现完全自主操作。

衣物折叠：我们对 π₀进行了微调，使其能够完成衣物折叠任务，可使用移动式机器人或固定双臂机器人执行。任务目标是将衣物整齐堆叠。对机器人而言（对部分人类也是如此），这项任务难度极高：虽然将一件平铺在餐桌上的 T 恤折叠起来，有时只需重复一套预设动作即可，但一堆杂乱缠绕的衣物可能呈现多种褶皱形态，因此仅靠重复固定的手臂动作无法完成折叠。据我们所知，此前尚无任何机器人系统能以如此高的复杂度完成这项任务。值得注意的是，由于我们在多样化的数据上对机器人进行了训练，当有人以各种方式干扰机器人操作时，机器人能够自行恢复操作。
清理餐桌：我们还对该模型进行了微调，使其能够完成清理餐桌的任务。这要求机器人捡起餐桌上的餐具和垃圾，将餐具、刀叉和杯子放入清理箱，将垃圾投入垃圾桶。这项任务需要机器人处理种类繁多的物品。而在大规模、多样化的数据集上训练 π₀，带来了一个令人惊喜的结果：机器人展现出了多种自主形成的操作策略。例如，它并非简单地逐一抓取物品，而是会将多个餐具堆叠起来，一起放入清理箱；或是先将盘子上的垃圾抖入垃圾桶，再将盘子放入清理箱。
盒子组装：在这项任务中，机器人需要将一个压平的 cardboard（硬纸板）盒子组装起来 ------ 先折叠盒子的侧面，再将盒盖折入固定。这项任务难度很大，因为每一次折叠和固定都可能出现意外情况，所以机器人需要实时观察操作进度，并根据情况调整动作。同时，机器人还需要用双臂固定盒子（有时甚至会借助桌面），防止未组装完成的盒子散开。

π₀与现有模型的评估对比

我们在相关任务上，将 π₀与学术界提出的其他机器人基础模型进行了对比，包括参数规模为 70 亿、采用离散动作的视觉 - 语言 - 动作（VLA）模型 OpenVLA ，以及参数规模为 9300 万、采用扩散输出的模型 Octo。与学术界实验中常用的任务相比，我们的任务难度要高得多。例如，OpenVLA 评估中的任务通常是单阶段动作（如 "将茄子放入锅中"），而我们最简单的清理餐桌任务，都需要将多个物品分类放入垃圾桶或清理箱；更复杂的任务则可能涉及多阶段操作、对可变形物体的处理，以及根据当前环境状态灵活选择多种操作策略的能力。

我们依据评分标准对这些任务进行评估：任务完全成功完成得 1.0 分，部分完成则给予 "部分分数"（例如，仅清理了一半物品得 0.5 分）。下表展示了 5 项评估任务的平均得分，对比对象包括完整的 π₀预训练模型、π₀-small（参数规模为 4.7 亿、未采用视觉 - 语言模型预训练的小型模型）、OpenVLA 以及 Octo。尽管在最简单的任务（"简单清理餐桌"）中，OpenVLA 和 Octo 能取得非零分数，但在所有任务中，π₀的表现都是迄今为止最好的。小型模型 π₀-small 的表现仅次于 π₀，但采用完整架构并结合视觉 - 语言模型预训练的 π₀，性能比 π₀-small 高出两倍多。

各任务性能对比

（评分：标准化分数，满分 1.0）

任务	机器人型号	π₀	π₀-small	OpenVLA（仅 UR5e）	Octo
简单清理餐桌	UR5e	0.971	0.443	0.343	0.043
复杂清理餐桌	UR5e	0.875	0.333	0	0
衬衫折叠	双臂 ARX	1	0.500	0	0
食品装袋	UR5e	0.786	0.271	0	0
从烤面包机中取面包	双臂 Trossen	0.750	0	0	0

π₀、π₀-small、OpenVLA 和 Octo 在 5 项测试任务中的平均得分情况：在所有任务中，π₀的表现始终出色，不仅优于小型版本的模型，也超过了其他现有模型。

我们在下方提供了详细的实证评估视频，其中包含直接提示（开箱即用）实验和微调评估中任务成功与失败的案例。所有实验的完整结果可在详细文章中查看

未来展望

物理智能公司（Physical Intelligence）的使命是研发能够控制任意机器人执行任意任务的基础模型。目前的实验表明，这类模型能够控制多种机器人，并完成此前所有机器人学习系统都未能成功实现的任务，例如从洗衣篮中取出衣物并折叠，以及组装硬纸板盒子等。但通用机器人 策略仍处于起步阶段，我们还有很长的路要走。机器人基础模型研究的前沿方向包括长期推理与规划、自主自我提升、鲁棒性和安全性等。

我们预计，未来一年在这些方向上都将取得重大进展。而初步成果已经为机器人基础模型的未来描绘了广阔前景：性能卓越的通用策略将既承袭互联网规模预训练带来的语义理解能力，又整合来自多种任务和机器人平台的数据，从而实现前所未有的灵活性和物理操作能力。

我们还认为，要实现这一目标，不仅需要新的技术和更多数据，还需要整个机器人领域的研究者共同努力。

目前，我们已与多家企业和机器人实验室展开合作，一方面优化远程操作和自主操作的硬件设计，另一方面将合作伙伴提供的数据整合到我们的预训练模型中，以便为他们提供适配其特定平台的模型。