对于电子产品,我们已然习惯了「出厂即巅峰」的设定:开箱的那一刻往往就是性能的顶点,随后的每一天都在折旧。
但对于通用机器人来说,这个设定必须被颠覆。
试想,如果一个在实验室里完成训练的 AI 机器人,一进家门面对光线稍暗的房间或堆满杂物的茶几就大脑宕机,那它就永远只能是一个昂贵的实验品。这正是当前具身智能面临的尴尬真相:我们在互联网知识里训练出了博学的预训练模型,可一旦让它们走进充满未知的物理世界,这些「理论巨人」往往会因为环境变化而束手无策:「懂」很多道理,却依然干不好家务。
通用机器人的出路,绝不应是被困在出厂设置里的「静态标品」,而应当是能在真实部署中、在每一次失败和纠正中持续变强的生命体。
为了实现这一跨越,智元具身研究中心提出了 SOP(Scalable Online Post-training)框架。

-
论文标题:SOP: A Scalable Online Post-Training System for Vision-Language-Action Models
SOP,即可扩展在线后训练,是一种颠覆性的机器人学习新范式。据了解,这是业界首次在物理世界的后训练中深度整合了在线、分布式和多任务机制。
通过 SOP 框架,智元具身研究中心构建了一个「多机平行现实」与「云端集中进化」的闭环,进而打破了机器人认知的时间边界,让智能的进化不再止步于出厂的那一刻。
SOP:让机器人实现在真实世界中的分布式持续学习
在过去几年里,基于互联网海量数据预训练的 VLA(视觉 - 语言 - 动作)模型,虽然赋予了机器人一定的通用泛化能力,但始终面临一个难以逾越的鸿沟:「懂」不代表「能」。
预训练模型或许「懂」什么是叠衣服,但当它真正面对一件材质松软、光照复杂的真实衣物时,往往会因为分布偏移而束手无策。
为了解决这个问题,传统的做法是后训练(post-training)。但这通常是一条离线、单机、顺序的漫漫长路:采集数据、离线训练、更新模型、再次部署。这种模式下,机器人探索慢、迭代慢,且很容易在学习新任务时遗忘旧能力。
智元具身研究中心提出的 SOP 颠覆了这一陈旧范式。

它将 VLA 的后训练从「单机单打独斗」转变为「在线、集群、并行」的集团军作战。形象地说,SOP 构建了一个「多机平行现实 → 云端集中学习 → 模型即时回流」的超级闭环。

分布式机器人队伍:构建「平行现实」
在 SOP 架构下,不再是一台机器人在苦苦探索,而是多台机器人组成集群,共享同一个 VLA 策略。
这就好比在同一时间开启了多个「平行现实」:有的机器人在尝试叠衣服,有的在整理杂货,有的在处理纸盒。

这种空间上的并行,大幅拓宽了真实世界中状态 - 动作分布的覆盖面,让系统能瞬间接触到极其广泛的场景,直接避开了单机学习容易陷入的局部瓶颈。
值得注意的是,人类还可以通过施加少量的干预性修正来加速学习过程。

云端集中在线更新:分钟级的进化速度
所有的运行轨迹、奖励信号甚至人工纠正信息,都会被实时流式上传至云端 GPU 集群。在这里,一个通才学习器(Generalist Learner)夜以继日地运转,持续对策略模型进行在线更新。
为了支撑这种大规模的实时并发,SOP 在底层架构上搭建了一套工业级的分布式数据基座。
系统采用了先进的 Actor-Learner 分离架构,通过消息队列完全解耦了数据生产与消费。这意味着系统具备了「零配置」的弹性水平扩展能力:新的机器人加入集群无需修改任何代码或停机配置,只需连接消息队列即可即插即用,自动分担数据采集任务。

同时,针对物理世界复杂的网络环境,SOP 建立了严苛的容错与数据原子性机制。依靠本地缓冲和对象存储的原子写入特性,确保了即便在网络波动或节点故障时,数据要么完整保存,要么完全回滚,绝不让脏数据污染核心训练池。
为了让学习更高效,SOP 内置了一个聪明的动态采样器(Adaptive Sampler)。它不像传统模型那样盲目混合数据,而是能根据任务的实时训练损失「查漏补缺」,也就是自动加大对当前薄弱环节的在线数据训练权重。这种有的放矢的学习策略,让位于边缘端的机器人能在数秒至数十秒内获得云端最新进化的大脑,真正实现了群体智能的实时同步。
这意味着,如果一台机器人在北京学会了某个抓取动作的微调,几分钟后,位于上海的另一台机器人就能用上这套最新的记忆。
破解灾难性遗忘:泛化与精度的共存
传统的单机在线训练往往面临一个两难:为了精通某项任务(如叠衣服),模型很容易退化成只懂这一件事的专家,丧失了通用的 VLA 能力。
SOP 通过多任务并行巧妙化解了这一矛盾。因为它是在更广阔的分布中同时进行多任务学习,而非按顺序一个个学,从而确保了 VLA 的通用性不会因针对某一任务的性能提升而受损。
下面展示 SOP 的伪代码:

有效性验证:从鲁棒性涌现到具身智能的 Scaling Law
为了验证 SOP 的有效性,智元具身研究中心团队思考了三个问题:
-
SOP 对于预训练 VLA 的性能究竟有多大的提升?跟之前的一些离线方案相比呢?
-
分布式机器人队伍的数量规模扩展会如何影响性能?
-
对于不同质量的预训练模型,SOP 能否提供一致的性能增益?
为了解答这三个问题,智元具身研究中心基于自家的智元精灵 G1(Agibot G1)机器人平台进行了实验验证。这是一款拥有双臂 14 个自由度的移动操纵机器人,其头顶与手腕配备的「三目」RGB 视觉系统,配合 7 自由度的灵活手臂和 30Hz 的高频控制,使其具备了在复杂非结构化环境中执行精细微操的硬件基础。
结果呢?相当亮眼!下面我们将深入挖掘实验数据,你将看到:SOP 的技术可行性不仅得到了验证,更展示了极高的「训练性价比」。
超越离线:不仅是成功率的提升,更是鲁棒性的涌现
首先看看实验所选的任务 ------ 可以说极具挑战性:从杂货补货任务中涵盖的 500 多种不同形态商品,到叠衣服任务中涉及的柔软易变形物体,甚至包括协同打开冰柜门等复杂动作。这些场景不仅考验机器人的认知能力,更对操作的鲁棒性提出了严苛要求。
在有效性验证中,团队选择了 HG-DAgger(典型的单机在线算法)和 RECAP(最新的 SOTA 离线方法)作为对比基准。实验设计非常直观:先看基线模型表现,再看经过这些算法打磨后的效果,最后看接入 SOP 框架后的「终极形态」。

在各类测试场景下,结合 SOP 的在线多机方案全面碾压了传统单机或离线方法。更令人惊喜的细节出现在「叠衣服」和「叠纸盒」这类长序列任务中:SOP 训练出的模型展现了显著的「恢复行为」。


这意味着,当机器人在操作中出现细微偏差时,它不再像过去那样直接导致任务失败或中止,而是学会了类似人类的微调动作进行补救。
这种在动态交互中获得的鲁棒性,直接经受住了极限压力的考验:在叠衣服和组装纸盒的长程评估中,SOP 系统实现了超过 36 小时的连续运行且无性能衰减。这种稳定性同时转化为效率的质变,特别是在叠衣服任务中,SOP 将系统的吞吐量直接翻倍,从每小时 21 件提升至 45 件。
以下视频展示了配备了 SOP 的智元精灵 G1 连续 36 小时叠衣服与叠纸盒的视频片段(已加速):
具身智能的 Scaling Law:用硬件换时间,效率达到原来 2.4 倍
如果说单机试验只是「小试牛刀」,那么关于扩展性的实验则回应了工业界最关心问题:堆机器人数量,真的有用吗?
团队设置了单机、双机和四机三种配置。实验结果(见下表)展现了一个清晰的趋势:随着分布式集群规模的扩大,模型性能呈现出近乎线性的增长。

在严格限制总训练时长为 3 小时的前提下,四机并行学习的最终成功率达到了 92.5%,比单机提升了 12%。更关键的是,SOP 成功将硬件的扩展转化为了学习时长的极致压缩。要达到 80% 的性能基准线,单机苦练需要 174 分钟,而四机战队仅需 72 分钟,训练速度达到原来的 2.4 倍。
这表明,多机并行采集不仅能防止模型对单机特征的过拟合,也证实了在物理世界中,通过增加设备数量来加速模型进化的 Scaling Law 是真实有效的。
突破预训练瓶颈:3 小时实战 > 上百小时数据堆砌
最后一组实验揭示了 SOP 在训练成本上的优势。
团队对比了分别使用 20 小时、80 小时和 160 小时数据预训练的模型。数据显示,虽然预训练规模决定了模型的初始能力,但 SOP 给所有不同基础的模型都带来了稳定的提升。

关键的对比出现在投入产出比上:当预训练数据从 80 小时增加到 160 小时,巨大的算力和数据投入仅带来了 4% 的性能提升,明显的边际效应递减已经出现。然而,在同样的瓶颈期,SOP 仅用了 3 小时的在轨经验,就换来了约 30% 的性能提升。这一数据有力地证明:部署后的在线学习不是对预训练的简单重复,而是更高维度的优化。
但也需要指出,SOP 并非万能药。实验发现,最终的性能上限依然被预训练模型的初始规模所锚定。这表明在线学习本质上是既有知识的超级优化器,而非大规模预训练的完全替代品。
因此,对于追求极致性能的具身智能系统而言,在解决特定长尾问题和弥合「仿真 - 现实」差距时,几小时的真实场景交互,往往比单纯增加几十小时的离线数据更为关键。
当机器人开始进化......
当我们重新审视 SOP 时,会发现它改变的不仅仅是某一项具体的训练技巧,而是整个通用机器人系统的生命周期。在传统的工业逻辑中,产品交付即意味着研发的终点,但在具身智能时代,这个逻辑正被反转。
智元具身研究中心通过 SOP 传达了一个核心理念:通用机器人应当是一个在真实运行中持续进化的「生命体」。
这种范式转变意味着机器人可以带着尚不完美的初始模型上线。对于产业而言,这极大地降低了落地的门槛:我们不再需要等到模型完美无缺才敢让机器人走出实验室,因为部署就是通往完美之路。SOP 能让机器人的每一次任务执行、每一次失败后的纠正都转化为宝贵的训练数据。部署不再是技术迭代的终点,而是更大规模学习的起点。
随着远征、灵犀、精灵、Q1 等机器人走入真实世界,分布式集群的规模将呈指数级增长,我们也将见证一种前所未见的群体智能增长速度。

如果说 VLA 模型让机器人第一次具备了通用的理解与行动能力,那么 SOP 所做的是让众多机器人的经验共同驱动智能的快速成长。它让训练不再被锁死在过去的数据集中,而是让机器智能在每一次交互中不断成长。这或许就是通用机器人走向大规模真实世界部署的关键一步。