百度百舸全栈 AI Infra 助力具身模型加速迭代

本文整理自 2026 年 5 月 14 日 Create2026 百度 AI 开发者大会 - 具身智能专场，百度智能云主任架构师应茹的同名主题演讲。

云上的具身智能研发正在分成两大方向，第一类是操控类模型，主要服务于叠衣服、拆快递等长程的精细操作任务；第二类是运动控制类策略，面向平衡控制与敏捷反应，服务于武术、舞蹈等高难度全身协同运动。

首先看操控类模型。当前研究仍以 VLA（视觉-语言-动作）为主干范式，大体从两个层面推进。

一是 VLA 自身的架构演进，常见架构分为双系统分层与单体两类：双系统分层架构中，上层由大规模 VLM 构建「通用大脑」（如大于 200B 的 MoE 结构），承担高层语义推理与长程任务拆解，下层由高频策略完成实时动作映射；单体结构的 VLM backbone 通常控制在 10B 以内，端到端输出动作。

二是 VLA 引入世界模型（WM，World Model）的路线，覆盖合成数据引擎、视频-动作联合建模（WAM，World Action Model）等多种形态，旨在让模型显式建模动作对环境状态的改变，使策略不仅能感知当前世界，还能在内部预演动作交互后的状态演化，从而在长程任务与跨本体迁移上获得更强的泛化能力。从公开学术成果的统计趋势来看，

两条路线目前都在快速推进。VLA 经过 2025 年集中的研发和成果的爆发，其架构与设计范式逐步形成共识。

站在 AI Infra 视角，当下 VLA 范式对 Infra 的核心诉求是最新 VLM backbone 的高效的后训练支持。

引入 WM 的路线，在最近 4 到 5 个月内出现了的云端大规模世界模型训练需求。行业内正积极探索 VLA 模型如何引入世界模型 WM，既有将世界模型作为 VLA 的外挂模块生成未来帧，也有将世界模型直接引入 VLA 进行混合训练，整体处于快速试错与范式探索阶段。这一过程中，AI Infra 需要提供一套能够兼顾灵活性和效率的训练框架。

额外值得注意的是，引入世界模型之后，由于其 Diffusion 结构特性，在推理部署阶段会带来显著的延迟，制约高频闭环控制，这也需要 AI Infra 针对性地设计高效的解决方案。

在运动控制策略领域，近期一个显著的行业趋势是：研发需求正逐步从本地向云端迁移。这一转变背后的深层原因，可以从技术演进的脉络中找到解答。

如下图左侧所示，当前主流的运动策略训练范式主要表现为单类动作对应独立策略。这种模式需要为不同动作单独设计奖励函数（Reward Function），导致其难以实现规模化扩展（Scaling）。此外，该范式下单个策略所需的算力资源较少，通常仅依赖 1-2 台机器。

然而，行业目前正加速向统一策略与规模化扩展（Scaling）转变。在此，我们总结了两个标志性的发展线索：

学术与开源界的突破（NVIDIA SONIC）：该项工作利用海量的人类动捕数据生成密集的训练信号，成功取代了传统的手工设计奖励函数。在这一全新范式下，运动控制策略的参数量从 1M 成功扩展（Scale）至 40M，最终打造出一个统一的全身控制策略。
工业界的落地（Figure AI 「System 0」）：工业界头部企业 Figure AI 在发布 Helix 02 时，首次提出了「System 0」概念。作为底层的统一控制策略，System 0 彻底替代了以往独立、割裂的动作控制范式。

无论是开源学术界还是工业界，其技术演进思路已高度趋同：即利用统一的全身控制底座，全面替代传统碎片化的控制策略。随着策略训练规模扩大，以 SONIC 为例，其典型训练规模已达 128 卡。

研发面临的挑战从单机管理跃升为数十台机器的分布式调度与部署，全面上云已成为行业的必然选择。在此背景下，一套面向运动控制策略研发的全流程工作流（Workflow），已成为决定策略迭代效率的关键基础设施。

为精准匹配操作类模型与运动控制类策略的研发需求，百度百舸构建了一套全流程具身智能 Workflow ，以底层高性能计算、存储系统、机间高速互联网络为基础，覆盖具身智能研发的典型环节，实现从数据准备 - 开发训练 - 仿真 - 推理环节的全链路赋能。

首先是数据准备环节，百度百舸预置了简智无本体数据集、智源双臂机器人真机数据集等热门开源数据集。同时集成了开源数据集高频使用的数据格式转换算子，以及运动控制策略动捕数据所需的重定向算子。以及运动控制策略动捕数据所需的重定向算子。当前，我们也正在准备 Egocentric data 所需的数据清洗和标注的常用算子。
数据准备完成后，可以通过分布式存储挂载至开发训练集群，方便地开始训练，我们在这里会提供通用的训练加速套件。
训练的阶段性 Checkpoint 产生时，可以使用百舸预置的各类主流仿真环境和任务集，进行效果评估，这里也会涉及到推理，如我们刚才所提到的世界模型会有推理瓶颈，我们针对其 Diffusion 结构、VAE Encoder 结构也提供了专门的加速方案。

在操控类模型训练环节中，不同技术路线对应不同的模型结构与参数量，这对分布式训练提出多样化需求。比如大小脑分层的双层 VLA 设计，「大脑」部分通常达到非常大的规模量级，从云上视角来看，这属于大于 200B 的 MoE 分布式训练，百度百舸积累了大量此类模型后训练优化的基础设施经验，高效支撑大规模训练需求。

在尝试快速引入世界模型的过程中，我们发现行业内普遍存在模型结构高度模块化、且结构频繁迭代的问题。若采用天然兼容 Hugging Face 的开源框架，则多机分布式训练的加速效果不佳；如果选用加速效果极致的框架，通常无法灵活修改模型结构。针对这一痛点，百度百舸面向各类灵活的开源框架提供加速套件，帮助研发人员在训练效率与模型灵活性之间找到平衡点。

另外，我们注意到，当前阶段，单体 VLA 或引入世界模型的 WAM 的参数量大约是 5B 到 20B 的量级，我们将这类模型定义为中型尺寸模型。这类模型的训练需要的算力是什么样的？是算力越大越好吗？

近期 DeepSeek V4 技术报告中有一个非常有意思的论点：卡间或机器间每 GB 互联带宽所能支撑的模型算力存在一个合理值。引申来看，如果模型尺寸没有达到这个算力值，超配的带宽就是浪费。对于20B 量级以下的 VLA 或 WAM 模型，盲目堆砌最高端的硬件配置，不仅不会带来等比例的性能提升，反而会造成显存、带宽、算力等多个维度的资源错配，推高研发成本。这正是我们近期重点推进的工作之一。

我们详细评测了此类中型尺寸模型所需的算力、显存带宽以及多机之间的互联带宽，针对这类模型，在当前的算力供应背景下，我们提供了一套高性价比的服务器算力配置，同时配套提供多机训练加速套件，让用户能够获得理想的多机加速比，也为这个阶段的具身模型研发提供更多的配置选择。

另一个是运动控制策略，我们观察到运动控制策略正朝着统一化、Scaling 的方向快速发展。针对这一趋势，百度百舸在云上提供了集成 NVIDIA 开源的 WBC-AGILE 框架，它是一套覆盖资产准备、调试、训练、评估等环节的运动控制策略研发流水线。

基于这套流水线，百度百舸重点开展了两方面优化工作：

首先，基于 Scaling 的需求，我们针对性优化了多机之间的通信效率，确保多机训练的高效推进；
运动控制策略的训练通常基于小卡开展，而小卡的核心痛点是显存资源珍贵且紧张，我们会针对特定的场景，对显存里的部分内容 offload 到 Host 的内存，释放出更多显存空间，这些空闲显存可用于开启更多仿真环境的并行数。从而让用户在使用相同卡数量的情况下，获得更大的训练吞吐量，提升训练效率。

同时，百度百舸也在积极跟进开源学术领域的最新进展。例如，几周前 SONIC 将其训练配方开源后，百度百舸第一时间集成，支持用户一键 scale 到 128 张卡上，尝试复现 SONIC 的训练效果。

此外，上海交通大学穆尧老师实验室研发的 CLOT 全身控制策略训练方案，百度百舸也第一时间集成，进一步丰富了研发工具矩阵。

在我们的研发流水线中，仿真环境是强化学习及模型测评过程中的关键环节。

以英伟达仿真生态为例，它具有高度模块化的特点，由多个模块组合而成。但用户在具身智能场景中使用时，需手动完成多个模块的串联，且模块间存在版本兼容性问题。即便部署成功，版本不兼容也会导致性能衰退。

对此，百度百舸为用户常用场景的提供了模块组合的镜像，实现仿真环境开箱即用，大幅降低使用门槛。

同时，我们在研究中发现，仿真环境的引擎源于 CPU 时代，这意味着大量仿真任务未能完全卸载至 GPU，属于 CPU 算力敏感型任务。针对此类场景，我们对 CPU 拓扑进行了细致的调优，让这类仿真任务能够在 CPU 上实现高速运转。

另外，我们也在跟进 NVIDIA 对于仿真引擎的研发迭代，比如我们发现部分场景下，升级 Newton 物理引擎代替原有的 Phyx 引擎，RL 吞吐会有接近 50%的提升。我们也会大家持续跟进这样的进展，及时把业界新的高效的能力，集成到百舸。

在支撑具身智能行业发展的这段时间里，百度百舸已积累了大量技术优化成果，用户可通过百度百舸的通用加速套件或 Docker 镜像，一键享受相关加速效果。额外需要说明的是， VLA 引入世界模型后，在推理部署环节可能会出现推理延迟瓶颈。

近几周，我们重点针对开源领域具有影响力的 WAM 模型开展工程化加速工作，取得了较为理想的效果，将其推理延迟降低至原有水平的 1/4。这一实践也带给我们深刻思考：我们在行业中看到了大量的算法创新，而工程优化同样具有重要价值。我们希望与更多企业开展深度合作，将算法创新与工程优化深度融合，共同推动行业发展。

百度百舸依托底层高性能计算、自研昆仑芯、超节点等核心资源，深度服务于具身智能全流程研发工作。目前，百度智能云已通过百度百舸，服务于北京、上海创新中心等具身智能「国家队」，同时也为产业链内超过 30 家具身智能头部企业提供支撑。未来，我们希望与更多企业开展深度合作，为企业在创新背景下抢占发展先机提供核心能力支撑。