上海交大 × 百度百舸，新型异步 WAM 模型破解机器人落地难题

近日，上海交通大学 ScaleLab 团队、上海人工智能实验室联合百度智能云团队，推出全新机器人操控模型 AHA-WAM（异步视野自适应世界-动作模型），顺利攻克了长期困扰 WAM 模型落地的延迟难题，为行业带来新的技术突破。

论文地址：Arxiv: https://arxiv.org/abs/2606.09811

项目地址: https://serene-sivy.github.io/aha-wam/

在核心性能上，这款模型表现十分亮眼：它无需依赖大规模机器人真实数据做预训练，就在权威仿真基准平台 RoboTwin 2.0 上取得 92.8% 的平均任务成功率，超越了业内主流模型。在真实机器人场景的实操任务中，多项实操任务综合成功率达到 78.3%，整体能力与依赖海量数据训练的主流通用模型相当。

除了精度突破，运行效率的提升更是本次成果的一大亮点。AHA-WAM 将机器人闭环控制频率从此前同类模型的 5.26 Hz 提升至 24.17 Hz，提速接近 5 倍；在此基础上，团队还推出轻量化版本 AHA-WAM-Flash，控制频率进一步拉高至 56.95 Hz，相较传统基线提速超 10 倍，机器人动作响应变得更加流畅。

据了解，AHA-WAM 模型从训练到部署推理，全程依托百度百舸 AI 计算平台完成。

AHA-WAM 独创的异步架构，把耗时的视觉场景分析模块移出了动作执行的核心链路，从底层打破了推理效率的瓶颈。
同时，百度百舸团队针对推理流程开展深度工程优化，将单步动作推理延迟从 415ms 压缩至 41ms，实现约 10 倍加速。
上海交大团队再通过模型蒸馏技术精简推理步骤，最终打磨出高实时性的 Flash 版本。

架构创新叠加多层工程优化，也让高性能实时机器人控制，真正具备了从实验室走向商用落地的条件。

行业痛点

近年来，WAM 世界-动作模型成为机器人操控领域的主流技术方向。这类模型的核心逻辑，是让机器人不仅学会执行动作，还能主动理解、预判场景变化，以此提升决策能力与场景泛化性。

但传统方案存在一个难以回避的短板：场景理解与动作执行被强行绑定在同一运行节奏中。机器人每执行一次动作，都要重复完成高开销的视觉计算，大量算力被消耗在帧间重复、低价值的画面变化上，直接导致机器人反应迟缓，严重制约了真机落地效果。如何平衡「场景理解能力」与「动作响应速度」，一直是行业亟待攻克的难题。

AHA-WAM 的创新思路

针对上述痛点，研究团队提出了一套全新的异步协同方案，简单来说就是让 AI 「想得慢、动得快」：

慢速世界规划模块：专注于长周期的场景理解与全局任务规划，生成的分析结果会被缓存，可反复调用；
高速动作执行模块：以高频率持续输出动作指令，直接复用缓存好的场景信息。

这种快慢结合的运作模式，突破了传统模型「思考与行动绑定同步」的固有框架。从最终结果来看，将 AI 的「思考」与「行动」拆分为不同节奏异步运行，不仅没有降低任务完成精度，反而同时实现了准确率与响应速度的双重提升。

不过单纯把思考和行动分开，也会出现一个新问题：提前「想好」的环境方案，很容易跟不上实时变化，反而拖累机器人完成任务。为此团队增加了一套轻量化动态调节机制，不需要重复进行复杂运算，就能随时微调之前的规划内容。既保留异步设计带来的超快反应速度，同时牢牢稳住作业成功率，有效解决了行业内「提速必降精度」的普遍难题。

行业意义

AHA-WAM 的成果表明，让机器人 AI 的「思考」和「行动」以不同频率异步运行，不仅不会降低任务完成质量，还能同步提升准确率与响应速度。同时以更低的算力消耗换取更高运行效率，也为 WAM 模型规模化落地开辟了全新路径。