近日,上海交通大学 ScaleLab 团队、上海人工智能实验室联合百度智能云团队,推出全新机器人操控模型 AHA-WAM(异步视野自适应世界-动作模型),顺利攻克了长期困扰 WAM 模型落地的延迟难题,为行业带来新的技术突破。
论文地址:Arxiv: https://arxiv.org/abs/2606.09811

在核心性能上,这款模型表现十分亮眼:它无需依赖大规模机器人真实数据做预训练,就在权威仿真基准平台 RoboTwin 2.0 上取得 92.8% 的平均任务成功率,超越了业内主流模型。在真实机器人场景的实操任务中,多项实操任务综合成功率达到 78.3%,整体能力与依赖海量数据训练的主流通用模型相当。
除了精度突破,运行效率的提升更是本次成果的一大亮点。AHA-WAM 将机器人闭环控制频率从此前同类模型的 5.26 Hz 提升至 24.17 Hz,提速接近 5 倍;在此基础上,团队还推出轻量化版本 AHA-WAM-Flash,控制频率进一步拉高至 56.95 Hz,相较传统基线提速超 10 倍,机器人动作响应变得更加流畅。
据了解,AHA-WAM 模型从训练到部署推理,全程依托百度百舸 AI 计算平台完成。
-
AHA-WAM 独创的异步架构,把耗时的视觉场景分析模块移出了动作执行的核心链路,从底层打破了推理效率的瓶颈。
-
同时,百度百舸团队针对推理流程开展深度工程优化,将单步动作推理延迟从 415ms 压缩至 41ms,实现约 10 倍加速。
-
上海交大团队再通过模型蒸馏技术精简推理步骤,最终打磨出高实时性的 Flash 版本。
架构创新叠加多层工程优化,也让高性能实时机器人控制,真正具备了从实验室走向商用落地的条件。
行业痛点
近年来,WAM 世界-动作模型成为机器人操控领域的主流技术方向。这类模型的核心逻辑,是让机器人不仅学会执行动作,还能主动理解、预判场景变化,以此提升决策能力与场景泛化性。
但传统方案存在一个难以回避的短板:场景理解与动作执行被强行绑定在同一运行节奏中。机器人每执行一次动作,都要重复完成高开销的视觉计算,大量算力被消耗在帧间重复、低价值的画面变化上,直接导致机器人反应迟缓,严重制约了真机落地效果。如何平衡「场景理解能力」与「动作响应速度」,一直是行业亟待攻克的难题。
AHA-WAM 的创新思路
针对上述痛点,研究团队提出了一套全新的异步协同方案,简单来说就是让 AI 「想得慢、动得快」:
-
慢速世界规划模块:专注于长周期的场景理解与全局任务规划,生成的分析结果会被缓存,可反复调用;
-
高速动作执行模块:以高频率持续输出动作指令,直接复用缓存好的场景信息。
这种快慢结合的运作模式,突破了传统模型「思考与行动绑定同步」的固有框架。从最终结果来看,将 AI 的「思考」与「行动」拆分为不同节奏异步运行,不仅没有降低任务完成精度,反而同时实现了准确率与响应速度的双重提升。
不过单纯把思考和行动分开,也会出现一个新问题:提前「想好」的环境方案,很容易跟不上实时变化,反而拖累机器人完成任务。为此团队增加了一套轻量化动态调节机制,不需要重复进行复杂运算,就能随时微调之前的规划内容。既保留异步设计带来的超快反应速度,同时牢牢稳住作业成功率,有效解决了行业内「提速必降精度」的普遍难题。

行业意义
AHA-WAM 的成果表明,让机器人 AI 的「思考」和「行动」以不同频率异步运行,不仅不会降低任务完成质量,还能同步提升准确率与响应速度。同时以更低的算力消耗换取更高运行效率,也为 WAM 模型规模化落地开辟了全新路径。