当你让机器人从厨房台面上拿一杯水递给客人时,期待的是它能避开杂乱的餐具、准确握住杯子、平稳走到你面前------而不是杯子歪了、水洒了,或者中途"迷路"。"听懂并准确做对"的朴素需求,正是真实场景对具身智能的核心考验。在过去很长一段时间里,具身智能始终在接近这个目标,却始终隔着一层难以逾越的壁垒。

机器人能听懂"把杯子拿过来",也能精准识别杯子的位置,在理想化的仿真环境中,它的路径规划几乎不会出错,可一旦走进真实的物理空间,各种意外便接踵而至:反光的厨房台面会让它的末端出现明显偏差,杂乱的物品摆放常导致它抓握空落;若是遇到"热牛奶+递杯子"这类多步骤长任务,细微的误差会不断累积,最终让整个任务功亏一篑。规划越是完美,执行越是容易脱节;任务越长,稳定性越难保障,这就是具身智能在真实场景中面临的尴尬现状。

这并不是个例,而是整个行业共同面对的现实困境。机器人的高层语义推理不断变强,底层控制算法持续优化,但二者之间始终存在一条看不见的鸿沟:理解足够聪明,执行却不够扎实;规划足够合理,落地却不够稳定。
核心困境:语义与运动之间的无形鸿沟
传统VLA模型把感知、推理、动作挤压在同一套表征体系里,模型既要理解场景语义,又要输出毫米级别的动作指令,最终顾此失彼。要知道,语义是离散、符号化的,而动作是连续、低维、高精度的,用同一套表征强行兼顾,正是问题的根源。更关键的是,执行模块为了响应实时性,往往绕过高层规划,直接依赖瞬时观测生成控制量,长时域任务的一致性几乎无法保证。

这就是"Semantic-Actuation Gap"------机器人脑子里能"理解任务"(比如知道要拿哪个杯子),但手上的动作却"做不到位"(比如抓不准、走不稳),就像人想写工整字却手抖一样,这也是具身智能走向真实世界必须跨过的核心门槛。
GO-2的破局之道:重构"思考-执行-进化"逻辑
在这样的背景下,智元新一代具身基座模型 Genie Operator-2(GO-2)正式亮相。它不是一次简单的模型迭代,不是在原有架构上增大数据、加深网络,而是从推理空间、执行架构、落地闭环三个根源层面,重构了机器人"思考---执行---进化"的完整逻辑。

GO-2的突破在于三个核心创新,精准破解行业痛点:①动作空间推理:提前模拟多种执行路径(比如绕开障碍物的3种方式),避免临时决策失误,从源头减少执行偏差;②异步粗精执行:先规划"大致路线"(粗执行),再通过实时传感器反馈微调细节(精执行),彻底解决轨迹漂移、姿态晃动的问题;③全生命周期智能体闭环:每次执行后自动记录误差(如抓握力度不足、位置偏差),下次执行时直接优化调整,让机器人在反复实践中持续提升稳定性。

这套创新设计,让GO-2首次在统一架构内,实现了动作空间推理、异步粗精执行、全生命周期智能体闭环的深度融合,真正实现从"理解任务"到"稳定完成任务"的跨越,让具身智能的核心目标------"知行合一"不再是口号。
从GO-1到GO-2:从"能做"到"稳定做"的跨越
回望智元在具身智能领域的技术路径,从 GO-1 到 GO-2 的演进,清晰而坚定。GO-1 凭借 ViLLA 架构首次实现视觉-语言-动作的统一表征建模,把机器人从专用策略带入通用基座模型时代。它让机器人具备了跨场景感知、泛化指令理解、基础动作执行的能力,在真实环境中完成了规模化落地验证,实现了"能做"的突破------比如单次拿杯子成功率可达70%。

但当任务进入长时域、多扰动、多物体交互的场景时,GO-1规划与执行断裂的问题被无限放大:像"取快递+拆包装+放桌上"这样的长任务,其成功率仅45%,一旦遇到有人碰了桌子、物品位置轻微移动等扰动,就很容易任务失败。而GO-2的诞生,正是为了补上这最后一块短板,它将长任务成功率提升至82%,且在多扰动场景下,机器人的恢复能力提升3倍,真正实现了从"能做"到"稳定做"的跨越。
一、回归动作本质:把推理空间从语言与视觉,拉回到动作本身

传统VLA模型的推理过程,始终局限在感知空间而非动作执行空间。一类方法在语言空间拆分子任务,将复杂行为转化为文本化步骤;另一类在视觉空间预测目标图像或未来状态,用视觉表征间接引导动作生成。两种路径都无法回避一道核心障碍 ------语义 - 运动学鸿沟:必须把抽象的语义或视觉表示,强行映射为连续、精准、时序一致的物理动作。
这套间接推理模式在实验室可控环境中尚能取得不错效果,但一旦进入光照变化、相机位移、物体布局扰动、纹理改变的真实场景,信息损耗、分布偏移与执行偏差几乎不可避免,机器人行为会变得脆弱、敏感、难以稳定复现。大量实验反复验证:中间推理表示越抽象,向动作空间传递的细粒度信息越弱;推理与实际执行的距离越远,长时域任务越容易累积误差而崩溃。 由此引发出新的思考判断:机器人最可靠的推理,不应发生在语言或视觉空间,而应直接发生在动作空间。
这正是 ACoT-VLA 的底层创新逻辑。模型不再先生成文本或图像类中间量,而是直接输出结构化、运动学合理、可直接指导执行的粗粒度动作意图序列,即动作思维链(Action Chain-of-Thought)。这条思维链并非对任务的自然语言描述,而是机器人内部的运动预演,是执行层可直接理解的意图轨迹。它从根源上消除了感知到动作的跨空间异构映射偏差,让规划输出本身就具备物理落地性。

为让动作空间推理具备强鲁棒性与泛化性,ACoT-VLA 构建了显式 + 隐式双路径互补推理机制:
-
显式动作推理器(EAR):生成粗粒度参考动作轨迹,为机器人提供清晰的运动骨架,明确运动路径、姿态变化与时序结构;
-
隐式动作推理器(IAR):从VLM的内部表征中提取潜在线索,捕捉场景可供性、接触意图、空间约束、运动趋势等难以用显式轨迹完整描述的先验信息。

双路径融合后,机器人从 "边感知边反应" 的被动策略,升级为先形成可执行运动方案、再精准落地动作的主动具身智能体。

在真实桌面操作任务中,这一范式革新带来直观的体验提升:抓取不再空夹、移动不再飘移、放置不再偏移。在 LIBERO 仿真基准上,动作原生推理带来稳定且显著的性能提升,平均成功率达到 98.5%,尤其在需要严格误差控制的长时域操作任务上,提升幅度远优于传统语言 / 视觉思维链方法。核心原因在于:动作思维链天然为长序列动作提供结构化约束,让误差不再无限制扩散。

对真实机器人部署而言,这一突破的价值远不止指标提升。它让机器人首次具备接近人类的决策模式:先在运动层面形成完整意图,再分步稳健执行,而非依赖瞬时视觉刺激做被动反应。

这种动作中心化的推理模式,使机器人在复杂场景、强干扰场景、长序列任务中保持高度行为一致性,实现了传统 VLA 模型难以达到的部署稳定性与泛化能力,是通用机器人从 "感知理解" 走向 "物理落地" 的关键一步。
二、解开执行矛盾:用异步分层双系统,让规划稳定落地
动作推理的问题解决后,下一个工程瓶颈自然浮现:即使推理完全正确,机器人依然难以做到高频、精准、低延迟的稳定执行。

只要深入机器人的行为结构就会发现,复杂操作天然具备两层逻辑:宏观上,机器人需要知道"往哪里去、整体结构是什么、长时域目标是什么",这部分是低频、离散、全局的;微观上,机器人需要处理"毫米级对位、接触调整、姿态修正、力度控制",这部分是高频、连续、局部的。传统架构把两层目标压在同一个网络、同一个频率中学习,结果必然是顾此失彼。宏观规划被细节噪声带偏,精细控制被全局意图扰动,最终表现为动作响应性不足,稍微遇到扰动就失控。
GO-2 采用了一套彻底解耦却又高度协同的异步双系统架构,把规划与执行分到两套节奏、两套目标、两套模块中运行。低频慢系统(语义规划器)专注于宏观意图,基于预训练VLM主干,通过并行解码输出离散的粗粒度动作token,以交叉熵损失训练,以更低的频率更新,输出稳定、长时域、结构化的动作约束,形成持续引导执行的意图流,填充先进先出(FIFO)意图缓冲区;高频快系统(动作细化器)专注于实时观测与局部修正,采用DiT搭配独立视觉编码器,以MSE损失训练,以高频率响应环境变化,在慢系统给出的约束内完成精准对位、姿态调整、误差修正,逐段消费缓冲区中的意图并进行精修。

两套系统之间通过意图缓存实现异步流转。慢系统一次性输出一段未来的动作意图(时域扩展因子M决定输出长度),快系统逐段消费、逐段精修。这种结构带来两个关键收益:一是延迟显著降低,在RTX 4090平台上,相较于基准架构可实现44.5%以上的延迟降低,机器人的响应更流畅、更灵敏;二是鲁棒性大幅提升,在一定范围的观测噪声、物体位置偏移下,快系统可将动作拉回正确轨道,这得益于粗粒度动作约束的空间容错性。
更重要的是,这套架构遵循学习均衡的规律。我们在大量消融实验中观察到清晰的规律:动作分解的粒度(分箱数量N)与性能呈现倒U型关系。太粗(N≤2),精度不足,系统退化为纯扩散模型;太细(N≥50),规划复杂度爆炸,系统退化为自回归模型。只有在宏观与微观的学习难度达到均衡点(实验验证最优分箱数量N=10)时,成功率、泛化性、延迟同时达到最优。GO-2 正是在这个均衡点上工作,这也是它在零样本泛化、分布偏移、仿真到真实迁移中保持稳定的核心原因------粗粒度规划提供充足的宏观引导,细粒度精修保证精准执行,两者学习难度均衡,避免单一系统负担过重。

在真实场景测试中,异步双系统的价值尤为明显:桌面高度不一致、物体轻微滑动、光照突然变化等场景下,机器人可在线调整动作,减少误差累积,但仍存在一定局限性------当分箱粒度偏离均衡点、时域扩展因子M过大(M≥5)时,成功率会出现轻微下降(平均成功率从97.2%降至95.3%)。长时域任务中,误差得到有效控制,机器人可稳定完成多步骤、多阶段的复杂操作。对于需要连续接触、精细调整、姿态保持的任务,比如擦拭、倒水、插入、装配,这种结构带来的稳定性提升尤为关键,在AgiBot G1机器人平台的真实测试中,GO-2完成此类任务的平均成功率达到69.4%,显著优于同类模型。

这也让 GO-2 在真实硬件上的表现显著区别于前代模型。机器人的运动更加平滑、姿态更加可控、末端更加稳定,在低成本执行器、视觉噪声较大的平台上,仍能保持较高的任务成功率。这让具身智能模型进一步具备了跨硬件、跨场景、跨扰动的可靠性,为工业级落地奠定了基础,但目前尚未完全实现成熟的工业级应用,仍需在极端场景适配、多硬件兼容等方面进一步优化。

三、打通落地闭环:让机器人脱离人工看护,实现自主进化
动作精准、执行稳定,仅是机器人技术的基础能力,距离真实世界规模化部署仍存在核心瓶颈:机器人必须具备自主闭环数据采集、自主执行长时序任务、自主故障恢复、自主策略迭代的全链路能力,才能脱离人工依赖。

传统机器人系统的最大落地障碍,源于全流程高度人工介入 与架构割裂。数据采集依赖人工示教、环境重置依赖人工操作、任务执行依赖人工监控、故障处理依赖人工干预,任务复杂度越高,人力成本呈指数级上升,规模化部署完全无法实现。仅优化单步操作策略,无法解决长时序任务误差级联、训练与部署语义/分布不匹配、系统扩展性差的根因问题。
GO-2将系统架构提升至全生命周期智能体闭环 层级,以统一VLM元控制器、全生命周期一致上下文语义、同一套决策逻辑,深度融合数据采集、策略学习、任务执行、故障恢复与持续进化。

在数据采集阶段,机器人基于纠缠动作对(EAP) 机制,将前向操作策略与逆向恢复策略深度耦合,构建自重置循环。完成单次操作后,机器人可自主将环境恢复至可复用的初始状态,无需人工介入即可实现连续在线rollout与策略迭代。真实场景实验数据验证,该模式可降低53.7%的人工时间投入,人工干预频率降低8.04倍,让低成本、规模化数据采集成为现实。

在部署阶段,机器人摒弃静态技能序列与固定脚本执行模式,依托结构化记忆与上下文推理,自主完成任务拆解、技能动态调度与子任务执行状态实时校验。针对抓取空抓、位姿偏移、物体倾倒等异常,机器人可自主区分非退化故障与退化故障,完成重试、环境恢复、重规划等操作,实现无人工持续看守的稳定运行。

更核心的是,真实执行轨迹可直接回流至训练pipeline,让策略在真实环境扰动、真实故障场景中持续迭代优化,真正实现每一次执行都是一次学习,每一次迭代都提升鲁棒性与泛化能力,长时序任务成功率相较基线方法**提升25%**。
这并非传统意义上的单步动作策略,而是一套具备自主感知、自主推理、自主执行、自主修复、自主迭代能力的具身智能体。它不再局限于解决单一动作精度问题,而是打通机器人从实验室走向产业现场的全链路,攻克长时序任务执行脆弱、人工依赖过重、无法规模化扩展的行业难题。
对于企业级部署与规模化落地而言,这套全生命周期闭环的价值具备决定性意义。机器人无需大量现场工程师持续调试、维护与干预,可实现长时间、少人看护条件下的稳定运行;数据不再依赖高成本人工采集,可在部署过程中自主生成、自主迭代;模型不再是交付后固定不变的软件包,而是能够持续进化、持续适配场景、持续提升性能的智能系统。
这让GO-2从单一高性能操作模型,真正升级为可规模化落地、自主闭环进化的产业级生产力系统。
四、三位一体的统一架构:GO-2 真正的范式价值
把三层技术逻辑放在一起,一条完整、自洽、层层递进的技术路线彻底清晰: 第一层,把推理放回动作空间,从根源消除语义-运动鸿沟; 第二层,用异步分层双系统,让宏观意图与微观控制各司其职,达到学习与执行的均衡; 第三层,用全生命周期智能体闭环,让机器人脱离人工看护,实现自主数据、自主执行、自主进化。
GO-2 不是三个独立模块的拼接,而是把三者熔铸成一个端到端、同语义、同闭环的统一基座模型。它的内部数据流简洁而强大:多模态输入进入模型后,先在动作空间完成推理,形成结构化意图;意图进入异步双系统,完成低频规划与高频精修;动作输出由智能体闭环调度、监控、校验、自愈;执行轨迹回流训练,持续优化整个系统。

这种融合带来的不是简单的指标提升,而是机器人行为范式的改变。在 LIBERO 基准上,98.5% 的平均成功率,代表机器人在严格控制的长时域操作中达到了前所未有的稳定;在 LIBERO-Plus 零样本迁移中,86.6% 的成功率,体现出对相机、光照、背景、布局等分布偏移的强鲁棒性;在 VLABench 纹理泛化任务中,大幅领先的成绩来自动作空间特征的域不变性;在 Genie Sim 3.0 仿真到真实迁移中,82.9% 的成功率,证明动作约束在跨域时保持高度一致。

这些成绩不是靠更大的模型、更多的数据堆出来的,而是靠更贴近物理世界的架构设计带来的。


对于行业而言,GO-2 的出现标志着一个重要转向:具身智能正式从"追求理解能力"进入"追求执行可靠性"的新阶段。过去几年,行业的重心放在如何让机器人听懂、看懂、理解任务;从 GO-2 开始,行业的重心将转向如何让机器人稳定做到、可靠完成、长期运行。这是具身智能从实验室走向现实世界的关键一步。
五、从模型到生产力:GO-2 的产业级闭环体系
GO-2 的价值不止于技术创新,更在于它构建了一套可工业化、可规模化、可持续进化的产业体系。依托 Genie Studio 一站式具身开发平台,GO-2 形成了从预训练、在线后训练、多机协同数据采集到持续迭代的完整链路。它不再是一个静态模型文件,而是一套可以在真实世界中持续学习、持续变强的生产力系统。

云端与多机器人协同采集真实交互数据,在线后训练持续优化策略,每一次部署、每一次执行、每一次恢复,都在为模型提供新的经验。机器人不再是交付后就停止进化的设备,而是可以伴随场景持续成长的智能体。对于家庭、商用、工业等各类真实场景而言,这意味着更低的部署成本、更高的稳定性、更强的场景适应能力。

在实际落地案例中,这套体系已经展现出清晰的价值。在桌面整理、仓储分拣、商用服务、家庭辅助等场景中,GO-2 能够在较少人工干预的条件下快速适配新场景、新物体、新任务。模型不需要从零开始训练,只需要少量真实交互数据,就能快速迭代、快速收敛、快速落地。这大大降低了具身智能的使用门槛,让VLA基座模型真正走进产业现实。
从技术研发到产业落地,GO-2 搭建了一座完整的桥梁。它不再是实验室里只能演示的模型,而是能够在真实环境中创造价值、提升效率、降低成本的生产力工具。这也是智元在具身智能领域一贯坚持的方向:让技术真正落地,让机器人真正可用。
六、迈向具身智能的下一个时代:记忆、行动与闭环智能
在 GO-2 稳定动作能力的基础上,智元正在推进更完整的具身智能架构。当机器人可以稳定可靠地执行动作后,下一个核心能力自然浮现:记忆与经验复用。OpenClaw 记忆系统让机器人可以记录历史交互、积累操作技能、复用已有知识,在新任务中快速迁移、快速适应。
当动作空间推理、异步分层执行、长期记忆、智能体闭环结合在一起,机器人就进入了真正的具身智能体时代:感知、推理、行动、记忆、自愈、进化,形成完整闭环。这也是 GO-2 为行业打开的新方向:具身智能不再是感知与动作的简单拼接,而是推理、执行、记忆、进化的统一体系。
未来的具身智能,将不再只是执行指令的机器,而是能够理解任务、自主规划、稳定执行、记住经验、持续进化的真正智能体。它能够在复杂环境中长期运行、自主维护、自主优化、自主成长。它能够从每一次任务、每一次交互、每一次恢复中学习,变得越来越可靠、越来越聪明、越来越贴合人类需求。
这正是 GO-2 所开启的未来。
结语
从 GO-1 到 GO-2,是具身智能从"理解世界"到"稳定作用于世界"的范式跃迁。 GO-2 没有停留在增强感知、扩大模型、增加数据的传统路径,而是回到机器人最本质的需求:如何稳定地在物理世界中完成任务。它以动作空间推理重构机器人的思考方式,以异步分层双系统保证执行的稳定与流畅,以全生命周期智能体闭环打通真实落地的最后一公里。
它回答了具身智能长期以来的三个核心问题: 机器人该在哪里思考?------在动作空间。 机器人该如何稳定执行?------异步分层,学习均衡。 机器人如何走向真实世界?------自主闭环,持续进化。
GO-2 不仅是一个新一代具身基座模型,更是具身智能走向"知行合一"的里程碑。它让机器人不再只是能理解、能规划、能演示的实验室系统,而是能稳定、可靠、自主地在真实世界中完成任务的生产力智能体。这,正是具身智能走向现实的真正方向。