具身智能架构:一场尚未收敛的范式战争

本文写于2026年6月。所有性能数据均为基于公开技术参数的工程估算,除非特别标注;所提及系统多为研究原型或早期试点,具身智能(通用操作机器人)的万台级商业成熟仍在验证中。


引言:多线并行的架构演进

具身智能(Embodied AI)正经历一场深刻的架构范式战争。这不是简单的"新淘汰旧"的技术迭代,而是关于智能应如何组织、分布在何处、以何种方式与物理世界交互的根本性分歧。

过去十年,具身智能架构在多条路线上并行演进,而非单线替代。端到端融合路线 从CLIPort(2021)的视觉-语言表征起步,经RT-1(2022)的动作token化,到RT-2(2023)和π₀(2024)实现视觉-语言-动作的直连映射;语言中介路线 从SayCan(2022)的LLM规划与价值函数落地,经PaLM-E(2023)的多模态具身推理,探索用自然语言作为感知与动作之间的桥梁。世界模型路线 自DreamerV1(2019)起独立发展,直到2024-2026年才与VLA尝试深度融合。与此同时,云-边-端协同(2019-2021)早于VLA出现,始终作为底层基础设施存在,而非VLA的"后续增强"。

这些路线并非先后替代,而是在2024-2026年 convergent 向层次化统一架构:高层语义理解、中层规划推理、底层物理控制,无论其内部实现是端到端还是显式分层。

然而,与热闹的技术叙事形成鲜明对比的是产业现实的复杂性:截至2026年6月,通用操作机器人的万台级量产能力已获突破------智元于2026年3月实现第10,000台量产下线(第10,000台为远征A3),工信部亦于6月启动万台级规模落地专项行动。但万台级商业成熟(持续盈利、客户复购、ROI可验证的规模化商用)仍是行业待解命题。 量产是商业化的必要条件,而非充分条件。

这意味着,所有架构讨论都必须建立在一种清醒的不确定性之上:我们仍在探索,尚未找到圣杯。


一、历史演进:多条路线的并行与收敛

具身智能架构的演进并非一条直线,而是多条路线在时间上重叠、在空间上交织的网状历史。

1.1 分层架构的统治与局限(2000-2018)

以本田ASIMO、波士顿动力Atlas(液压版)为代表,系统被严格解耦为感知、规划、控制、执行层。ROS成为事实标准,专家知识被编码为无数if-else和有限状态机。这一时代的巅峰成就证明了确定性控制的可能性,但也暴露了其阿喀琉斯之踵:ASIMO耗资数亿美元却只能完成预编程动作,最终于2018年停止开发;传统分层架构在开放域的泛化成本呈指数级上升。ASIMO的终止(2018年)标志着纯规则分层架构在通用操作领域的阶段性终结。

1.2 端到端融合路线(2021-2024)

这条路线的核心信念是:视觉、语言、动作应在统一参数空间内融合,最小化模块间信息损失。

  • CLIPort(2021):将CLIP视觉表征与语言条件策略结合,用于机器人操作,奠定了"视觉-语言联合表征"的基础。

  • RT-1(2022):Google的机器人Transformer,首次将大规模机器人数据与Transformer架构结合,为RT-2奠定基础。

  • RT-2(2023.7):首个大规模VLA,将机器人动作作为文本token处理,实现了视觉-语言到动作的直连映射。

  • π₀ (Physical Intelligence, 2024.10):基于PaliGemma 3B + Flow Matching,在物理硬件上实现50Hz实时控制(官方数据),将端到端VLA推向 dexterous manipulation 的极限。

  • OpenVLA(Berkeley, 2024):开源VLA,基于Llama和DINOv2,降低了研究门槛。

  • Gato(DeepMind, 2022.5):1.2B参数通用ist Agent,跨604个任务(含机器人操作),代表了"单一模型做多任务"的通用ist方向早期探索,与后来的专用VLA形成技术张力。

这条路线带来了强大的语义泛化能力,但也引入了黑盒不可控性实时性瓶颈

1.3 语言中介路线(2022-2023)

与端到端融合路线并行,另一条路线选择用自然语言作为感知与动作之间的显式桥梁,而非直接融合。

  • SayCan(Google, 2022.4):首个将LLM与机器人控制结合的系统,用LLM进行高层规划,通过价值函数将语言指令落地为机器人技能。这是"语言中介"范式的开端。

  • PaLM-E(Google, 2023.3):562B参数的多模态具身模型,将连续传感器数据融入LLM,实现具身推理。

  • VoxPoser(2023):从VLM提取3D affordance,用于零样本操作,展示了"语言→空间约束→动作"的间接路径。

  • Code as Policies(2022):用程序合成进行可解释规划,代表了"语言→代码→动作"的符号化中介路线。

这条路线的优势是可解释性模块化,但语言与物理动作之间的"语义鸿沟"始终存在------LLM理解的"轻轻放下"与机械臂需要的精确力矩之间,需要额外的翻译层。

1.4 世界模型路线:独立发展后的融合尝试(2019-2026)

世界模型的探索远早于VLA,但长期独立于机器人控制之外。

  • DreamerV1(DeepMind, 2019):基于潜在动力学的想象与规划,在仿真环境中表现优异,但仿真到现实的域差距(Sim-to-Real Gap)限制了直接应用。

  • GAIA-1(Wayve, 2023):自动驾驶场景的世界模型,主要用于预测,与具身操作机器人的场景差异显著。

  • LingBot-VA (蚂蚁灵波, 2026.1):采用MoT(Mixture-of-Transformers)架构,将视频token和动作token映射到统一潜空间,通过视频预测反推动作生成。这代表了世界模型与VLA的深度融合,与"世界模型作为独立增强模块"的传统思路不同。

  • Cosmos 3(NVIDIA, 2026.5.31):采用MoT架构(Reasoner + Generator),统一处理文本、图像、视频、环境音频和动作序列五种模态。Cosmos 3 Nano(16B)声称可部署于Jetson Thor系列平台(NVIDIA官方宣传),但其实际运行时的推理速度、功耗、散热表现尚无公开实测数据。

  • Qwen-RobotWorld (阿里, 2026.6.16):语言条件视频世界模型,采用60层双流MMDiT扩散Transformer,以自然语言作为跨操作/驾驶/导航/人→机迁移的统一动作接口。在EWMBench、DreamGen Bench等评测中取得领先成绩。这代表了**"世界模型作为规划信号"的新范式** ------不同于LingBot-VA的token级融合或Cosmos 3的多模态统一,Qwen-RobotWorld选择自然语言作为跨场景的统一接口。但需注意,EWMBench等榜单目前主要衡量视频生成的保真度(FVD)和文本对齐度,其在真实机器人上的物理推理(Physical Reasoning)泛化能力尚待物理实测验证;此外,其60层MMDiT的推理延迟、端侧可部署性、以及真实机器人部署表现,亦待社区验证。

1.5 云-边-端协同:被低估的基础设施(2019-至今)

云-边-端协同并非VLA时代的产物。2019年,《机器人4.0白皮书》提出了云-边-端融合的机器人系统愿景。2020-2021年,通用边缘计算框架开始成熟,但专门针对通用操作机器人的云控平台出现较晚。

在通用操作机器人领域,VLA的主流部署方式是端侧推理 (Figure Helix的S2(7B VLM)完全运行在嵌入式GPU上;π₀/π₀.5通过量化实现端侧50Hz实时控制)。云-边-端协同并非VLA的"默认选择",而是针对特定场景的备选方案。需要澄清的是:2022-2023年,端侧NPU确实难以承载7B+参数模型的实时推理,算力不足是云-边-端协同的早期核心驱动力 ;但2024-2026年,通过量化(INT4/INT8)、架构精简(如PaliGemma 3B)和专用NPU(Jetson Thor T5000),端侧VLA已能实现10-50Hz的"可用实时性"。当前云-边-端协同的新驱动力已从"跑不动"演变为成本优化、多机协同调度与知识持续更新------通用LLM/VLM的推理成本(非VLA专属)和世界模型等辅助模块的算力需求,可部署在云端与端侧VLA形成互补,而非替代。

1.6 收敛:层次化统一架构(2024-至今)

2024-2026年,面对纯端到端的实时性瓶颈和纯分层的泛化天花板,行业开始 convergent 向层次化统一架构

  • π₀.5(2025.4):在端到端内部引入高层自回归语义规划(FAST token)+ 低层流匹配动作生成,是"端到端内层次化"的代表。

  • Figure Helix 02(2026.1):S0(10M, 1kHz)+ S1(80M, 200Hz)+ S2(7B, 7-9Hz)的三层频率分层,替代了109,504行手写C++代码。

  • 智元GO-1/ViLLA(2025.3发布,9月开源):VLM + MoE(隐式规划器 + 动作专家),在端到端内部引入显式中间表示层。

  • NVIDIA GR00T(2025-2026):双系统架构(System 1快速反射 + System 2慢速推理)。

这些系统的共同特征是:不再纠结于"端到端还是混合"的二元对立,而是根据时间尺度(kHz/Hz/分钟级)和功能需求(物理反射/技能执行/任务规划)自然分层。


二、单节点架构:按复杂度分层

在讨论分布式协同之前,必须先厘清单节点内部 的组织逻辑。这是所有架构的地基。我们不再用"端到端vs混合"的二元对立分类,而是按架构复杂度分为三层。

2.1 分层架构(显式模块化)

核心哲学:物理世界的约束是刚性的,必须用显式规则保证安全。

技术栈:ROS2/ROS → MoveIt2/OmniPlanner → MPC/PID/阻抗控制 → EtherCAT/CAN总线。

真实状态

  • 工业自动化(汽车产线、3C装配)仍是绝对主流,年出货量以十万台计。

  • ⚠️ 通用操作机器人 中,纯分层架构已边缘化。Figure、1X等AI-first公司的新系统倾向于自研中间件或绕过ROS,采用PyTorch推理后直接通过低级SDK下发指令。

  • ⚠️ 宇树等厂商仍维护ROS/ROS2集成(GitHub开源项目可验证),但新一代系统也在探索直接推理+驱动路径。ROS不会消亡,但在前沿具身智能公司中的地位从"核心中间件"降级为"遗留接口"或"仿真工具"。

性能基准(工程估算)

  • 控制环延迟:1-10 ms(确定性,基于控制理论)

  • 任务级泛化:极低,跨任务需重新编程

适用边界:结构化环境、安全关键场景、预算充足且任务固定的工业部署。

2.2 端到端原生架构(单一网络)

核心哲学:智能是涌现的,只要数据足够,单一神经网络自会学会从感知到动作的映射。

代表系统

  • RT-2(Google, 2023):首个大规模VLA,将机器人动作作为语言token处理。

  • π₀原始版(Physical Intelligence, 2024.10):基于PaliGemma 3B + Flow Matching,单一网络直接映射像素+语言到力矩,实现50Hz实时控制。

  • OpenVLA(Berkeley, 2024):开源VLA,基于Llama和DINOv2。

关键挑战

  1. 实时性瓶颈 :7B-13B参数模型在端侧NPU上的单步推理约为50-200 ms(batch=1,分辨率依赖),相对于底层控制所需的1-10ms存在1-2个数量级差距,限制了控制频率。这也是2022-2023年云-边-端协同讨论兴起的直接物理原因;2024年后通过量化与架构优化,端侧VLA已逐步达到"可用实时性"(见1.5节)。

  2. OOD脆弱性:对物理常识的推理(如"虚掩门需要多大力推开")仍显不足。

  3. 黑盒风险:概率模型的"幻觉"在物理世界意味着安全事故。

性能基准(基于公开参数推断)

  • 单步推理延迟:50-500 ms

  • 训练成本:数十万至数百万美元

适用边界:非结构化环境、自然语言交互优先、对实时性要求不极端的场景。

2.3 层次化统一架构(多层融合)

核心哲学 :不再纠结"端到端还是混合",而是根据时间尺度和功能需求自然分层。这些系统的共同趋势是**"端到端"与"混合"的边界正在消失**,行业正在向层次化统一架构收敛。

代表系统

  • π₀.5 (Physical Intelligence, 2025.4):引入FAST(Frequency-space Action Sequence Tokenization) ------将连续动作轨迹转为离散token,高层自回归预测语义动作token,低层可选Flow Matching去噪。这是端到端内部的层次化推理

  • π₀.7 (Physical Intelligence, 2026.4):研究阶段,聚焦组合泛化(compositional generalization),首次在端到端VLA中展现出组合泛化的初步迹象。其架构已显著偏离传统"端到端"定义,引入了显式的高层策略模块、世界模型模块和8.6亿参数的动作专家,与Figure Helix的三层频率分层在"高层慢速推理+低层快速反射"的时间尺度分层逻辑上呈现趋同,但具体实现机制差异显著:规模上(8.6亿 vs 1000万)、训练目标上(组合泛化 vs 全身控制)、接口设计上(隐式 vs 显式频率分界)均不同。这种趋同表明行业正在探索频率分层作为统一架构原则,但最优分层粒度仍是开放问题。

  • Figure Helix / Helix 02

    • 原始Helix(2025.2):S1(80M, 200Hz)+ S2(7B, 7-9Hz)

    • Helix 02(2026.1) :新增S0(10M, 1kHz),替代109,504行手写C++代码(Figure官方博客数据),基于1000+小时人类运动数据训练。S0以1kHz管理平衡和接触力,使机器人首次实现全身自主控制。

  • 智元GO-1/ViLLA(2025.3发布,9月开源) :采用VLM + MoE(隐式规划器Latent Planner + 动作专家Action Expert)的三层架构。隐式规划器将VLM输出压缩为latent action token,再由动作专家解码为具体控制信号。这代表了**"端到端内部层次化"的另一种技术路线**------与π₀.5的自回归token预测不同,GO-1使用隐式规划器作为中间表示。

  • NVIDIA Isaac GR00T(2025-2026):双系统架构(System 1快速反射 + System 2慢速推理),基于20,000+小时人类自我中心视频(EgoScale)和Isaac Sim合成数据训练。

性能基准(工程估算)

  • 底层控制环:< 10 ms

  • 高层规划:100-500 ms(异步,非每步调用)

优势 :在安全性与泛化性之间取得平衡,是目前最务实的工程路径

劣势:系统集成复杂度极高,不同层次间的接口设计(如如何将VLA的语义输出转化为MPC的可行域约束)仍是开放问题。若采用纯神经底层(如Helix S0以10M参数神经网络替代109,504行手写C++代码),需具备极强的数据闭环与仿真验证能力,当前多数团队尚不具备此条件。


三、智能的分布拓扑:云、边、端的部署形态

当单节点架构确定后,下一个关键问题是:智能应部署在何处? 这不仅是技术问题,更是成本、隐私、可靠性的权衡。

3.1 架构组合的统一分析框架

所有"云-边-端"排列组合,都可以用三个维度解构:

维度 选项
计算位置 端侧(On-Device) / 边侧(Edge Gateway) / 云端(Cloud)
智能粒度 单体模型 / 单智能体 / 多模型协作 / 多智能体
增强模块 无 / 世界模型(World Model) / 工具调用(Tool Use)

基于此,我们可系统分析主流组合:

组合A:以端侧VLA为主的自治架构
  • 定位:VLA(Vision-Language-Action)是当前端侧自治架构的核心------它将视觉感知、语言理解和动作生成统一在单一参数空间内,避免了模块化架构的接口信息损失。端侧部署对NPU算力要求极高,且控制频率与模型规模之间存在根本性张力。

  • 代表 :Figure 02(Helix 02的三层VLA架构 :S0全身控制10M/1kHz + S1视觉运动策略80M/200Hz + S2语义推理7B/7-9Hz,全部或主要运行在端侧GPU)。语音等自然语言指令通常经端侧ASR编码为文本token后输入VLM/VLA,与视觉模态统一表征,而非外挂独立ASR模块。

  • 成本:硬件要求高(需NPU,如Jetson Orin级),但无网络/云端费用。

  • 延迟:控制环<10ms,VLA推理50-200ms。

  • 现状:实际任务复杂度有限,多为演示级或特定场景。

组合B:端侧+云端协同
  • 定位 :当前最主流的产业实践方向

  • 分工 :端侧负责高频感知与反射控制(含视觉感知与语音等自然语言输入预处理),云端负责低频语义规划与知识检索("大脑")。

  • 通信模式:端→云上传关键帧/状态摘要;云→端下发任务指令/策略。

  • 成本结构:端侧固定硬件成本 + 云端按调用计费的可变成本,总体TCO通常低于纯端侧大模型。

  • 延迟:任务级(秒级)由云端处理,控制级(毫秒级)由端侧保证。

  • 代表 :特斯拉FSD是自动驾驶领域 端云协同的先驱(2020年前后)。在通用操作机器人领域,云-边-端协同的讨论在2023-2024年增多,但驱动力并非'VLA模型太大无法端侧部署'------事实上,VLA的核心卖点恰恰是端侧实时性。云-边-端协同的驱动力是成本优化、多机协同、知识更新等场景需求,与VLA本身的部署瓶颈无关。

组合C:感知解耦(端侧CV/ASR等小模型 + 云端LLM/VLM)
  • 定位:成本最低方案。

  • 技术栈 :YOLO/OpenCV/ASR(端侧感知预处理)→ 结构化数据上传 → 云端LLM(语义理解+任务规划+动作决策)。此方案中端侧通常仅有CV和ASR,无TTS、触觉编码器等多模态输出能力,语义天花板极低。核心特征是决策权完全在云端:端侧仅做感知预处理,所有语义理解、任务规划、动作决策均由云端LLM完成。网络中断即失效,延迟瓶颈在网络往返(100ms-数秒)。

  • 成本:端侧无需NPU,普通ARM芯片即可。

  • 局限:语义天花板极低,无法理解跨模态(如"那个有点旧的红色杯子")描述。

  • 适用:工业流水线(固定场景)、低端IoT。

组合D:端侧模块化协作(VLM语义 + CV定位 + 确定性控制器)
  • 定位 :传统分层架构的现代演进,用VLM(或融合语音模态的多模态模型)替代人工规则进行语义理解,用CV模型替代传统视觉算法进行定位。本质上是**"分层架构的AI化升级"**。

  • 技术栈

    • VLM/LLM(或融合语音模态的多模态模型)负责语义理解 :"把那个红色的、有点旧的杯子拿给我";语音指令经端侧ASR预处理后输入VLM。核心特征是语义决策权下沉到端侧:VLM在端侧完成"哪个杯子""放哪里"的语义判断,仅把像素级定位交给CV模型。断网仍可执行已理解的任务,延迟瓶颈在端侧VLM推理(100-500ms)而非网络。

    • YOLO/检测模型负责像素级定位:输出红色杯子的bbox和深度

    • 两者通过结构化接口(如JSON/ROS topic)传递信息

    • PID/MPC等确定性控制器 负责底层闭环控制

  • 与组合A的区别

    • 组合D使用VLM(视觉-语言模型)进行语义理解,但不直接输出动作

    • 组合A使用VLA(视觉-语言-动作模型)统一感知与动作生成

    • 两者的选择取决于任务复杂度与可解释性需求的权衡

  • 与组合C的区别

    • 组合D的决策权完全在云端语义决策权下沉到端侧,VLM在端侧完成"哪个杯子""放哪里"的语义判断,仅把像素级定位交给CV模型。断网仍可执行已理解的任务,延迟瓶颈在端侧VLM推理(100-500ms)而非网络。

    • 组合的决策权完全在云端:端侧仅做感知预处理,所有语义理解、任务规划、动作决策均由云端LLM完成。网络中断即失效,延迟瓶颈在网络往返(100ms-数秒)。

    • 两者的选择取决于任务复杂度与可解释性需求的权衡

  • 优势

    • VLM无需处理像素级定位,CV模型无需理解语义,各用其长

    • 端侧VLM可以是轻量级(3B-7B),CV模型是常规目标检测,硬件成本可控

    • 模块化调试,单点故障可隔离

  • 劣势

    • 接口设计复杂,语义输出到CV输入的翻译层需人工设计

    • 误差在模块间传递(VLM理解错→CV检测对也白搭)

    • 无法处理需要视觉-语言深度融合的模糊指令(如"把那个看起来不太稳的杯子放到安全位置")

  • 适用:中等复杂度、语义与定位可分离的场景(如仓储分拣、简单服务)。

组合E:端侧Agent(工具调用)+ 确定性控制器
  • 定位:分层架构的Agent化演进。

  • 核心机制:端侧LLM通过ReAct/CoT循环调用工具(如调用视觉API、机械臂SDK、计算器)。

  • 延迟 :每步ReAct循环需数百毫秒至数秒,不适合高频闭环

  • 现状:研究原型为主,端侧7B以下模型的工具调用能力有限。

组合F:分布式联邦多智能体 + 确定性控制器 + 云端智能体
  • 定位:去中心化的自主协作,无中央调度节点,Agent间通过协商达成共识。

  • 注意区分:集中式调度的多机协作(如亚马逊Kiva、极智嘉Geek+)已在仓储、工厂场景成熟商用,但那是传统调度算法,非AI多智能体。本组合仅指分布式联邦形态。

  • 挑战:CAP定理、一致性、故障恢复等分布式系统难题;Agent间通信引入不可控延迟。

  • 现状纯研究阶段,无知名大规模商业产品。


四、增强模块:世界模型与智能体------前沿还是泡沫?

4.1 世界模型(World Model):从视频生成到物理推理

核心承诺:在"脑内"维护一个可交互的物理世界表征,支持反事实推理("如果我不这样做会怎样?")和长程规划。

技术现状与路线分化

  • 生成式路线:Sora(OpenAI)、GAIA-1(Wayve, 2023)------主要用于自动驾驶场景预测,与具身操作机器人的世界模型场景差异很大。

  • 基于模型RL路线:DreamerV3------在仿真环境中表现优异,但仿真到现实的域差距(Sim-to-Real Gap)仍未解决。

  • 融合路线

    • LingBot-VA(蚂蚁灵波, 2026.1):采用MoT架构将视频token和动作token映射到统一潜空间,通过视频预测反推动作生成。代表"潜空间融合"方向。

    • Cosmos 3(NVIDIA, 2026.5.31):采用MoT架构(Reasoner + Generator),统一处理五种模态。代表"多模态统一"方向。

    • Qwen-RobotWorld (阿里, 2026.6.16):语言条件视频世界模型,以自然语言作为跨操作/驾驶/导航/人→机迁移的统一动作接口。代表**"语言接口统一"方向**------世界模型不直接输出动作,而是输出自然语言规划信号,由下游控制器执行。在EWMBench等评测中领先,但其60层MMDiT的推理延迟、端侧可部署性、以及真实机器人部署表现,尚待社区验证。

工程现实

  • 世界模型训练需海量视频与交互数据,成本极高。

  • 推理时需额外维护世界状态,延迟通常在数百毫秒至数秒(推测,无公开实测)。

  • 落地路径分化 :世界模型的部署形态可分为两种。模块化世界模型 (世界模型作为独立仿真器,为策略提供预演数据,与执行策略解耦)的落地难度显著低于统一世界模型(世界模型与策略融合),因为策略训练可沿用成熟VLA框架,世界模型仅作为数据增强模块。

  • 结论 :世界模型是具身智能的"圣杯方向",但目前处于研究早期,距离工程化落地有显著距离。四条技术路线(生成式、RL、潜空间融合、多模态统一、语言接口统一)并行探索,尚未收敛。

4.2 智能体:单智能体的工程现实与多智能体的协作理想

单智能体(Single Agent)是当前具身智能最主流的工程形态------Figure Helix 02、π₀.5、智元GO-1本质上都是一个具备感知-规划-行动闭环的自主决策实体。其核心机制可分为两条路线:VLA-based (端到端感知-行动映射,如π₀.5)与LLM-based(显式ReAct/CoT循环调用工具,如组合E的端侧Agent+PID)。前者泛化性强但黑盒,后者可解释但延迟高(每步ReAct循环数百毫秒至数秒)。端侧7B以下模型的工具调用能力有限,幻觉问题在物理世界意味着安全事故。当单智能体无法胜任复杂任务分解时,才需要多智能体协作------但这正是当前工程的地狱所在。

多智能体(Multi-Agent)

核心承诺:多个专精Agent(导航、抓取、对话)通过协作完成复杂任务,提升模块化与容错性。

工程现实

  • 端侧资源竞争(内存、CPU、NPU)使多模型并行运行困难。

  • Agent间通信引入不可控延迟,且可能产生涌现性不可预测行为

  • 目前无大规模商业落地案例,学术原型为主。


五、产业现实:量产突破与商业成熟之间

在结束技术梳理之前,必须直面核心结论:

审慎判断一:性能数据多为估算,存在不确定性

除控制理论确定的PID延迟(<10ms)外,其余VLA推理延迟、世界模型开销等数字,均为基于模型参数量、硬件规格(NPU TOPS、内存带宽)的工程推断。真实部署中,受量化精度、batch size、散热降频、网络抖动影响,实际数字可能偏离30%-300%。

审慎判断二:ROS生态正在分化

传统机器人公司仍深度依赖ROS2,但AI-first具身智能公司(Figure、1X、Physical Intelligence、宇树新一代系统)正倾向于自研中间件或绕过中间件直接推理+驱动。ROS不会消亡,但其"唯一标准"地位已被打破。

审慎判断三:万台级量产已突破,商业成熟仍待验证

  • 量产突破 :智元于2026年3月28日 实现第10,000台通用具身机器人量产下线(第10,000台为远征A3)。此前5000台时的构成约为远征1742台 + 灵犀1846台 + 精灵1412台(彭志辉2025年12月披露),但10000台时的具体细分数据未公开。工信部于2026年6月9日启动"2026年度人形机器人与具身智能实景实训专项行动",明确目标"到2026年底,带动形成万台级规模落地能力"。TrendForce预测2026年全球人形机器人出货量将突破5万台。

  • 商业成熟待验证 :智元CTO彭志辉在多次采访中强调,判断机器人是否走出Demo阶段,核心指标是能否在开放场景中稳定完成复杂任务、满足产线成功率要求,以及投资回报率是否算得过账。当前万台级出货覆盖的场景包括文娱表演、导览导购、以及3C产线等结构化工业场景 。这些场景中的机器人执行的是特定任务序列 (如贴标、扫码、装配),而非开放域通用操作 (如"帮我整理这个杂乱的抽屉")。因此,开放域通用操作 的万台级商业成功尚未验证,但结构化工业场景的万台级落地已开始。

  • 其他厂商状态

    • Figure、Optimus、宇树H1:仍为Demo或小批量试点阶段。

    • 智元精灵G2 :在龙旗科技南昌工厂已实现常态化产线运行(2026年4月直播验证:4台机器人8小时完成2283次任务)。这是全球首个具身智能3C精密制造产线的规模化落地,计划2026年Q3扩至100台。当前部署规模仍属小批量(<100台),尚未达到万台级大规模商用。

    • 优必选Walker系列:2025年实际交付超500台,全年人形机器人订单金额接近14亿元(含已中标项目)。实际收入按交付进度确认。

    • 奇瑞墨甲:2025年4月首批220台完成全球交付,2026年4月进入"千台签约百台交付"的规模化部署阶段,主要用于汽车4S店迎宾、销售指导等服务场景,属于特定服务场景而非通用操作。

这意味着 :所有架构目前仍处于**"技术路线验证期"** ,没有经历过万台级市场的大规模筛选。我们讨论的"最优架构",实际上是**"当前条件下最合理的工程赌注"**。


六、技术版图:数据策略与架构形态两个维度

具身智能架构的全球竞争已形成多条技术路线。按技术本质(而非地理政治)分类,可从两个独立维度理解:

维度一:数据策略

私有数据驱动:Physical Intelligence(π₀系列)、Figure(Helix)------依赖私有海量数据(数十万小时机器人操作数据),训练成本极高,泛化能力强但技术门槛高、不可复现。

开源数据驱动:蚂蚁灵波(LingBot-VLA)、阿里Qwen-Robot系列------基于完全开源或部分开源数据训练,降低入门门槛,促进技术民主化。LingBot-VLA基于开源数据实现跨本体泛化;Qwen-RobotManip基于>38,100小时开源语料预训练;Qwen-RobotWorld基于860万视频-文本对(30%通用视频+70%具身数据)。但开源数据的质量、多样性和标注精度参差不齐,是这条路线的核心挑战。

维度二:架构形态

端到端原生:RT-2、π₀原始版------单一网络直接映射感知→动作,最大化信息保留,但黑盒、实时性差。

端到端内层次化:π₀.5/π₀.7------在单一端到端框架内引入高层语义规划与低层动作生成的内部分层,试图兼顾端到端的泛化与层次化的可控。

显式频率分层:Figure Helix 02(S0/S1/S2)------不同频率的显式子系统,高层慢速推理、低层快速反射,接口明确。

隐式规划分层:智元GO-1/ViLLA------VLM → 隐式规划器(latent action token) → 动作专家,中间表示是隐式的、学习得到的,而非人工设计的频率分层。

关键说明 :一个系统可同时属于多个维度。如Figure Helix既是私有数据驱动 (数据策略),又是显式频率分层 (架构形态)。π₀.5既是私有数据驱动 ,又是端到端内层次化。分类的目的是理解技术选择的空间,而非贴标签。

技术趋同观察:π₀.7(高层策略+世界模型+8.6亿参数动作专家)与Figure Helix(S2→S1→S0,S0为10M参数全身控制基础模型)在"高层慢速推理+低层快速反射"的时间尺度分层逻辑上呈现趋同,但具体实现机制差异显著:规模上(8.6亿 vs 1000万)、训练目标上(组合泛化 vs 全身控制)、接口设计上(隐式 vs 显式频率分界)均不同。这种趋同表明行业正在探索频率分层作为统一架构原则,但最优分层粒度仍是开放问题。

阿里Qwen-RobotManip(2026.6.16发布,尚待社区验证) :采用80维统一动作表征,不依赖绝对坐标,而是基于摄像头画面的相对位置进行操作,用80维向量定义跨硬件的通用"肢体语言"。这解决了跨硬件适配问题,代表了一种动作表征标准化的思路。


七、架构选型决策树:如何在不确定性中做决策

给从业者的建议

  1. 从层次化架构起步:不要追求纯端到端的"优雅",工程鲁棒性优先。

  2. 端侧优先保证控制级实时性 :无论高层用什么模型,强烈建议 底层保留确定性控制器(PID/MPC等)的fallback------这不是因为PID是唯一选项(MPC、WBC甚至纯RL策略在技术上均可替代,如Figure Helix S0已实现10M参数神经网络1kHz全身控制),而是因为确定性控制器的可审计性和安全兜底作用,在当前多数团队的数据与验证能力条件下,仍是工程务实的选择。若采用纯神经底层,需具备极强的数据闭环与仿真验证能力。

  3. 对"世界模型""多智能体"保持审慎:它们是研究方向,不是2026年的成熟产品方案。

  4. 自己测延迟:不同硬件(Jetson Orin vs 高通8Gen3 vs 苹果M4 vs Jetson Thor T5000)的推理延迟差异巨大,不存在通用答案。

  5. 关注开源数据路线:蚂蚁灵波、阿里Qwen-Robot、OpenLoong等开源生态正在降低入门门槛,可能改变产业格局。

  6. 区分"量产"与"商业成熟":万台级量产能力是里程碑,但不等于万台级商业成功。评估方案时需关注ROI、客户复购、场景通用性等硬指标。

  7. 考虑组合D(模块化协作):在VLA太贵、纯CV太笨的场景,VLM+CV+确定性控制器的模块化协作可能是性价比最优解。

  8. 半结构化工业场景优先选层次化或组合D:3C柔性装配、物流分拣等"任务相对固定但需要一定泛化"的场景,是当前工业落地的主力路线。


结语:架构是手段,物理交互是目的

具身智能的架构之争,本质上是**"我们对智能的理解尚不成熟"** 的投射。我们还在争论该用规则还是神经网络、该集中还是分布、该端侧还是云端,是因为没有任何一种方案已经被证明在通用物理交互中足够好

也许最终的答案不是某一种架构的胜利,而是一种动态的分层:底层是毫秒级的反射弧(模型或控制器),中层是秒级的技能编排,高层是分钟级的任务规划,而贯穿始终的是一个不断学习的、隐式的世界表征。

但在那之前,我们仍需在不确定中前行,保持对技术叙事的警惕,对工程现实的尊重,以及对物理世界复杂性的谦卑。


本文基于公开论文、技术博客与工程经验综合分析,部分性能数据为推断值,具体部署请以实测为准。

创作不易,禁止抄袭,转载请附上原文链接及标题