Helix 02技术报告:人形机器人的全身自主操控突破

摘要

本报告对Figure AI最新发布的Helix 02系统进行技术分析。该系统通过统一的全身体感网络,首次实现了人形机器人在完整房间尺度下、长达数分钟的端到端自主操作任务,标志着人形机器人从分离的动作控制向全身协调自主的重大转变。

1. 系统概述与技术突破

Helix 02是Figure公司迄今为止能力最强的人形机器人模型,通过单一的神经控制系统,直接从像素输入控制整个机器人身体,实现了跨越整个房间的灵巧、长时程自主操作。主要技术突破包括:

  • 自主长时程移动操作:系统能够执行长达四分钟的端到端自主任务,如在整个厨房中卸载并重新装载洗碗机。该任务整合了行走、操作和平衡,无重置且无需人工干预,被认为是人形机器人迄今完成的最长时程、最复杂的自主任务。

  • 全传感器接入与全执行器输出:系统将机载的视觉、触觉和本体感觉等所有传感器,通过一个统一的视觉运动神经网络直接连接到每一个执行器。

  • 基于人类数据的拟人全身控制:所有功能由System 0实现,这是一个基于超过1000小时人体运动数据,结合仿真到现实的强化学习训练得到的全身控制器。它用单一的神经先验模型替代了109,504行手动编写的C++代码。

2. 核心架构:"系统2-系统1-系统0"三级协同

Helix 02扩展了原有的"系统1-系统2"架构,新增了一个基础层,形成了三级紧密集成的协同架构。

2.1 系统0 (S0):基于人类数据的全身控制基础模型

  • 功能定位:作为物理实现的"骨干",负责在1 kHz高频下处理平衡、接触和全身协调。

  • 训练数据:使用了超过1000小时的关节级人体运动重定向数据。

  • 架构:一个包含1000万参数的神经网络,输入为全身关节状态和基础运动,输出1 kHz频率的关节级执行器命令。它通过直接学习再现人类运动,掌握了协调力量、调整姿态和在广泛行为中保持平衡的能力。

2.2 系统1 (S1):全身视觉运动策略

  • 功能定位:作为"快思考"层,以200 Hz频率将感知(包括所有传感器输入)转化为全身关节目标。

  • 输入与输出:输入包括头部摄像头、手掌摄像头、指尖触觉传感器和全身本体感觉;输出为对机器人全身(腿、躯干、头、手臂、手腕及各手指)的完整关节级控制。

  • 新硬件支持:首次整合了Figure 03机器人搭载的手掌摄像头和嵌入式触觉传感器。手掌摄像头可在物体被头部摄像头遮挡时提供手内视觉反馈;指尖触觉传感器能感知小至3克的力,实现接触感知和力控抓取。

2.3 系统2 (S2):场景理解与语义推理

  • 功能定位:作为"慢思考"层,负责处理场景、理解语言,并为S1产生潜在目标(语义潜变量)。

  • 能力升级:现在可以规划更长、更复杂的语义指令序列(例如:"走向洗碗机并打开它"→"把碗拿到台面上"→"回到顶层架子拿起杯子"),而无需指定低级动作细节。

3. 关键性能演示

3.1 自主长时程移动操作

在"厨房装卸洗碗机"演示中,Helix 02展现了一系列关键能力:

  1. 约束下的移动:能在手持易碎物品时稳定行走。

  2. 全身工具化使用:在手被占用时,能用臀部关抽屉、用脚抬起洗碗机门。

  3. 持续双手协调:在整个任务中,双手作为协调系统进行物品抓取、交接、堆叠和放置。

  4. 大动态范围控制:同一神经网络能产生毫米级的手指精细运动和房间尺度的移动。

  5. 长时程顺序执行:连续执行了61个移动操作动作,并能进行隐式错误恢复。

3.2 基于触觉与手内视觉的灵巧操作

新传感器模态解锁了四类前沿的灵巧操作任务:

  1. 拧开瓶盖:需要双手协调、触觉调节的握力及扭矩控制。

  2. 从药盒中定位并取出药片:依赖手掌级视觉反馈和触觉引导的精确抓取。

  3. 从注射器中精确推出5毫升液体:需要基于触觉反馈的力控驱动及多指协调稳定。

  4. 从杂乱的盒子中拣选金属件:需要鲁棒的视觉抓取选择,并结合触觉确认在杂乱环境中的稳定接触。

4. 结论与意义

Helix 02代表了人形机器人控制范式的重大进步。通过将全身控制统一到一个端到端学习系统中,它解决了长期以来机器人学中"移动-操作"难以协调的难题。

该系统证明了:

  1. 基于大规模人类运动数据学习的全身控制先验模型(S0)能有效替代传统的手工编码控制器,实现更稳定、自然的运动。

  2. 融合多模态感知(尤其是触觉和手内视觉)与全身控制,能显著提升机器人在非结构化环境中执行复杂、灵巧操作任务的能力。

  3. 分层架构(S2语义规划、S1感知-动作转换、S0高频稳定执行)是实现长时程、可理解、鲁棒自主的有效路径。

尽管成果仍处于早期阶段,但Helix 02为未来通用人形机器人在家庭和职场环境中的实际应用奠定了关键的技术基础。其展现的"像素到全身"的连续自主控制能力,是朝着构建真正实用、可靠人形机器人迈出的重要一步。

相关推荐
Gene_20225 小时前
使用行为树控制机器人(零) ——groot2的安装
机器人
Deepoch6 小时前
Deepoc具身模型外拓板:重塑无人机作业逻辑,开启行业智能新范式
科技·机器人·无人机·开发板·黑科技·具身模型·deepoc
模型时代6 小时前
英伟达开放物理AI模型助力机器人与自动驾驶发展
人工智能·机器人·自动驾驶
Yuroo zhou6 小时前
IMU如何成为机器人自主移动的核心传感器
人工智能·机器人·无人机·导航·传感器·飞行器
熵减纪元6 小时前
人形机器人行业周报|EX机器人量产、Ameca表情系统、首形科技融资
人工智能·科技·机器人
一颗小树x6 小时前
《VLA 系列》从 VLM 到 VLA 机器人控制,关键的多模态数据和能力是什么?| Vlaser | ICLR 2026
人工智能·深度学习·机器人·vlm·vlaser
维度攻城狮7 小时前
交互式机器人编程:使用Jupyter Notebook运行ROS2程序
jupyter·机器人·ros2
沫儿笙7 小时前
库卡机器人摩托车焊接节气实例
人工智能·机器人
才兄说7 小时前
机器人租售怎么用?全按客户节奏
机器人