一、前言
近期具身智能机器人公司figure提出了人形机器人端到端的控制方案Helix,大小模型结合架构实现了慢速决策规划+快速反馈控制的结合,类似于人类的大闹+小脑的结构。无疑是人形机器人领域的一项重大突破。作为一个通用的视觉-语言-动作(VLA)模型,Helix 首次实现了对人形机器人整个上身的高速率连续控制,并具备多机器人协作、自然语言理解和强大的泛化能力。下面,我们尝试分析 Helix 的技术路线和特点,并与 Figure AI 之前的架构进行比较。
二、Helix 的技术路线与特点
(1)"System 1, System 2"架构:
Helix 采用了独特的"System 1, System 2"架构,其中 System 2(S2)是一个基于互联网预训练的视觉语言模型(VLM),以7-9 Hz 的频率运行,负责场景理解和语言理解;System 1(S1)则是一个快速反应的视觉运动策略,将 S2 生成的潜在语义表示以 200 Hz 的频率转换为精确的连续机器人动作。这种解耦架构使得每个系统都能在其最佳时间尺度上运行,S2 可以"慢思考"高层次目标,而 S1 可以"快思考"以实时执行和调整动作。
(2)全上身控制:
Helix 能够控制人形机器人的整个上身,包括手腕、躯干、头部和手指,实现高速率(200 Hz)的连续控制。这使得机器人能够进行精细的动作协调,如在抓取物品时调整手指姿态,同时移动头部和躯干以获得更好的视野和操作空间。
(3)多机器人协作:
Helix 支持多个机器人同时运行同一套神经网络权重,实现协作完成任务。例如,两个 Figure 机器人可以共同完成整理杂货的任务,它们通过自然语言指令进行协调,如"把饼干袋递给右边的机器人"或"从左边的机器人那里接过饼干袋并放在打开的抽屉里"。
(4)自然语言理解和执行:
Helix 能够基于自然语言指令完成各种任务,如拿起从未见过的物品、操作抽屉或冰箱等。当被要求"拿起沙漠中的物品"时,Helix 会识别出玩具仙人掌,选择最近的手,并执行精确的运动指令将其牢牢抓住。
(5)强大的泛化能力:
Helix 在训练中使用了约 500 小时的高质量监督数据,能够处理数千种形状、大小和材质各异的物品,表现出强大的泛化能力。
(6)商业部署能力:
Helix 完全在低功耗嵌入式 GPU 上运行,适合大规模商业化应用。
三、Helix 与先前架构的比较
(1)技术路线:
先前的架构更侧重于模块化设计,依赖于多个独立的组件来完成不同的任务,如语音识别、文本生成、视觉处理和运动控制等。而 Helix 则采用了端到端的 VLA 模型,将感知、语言理解和控制紧密结合在一起,通过一个统一的神经网络来学习所有行为。
(2)架构特点:
先前的架构中,各个组件之间的交互和协调较为复杂,需要大量的数据和计算资源来实现良好的性能。而 Helix 的"System 1, System 2"架构通过解耦 S1 和 S2,使得每个系统都能在其最佳时间尺度上运行,从而提高了系统的效率和性能。
(3)功能实现:
先前的架构在功能实现上相对较为单一,如只能完成特定的语音识别或视觉处理任务。而 Helix 则能够实现多种复杂的功能,如全上身控制、多机器人协作和自然语言理解等。
(4)泛化能力:
先前的架构在泛化能力上相对较弱,需要大量的任务特定数据和微调来实现良好的性能。而 Helix 则能够通过自然语言指令快速适应新的任务和环境,表现出强大的泛化能力。

翻译:
人形机器人新突破
家庭环境是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充斥着无数物品------易碎的玻璃器皿、皱巴巴的衣物、散落的玩具------每种物品都具有不可预测的形状、大小、颜色和质地。为了使机器人在家庭中发挥实际作用,它们需要能够按需生成智能的新行为,尤其是针对它们从未见过的物品。
在没有重大突破的情况下,当前的机器人技术无法扩展到家庭环境。目前,教授机器人哪怕是一种新行为都需要付出巨大的人力成本:要么是数小时的博士级别专家手动编程,要么是成千上万次的演示。考虑到家庭问题的复杂性,这两种方法都过于昂贵。然而,人工智能的其他领域已经掌握了这种即时泛化的能力。如果我们能够将视觉语言模型(VLMs)中捕获的丰富语义知识直接转化为机器人的动作,会怎样?这种新能力将从根本上改变机器人技术的发展轨迹(见图1)。突然之间,曾经需要数百次演示才能获得的新技能,现在只需用自然语言与机器人交流即可瞬间获得。关键问题变成了:我们如何从VLMs中提取所有这些常识知识,并将其转化为可泛化的机器人控制?我们开发Helix正是为了弥合这一差距。
(5)商业部署:
先前的架构在商业部署上面临一些挑战,如高功耗和高成本等。而 Helix 则完全在低功耗嵌入式 GPU 上运行,具有良好的商业部署潜力。
总结
Helix 的推出,标志着人形机器人技术进入了一个新的时代。其独特的"System 1, System 2"架构、全上身控制、多机器人协作、自然语言理解和强大的泛化能力,使其在人形机器人领域具有巨大的潜力。与 Figure AI 之前的架构相比,Helix 在技术路线、架构特点、功能实现、泛化能力和商业部署等方面都具有显著的优势。未来,随着 Helix 的不断发展和完善,作为机器人的从业者和研究者,不得不说,Helix 的架构或可能成为未来具身智能控制的技术方向。
-----------------本篇完------------------
PS.扩展阅读
对于python机器人编程感兴趣的小伙伴,可以进入如下链接阅读相关咨询
ps1.六自由度机器人相关文章资源
(1) 对六自由度机械臂的运动控制及python实现(附源码)
ps2.四轴机器相关文章资源
(1) 文章:python机器人编程------用python实现一个写字机器人

(2)python机器人实战------0到1创建一个自动是色块机器人项目-CSDN直播
(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境
(4)实现了语音输入+大模型指令解析+机器视觉+机械臂流程打通
ps3.移动小车相关文章资源
(1)python做了一个极简的栅格地图行走机器人,到底能干啥?[第五弹]------解锁蒙特卡洛定位功能-CSDN博客
(2) 对应python资源:源码地址
(3)python机器人编程------差速AGV机器、基于视觉和预测控制的循迹、自动行驶(上篇)_agv编程-CSDN博客
(4)python机器人编程------差速AGV机器、基于视觉和预测控制的循迹、自动行驶(下篇)_agv路线规划原则python-CSDN博客
对应python及仿真环境资源:源码链接
ps3.wifi小车控制相关文章资源
web端配套资源源代码已经上传(竖屏版),下载地址
仿真配套资源已经上传:下载地址
web端配套资源源代码已经上传(横屏版),下载地址