figure机器人技术架构的演进初探——Helix人形机器人控制的革新

一、前言

近期具身智能机器人公司figure提出了人形机器人端到端的控制方案Helix,大小模型结合架构实现了慢速决策规划+快速反馈控制的结合,类似于人类的大闹+小脑的结构。无疑是人形机器人领域的一项重大突破。作为一个通用的视觉-语言-动作(VLA)模型,Helix 首次实现了对人形机器人整个上身的高速率连续控制,并具备多机器人协作、自然语言理解和强大的泛化能力。下面,我们尝试分析 Helix 的技术路线和特点,并与 Figure AI 之前的架构进行比较。

二、Helix 的技术路线与特点

(1)"System 1, System 2"架构:

Helix 采用了独特的"System 1, System 2"架构,其中 System 2(S2)是一个基于互联网预训练的视觉语言模型(VLM),以7-9 Hz 的频率运行,负责场景理解和语言理解;System 1(S1)则是一个快速反应的视觉运动策略,将 S2 生成的潜在语义表示以 200 Hz 的频率转换为精确的连续机器人动作。这种解耦架构使得每个系统都能在其最佳时间尺度上运行,S2 可以"慢思考"高层次目标,而 S1 可以"快思考"以实时执行和调整动作。

(2)全上身控制:

Helix 能够控制人形机器人的整个上身,包括手腕、躯干、头部和手指,实现高速率(200 Hz)的连续控制。这使得机器人能够进行精细的动作协调,如在抓取物品时调整手指姿态,同时移动头部和躯干以获得更好的视野和操作空间。

(3)多机器人协作:

Helix 支持多个机器人同时运行同一套神经网络权重,实现协作完成任务。例如,两个 Figure 机器人可以共同完成整理杂货的任务,它们通过自然语言指令进行协调,如"把饼干袋递给右边的机器人"或"从左边的机器人那里接过饼干袋并放在打开的抽屉里"。

(4)自然语言理解和执行:

Helix 能够基于自然语言指令完成各种任务,如拿起从未见过的物品、操作抽屉或冰箱等。当被要求"拿起沙漠中的物品"时,Helix 会识别出玩具仙人掌,选择最近的手,并执行精确的运动指令将其牢牢抓住。

(5)强大的泛化能力:

Helix 在训练中使用了约 500 小时的高质量监督数据,能够处理数千种形状、大小和材质各异的物品,表现出强大的泛化能力。

(6)商业部署能力:

Helix 完全在低功耗嵌入式 GPU 上运行,适合大规模商业化应用。

三、Helix 与先前架构的比较

(1)技术路线:

先前的架构更侧重于模块化设计,依赖于多个独立的组件来完成不同的任务,如语音识别、文本生成、视觉处理和运动控制等。而 Helix 则采用了端到端的 VLA 模型,将感知、语言理解和控制紧密结合在一起,通过一个统一的神经网络来学习所有行为。

(2)架构特点:

先前的架构中,各个组件之间的交互和协调较为复杂,需要大量的数据和计算资源来实现良好的性能。而 Helix 的"System 1, System 2"架构通过解耦 S1 和 S2,使得每个系统都能在其最佳时间尺度上运行,从而提高了系统的效率和性能。

(3)功能实现:

先前的架构在功能实现上相对较为单一,如只能完成特定的语音识别或视觉处理任务。而 Helix 则能够实现多种复杂的功能,如全上身控制、多机器人协作和自然语言理解等。

(4)泛化能力:

先前的架构在泛化能力上相对较弱,需要大量的任务特定数据和微调来实现良好的性能。而 Helix 则能够通过自然语言指令快速适应新的任务和环境,表现出强大的泛化能力。

翻译:

人形机器人新突破

家庭环境是机器人技术面临的最大挑战。与受控的工业环境不同,家庭中充斥着无数物品------易碎的玻璃器皿、皱巴巴的衣物、散落的玩具------每种物品都具有不可预测的形状、大小、颜色和质地。为了使机器人在家庭中发挥实际作用,它们需要能够按需生成智能的新行为,尤其是针对它们从未见过的物品。

在没有重大突破的情况下,当前的机器人技术无法扩展到家庭环境。目前,教授机器人哪怕是一种新行为都需要付出巨大的人力成本:要么是数小时的博士级别专家手动编程,要么是成千上万次的演示。考虑到家庭问题的复杂性,这两种方法都过于昂贵。然而,人工智能的其他领域已经掌握了这种即时泛化的能力。如果我们能够将视觉语言模型(VLMs)中捕获的丰富语义知识直接转化为机器人的动作,会怎样?这种新能力将从根本上改变机器人技术的发展轨迹(见图1)。突然之间,曾经需要数百次演示才能获得的新技能,现在只需用自然语言与机器人交流即可瞬间获得。关键问题变成了:我们如何从VLMs中提取所有这些常识知识,并将其转化为可泛化的机器人控制?我们开发Helix正是为了弥合这一差距。

(5)商业部署:

先前的架构在商业部署上面临一些挑战,如高功耗和高成本等。而 Helix 则完全在低功耗嵌入式 GPU 上运行,具有良好的商业部署潜力。

总结

Helix 的推出,标志着人形机器人技术进入了一个新的时代。其独特的"System 1, System 2"架构、全上身控制、多机器人协作、自然语言理解和强大的泛化能力,使其在人形机器人领域具有巨大的潜力。与 Figure AI 之前的架构相比,Helix 在技术路线、架构特点、功能实现、泛化能力和商业部署等方面都具有显著的优势。未来,随着 Helix 的不断发展和完善,作为机器人的从业者和研究者,不得不说,Helix 的架构或可能成为未来具身智能控制的技术方向。

-----------------本篇完------------------

PS.扩展阅读


对于python机器人编程感兴趣的小伙伴,可以进入如下链接阅读相关咨询

ps1.六自由度机器人相关文章资源

(1) 对六自由度机械臂的运动控制及python实现(附源码)

(2) N轴机械臂的MDH正向建模,及python算法

ps2.四轴机器相关文章资源

(1) 文章:python机器人编程------用python实现一个写字机器人

(2)python机器人实战------0到1创建一个自动是色块机器人项目-CSDN直播

(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境

(3)博文《我从0开始搭建了一个色块自动抓取机器人,并实现了大模型的接入和语音控制-(上基础篇)》的vrep基础环境

(4)实现了语音输入+大模型指令解析+机器视觉+机械臂流程打通

ps3.移动小车相关文章资源

(1)python做了一个极简的栅格地图行走机器人,到底能干啥?[第五弹]------解锁蒙特卡洛定位功能-CSDN博客

(2) 对应python资源:源码地址

(3)python机器人编程------差速AGV机器、基于视觉和预测控制的循迹、自动行驶(上篇)_agv编程-CSDN博客

(4)python机器人编程------差速AGV机器、基于视觉和预测控制的循迹、自动行驶(下篇)_agv路线规划原则python-CSDN博客

对应python及仿真环境资源:源码链接


ps3.wifi小车控制相关文章资源

web端配套资源源代码已经上传(竖屏版),下载地址

仿真配套资源已经上传:下载地址

web端配套资源源代码已经上传(横屏版),下载地址

相关推荐
大腕先生3 小时前
微服务环境搭建&架构介绍(附超清图解&源代码)
微服务·云原生·架构
文军的烹饪实验室4 小时前
处理器架构、单片机、芯片、光刻机之间的关系
单片机·嵌入式硬件·架构
猫头虎-人工智能4 小时前
NVIDIA A100 SXM4与NVIDIA A100 PCIe版本区别深度对比:架构、性能与场景解析
gpt·架构·机器人·aigc·文心一言·palm
阿里妈妈技术4 小时前
提效10倍:基于Paimon+Dolphin湖仓一体新架构在阿里妈妈品牌业务探索实践
架构
Leiditech__5 小时前
人工智能时代电子机器人静电问题及电路设计防范措施
人工智能·嵌入式硬件·机器人·硬件工程
程序员侠客行7 小时前
Spring事务原理详解 三
java·后端·spring·架构
【云轩】7 小时前
基于STM32与BD623x的电机控制实战——从零搭建无人机/机器人驱动系统
stm32·机器人·无人机
WeiLai111211 小时前
面试基础--微服务架构:如何拆分微服务、数据一致性、服务调用
java·分布式·后端·微服务·中间件·面试·架构
菜鸟一枚在这12 小时前
深入剖析抽象工厂模式:设计模式中的架构利器
设计模式·架构·抽象工厂模式