Helix: A Vision-Language-Action Model for Generalist Humanoid Control

序号 属性
1 论文名称 Helix-From Figure AI
2 发表时间/位置 2025
3 Code OpenHelix-Team/OpenHelix: OpenHelix: An Open-source Dual-System VLA Model for Robotic Manipulation
4 创新点 Helix 是首个使用 单一模型权重(S2(7B)+ S1(80M)一套权重搞定所有任务),无需特定任务微调 ,直接从 自然语言控制(直接输出用于高维动作空间的连续控制,不需要离散化指令) humanoid 全上半身 的 VLA 系统,而且可以多个机器之间相互写作,采用用同一套参数,能够实现高频、高维、多任务泛化、零样本物体抓取以及多机器人协作,同时训练数据需求远低于传统方法。训练时加入 S1 与 S2 输入之间的时间偏移,使训练与部署匹配。
5 引用量 感觉很好,看视频感觉效果很好,很期待VLA得继续发展。

一:提出问题

关于Helix的一篇技术博客。Helix是一个双系统的通用的VLA模型,克服了机器人的很多长期面临的挑战,在多个方面,helix都带来了让我眼前一亮的效果。

  1. **Full-upper-body control:**全上半身控制,是第一个能够完全控制且高速的VLA模型,包括手腕,躯干,头部,每根手指。

  2. Multi-robot collaboration: Helix 是第一个能够同时控制两台机器人工作的 VLA ,让它们一起完成一个共享的、长时间序列的操作任务,并且这些任务中的物体还是它们从未见过的

  3. Pick up anything: 装备了Helix的人形机器人可以根据语言提示捡起来任何小的家庭物品。

  4. One neural network: Helix 使用同一套神经网络权重来学习所有行为,也就是说所有的能力都来自于同一个模型和同一套权重下,无需针对特定任务微调。

  5. **Commercial-ready:**第一个能够完全部署在低功耗的GPU上运行的VLA,为商业部署做好了准备。

New Scaling for Humanoid Robotics:人形机器人的新规模化

家庭环境对机器人来说是最大的一个挑战,和实验室或者工业环境不同,家庭环境物体多样,变化大,位置情况多,而且每个物体的形状、颜色、尺寸等都不可预测。为了让机器人在家庭背景下能够有用,它们必须能够实现按需生成智能的新动作的能力,尤其是面对从未见过的物体的时候。目前的机器人技术不做一个根本性的改进的话,是无法扩展到家庭环境的。当前,即便教机器人一个新行为,也需要大量人力,要么是几小时的博士级专家手工编程、要么是成千上万次示范。而针对家庭环境问题的广度,这两种解决方案的成本都显得过高了。但是在AI的其他领域,已经掌握了这种即时泛化的能力,例如在NLP、视觉领域的大模型可以实现zero-shot / few-shot 推理。

那么,如果把VLM捕获的丰富语义知识,直接转化为机器人动作,会怎么样?--VLA

如图一所示,这种能力将从根本上改变机器人技术的扩展路径,原本需要数百次示范才能学会的新技能,现在只需用自然语言告诉机器人,就能立即掌握,充分展现了零样本和语言驱动动作生成的能力。所以,如何从 VLM 中提取常识知识 并将其转化为可泛化的机器人控制?成为目前的关键问题。因此,helix的出现也是针对这个问题做了一个解决。

  • Helix = VLM 与机器人控制的桥梁

  • 可以把语言、视觉、常识 → 转化为实际操作动作

二:解决方案

Helix就是一种用于完整上半身控制的 "系统1--系统2" VLA(视觉--语言--动作)模型,首个结合 "系统1--系统2" 架构的 VLA 模型,能够以高频率实现对整个人形机器人上半身的灵巧操作控制。

在过去,双系统的方案 一直有个根本的问题,就是VLM 模型泛化能力强,但速度慢;机器人视觉--运动策略速度快,但泛化性差。而Helix通过两个互补的系统来解决这一矛盾,这两个系统都是端到端训练,并且能够实现彼此之间的通讯。

其中,System 2(S2),是一个基于互联网预训练的 VLM,每秒 7--9 次运行,用于场景理解和语言理解,为各种对象和上下文提供广泛泛化能力。

System 1 (S1),是一个高速的反应式视觉---运动策略,将 S2 产生的语义潜表示转换为精确的连续机器人动作,以 200Hz 的速度运行。

这种解耦架构让每个系统都能在最适合自己的时间尺度工作 。S2 可对高层目标进行 "慢思考",而 S1 则能对动作实时地 "快反应" 和调整。例如,在多机器人协作任务中(视频 2),S1 会快速适应另一台机器人的运动变化,同时保持 S2 设定的语义目标不变

Helix 的亮点是把一个慢但聪明的大模型(S2)和一个快但精确的小控制器(S1)结合,通过端到端训练实现"会思考也会实时执行"的机器人控制系统,率先解决了泛化能力与控制速度的矛盾。

与其他方法相比,Helix的设计有几个关键的优势:

  1. 速度与泛化能力

    Helix 的执行速度可以匹配专门为单一任务训练的行为克隆策略,同时还能对数千个全新的测试对象实现零样本泛化。也就是说Helix 的S1非常快,和传统的转为一个任务训练的BC策略一样的快,同时因为S2能够进行目标推理,系统整体又可以对新物体不经训练直接做动作。

  2. 可扩展性

    Helix 可以直接输出用于高维动作空间的连续控制 ,避免了先前许多 VLA 方法所依赖的复杂动作 tokenization(动作离散化)方案。这些 token 化方法在低维控制场景(例如二值化的平行夹爪 gripper)中还算有效,但在高维的人形机器人控制上会出现严重的扩展性问题。

    现代 VLA(如 RT-2、OpenVLA)通常用 token 来表示动作 例如:"MOVE_LEFT_1""MOVE_LEFT_2""OPEN_GRIPPER"等,其本质是把动作离散化,像语言一样处理。但对于"高维连续机器人"(尤其 humanoid)来说,关节太多,而且每个关节都是浮点角度,如果还是离散化表示,会导致token 爆炸,不可扩展。所以Helix 避免这个问题,S1 直接输出连续控制向量

    输出类似于这样:

    md-end-block 复制代码
    [0.34, -1.22, 0.05, 1.18, ...]  # 每个值控制一个关节,机器人关节控制指令
  3. 架构简单性

    Helix 采用标准架构,System 2 使用一个开源、开权重的 VLM;System 1 则是一个基于 transformer 的简洁视觉-运动策略。

    Helix 不是一个巨大的 end-to-end 大模型System 2 是一个常规 VLM(类似 LLaVA、Phi-3-Vision、Qwen-VL) 用来做推理、理解任务目标、物体关系等。System 1 是一个单纯的 transformer 控制器。输入视觉特征、状态,输出,连续动作。整个体系比 VLA-Transformer 小得多,大模型计算不介入实时控制,因此速度很快。

    transformer 控制器: 一个小型 Transformer(几百万参数级别),输入视觉和状态,输出动作

    不是一个巨大的 end-to-end 大模型(但是训练的时候是端到端的):也就是不像是RT-2、OpenVLA :图像 → 文本/token → 大模型(几十B) → 动作 token

  4. 模块分离

    将 S1 和 S2 分离,使我们能独立地迭代和改进每个系统,而不必受限于寻找统一的观测空间或动作表示方式的需求。

    S2(大模型)负责推理S1(小模型)负责控制,二者独立训练、独立优化、互不影响。这样可以不需要把图像、文本、动作揉成同一个 token 空间,S1 可以小而快,S2 可以升级不同的 VLM,不影响控制器,训练数据完全不同。

2:Model and Training Details

数据方面: 收集了一个高质量的、多机器人、多操作者数据集,包含大约 500 小时的操作演示。为了生成"自然语言指令---动作"的训练数据,他们用一个自动标注 VLM 来产生"回溯指令。VLM 会读取机器人相机的这一段视频,并回答:"为了让机器人做出视频中那段动作,你会给它什么指令?"同时,为避免测试污染,训练中用过的物体全部从测试集中排除。

模型结构 Architecture :S2 是一个 7B 参数的开源 VLM,在互联网规模数据上预训练。它处理单目相机图像和机器人状态(手腕姿态、手指位置),并把它们映射到视觉--语言嵌入空间。再加上自然语言指令,S2 将所有与任务相关的语义信息压缩成一个 连续 latent 向量,送入 S1。

S2 的功能类似于:

  • 理解这是什么物体?

  • 任务目标是什么?

  • 当前状态与目标有什么关系?

最终把这些高层语义封装成一个向量:

md-end-block 复制代码
latent_S2 = f(image, robot_state, text)

latent 向量 可以理解成,S2(大模型)想要告诉 S1(控制器)的所有高层语义信息,被压缩成的一段连续数字向量。本质就是一个浮点数列表。其中的数字不是token,不是离散指令,而是"当前场景理解"、"任务目标"等等得浓缩表达。由于是连续值,而且位于一个连续空间,并且能够表示语义,能够明显区别于离散得动作token.

S1 是一个 80M 参数的 cross-attention encoder-decoder Transformer,用于低层控制。它的视觉 backbone 是全卷积、多尺度结构,并来自纯模拟预训练。S1 也接收图像和状态,但处理得更快(用于反应式控制)。S2 的 latent 向量会被投影到 S1 的 token 空间,并和视觉 token 拼在一起作为"任务条件"。S1 输出上半身控制信号(200 Hz),包括手腕姿态、手指弯曲/张开、头部/躯干方向。此外还输出一个"任务完成百分比",帮助学习行为的终止判断。

S1 的 transformer 不是语言模型,它是一种 时序控制 transformer。latent 向量的作用类似,

md-end-block 复制代码
"我要做什么任务"的目标 token

而视觉 token 是:

md-end-block 复制代码
"当前环境长什么样"

Transformer cross-attention 结合两者 => 输出动作。

Helix 是真正的 端到端训练 ,虽然结构是 S1 + S2,但训练时输入图像 + 状态 + 文本,输出连续动作,损失采用回归损失(模仿控制),梯度从 S1 反传到 S2。不需要任何任务微调,不需要 task-specific head。训练时加入 S1 与 S2 输入之间的时间偏移,使训练与部署匹配。

时间偏移:由于s2和s1得频率不同,导致推理时,S1 使用的图像是"最新的",而 S2 的 latent 可能是 几十毫秒前生成的。这也会导致如果训练时 S1 和 S2 输入严格对齐(t 时刻相同),但推理时 S2 的信息落后几十毫秒,致使训练---推理分布差异,控制稳定性下将。时间偏移也就是在训练得时候故意给 S2 的输入延迟几十毫秒(和实际推理一致)。

也就是说人为地把 S1 的监督信号向后偏移 Δ 时间,使得:

S1 在时间 t 学的是:S2 在未来 t+Δ 时刻 所希望机器人做的动作。S1 每一帧都在学 "未来一段时间的动作轨迹"。

S2 的 latent 代表的是"未来几秒的动作意图",它本身就是平滑、连续、宏观的。如果你不加偏移,S1 只能学"这一秒 S2 想干嘛",动作不连续,不成轨迹。而加了偏移,S1 学的是未来段的动作,必然是平滑的、连续的、轨迹型的。就像:

S2:我接下来 1 秒后,要把手伸过去抓这个东西 S1:好,我从现在起就按照"手伸过去"的轨迹执行,每 5ms 计算一次更细动作

在推理的时候,S2 不是实时运行的,所以"频率对不上"的问题根本不存在。推理时候只需要S2给出一个高层编码,然后S1完全独立执行,预测下一步动作。

3:推理 Optimized Streaming Inference

推理时,模型被拆成两个进程,S2采用慢速,异步后台进程,输入最新观测 + 指令,并且以7--9 Hz 更新 latent(语义目标)。而S1执行高速实时进程,以200Hz 接收最新图像 + 最新 latent,并且进行闭环控制。异步结构让两者在各自速度下运行,减少了训练和推理之间得分布差异,并且和训练时的 temporal offset 完全匹配,实现速度甚至可以达到纯 imitation policy 的水平。

三:实验

Helix 以 200Hz 的频率控制一个 35 自由度(DoF)的上半身动作空间,包括从单个手指动作、末端执行器轨迹、头部注视方向到躯干姿态等所有内容。头和躯干的控制尤其困难------因为它们移动时会改变机器人能触达的位置以及它能看到的内容,形成反馈回路,这些反馈回路在历史上常导致不稳定。

上边视频 演示了这种协调能力:机器人平滑地用头部追踪自己的手,同时调整躯干以获得最佳的操作范围,同时保持精确的手指控制来抓取物体。在以前得工作中,这种精度 + 高维动作空间的实时协调被认为极具挑战,即便是在单一已知任务里都很难做到。据我们所知,之前没有任何 VLA 系统能在保持任务泛化能力的情况下,实现如此程度的实时协调。

3.1 Zero-shot 多机器人协作

我们在困难的多智能体操作场景中测试 Helix:两个 Figure 机器人进行零样本协作式收纳杂货。

第一个视频(文章开头)展示了两大突破,机器人能够操控完全新物品(训练中未见过的),覆盖形状、大小、材质的多样性 → 泛化性很强。两个机器人使用 同一套 Helix 参数(也就是说部署的模型是相同的)

  • 不需要特定机器人训练

  • 不需要任务角色分配

  • 不需要专门的协作规划

它们仅靠自然语言提示协调:"把饼干袋递给你的右侧机器人","从左侧机器人接过饼干袋并放到抽屉里"这是首次展示使用 VLA 模型,实现灵活、持续的多机器人协作,并且还能在完全新物体上保持性能。

3.2 Emergent "Pick up anything"

我们发现安装 Helix 的 Figure 机器人,在听到"Pick up the [X]"时,几乎能拾取任何小型家居物品。系统测试中,它能成功处理数千种新物体,从玻璃杯、玩具到工具和衣物,且不需要额外演示或定制编程。更令人注意的是 Helix 如何把互联网级语言理解与精确机器人控制结合。例如听到 "Pick up the desert item":

  • 它能理解"沙漠 item"是"仙人掌玩具"

  • 判断哪个手更近

  • 执行精确的抓取动作

这种通用的"从语言到动作"的抓取能力,为在非结构化环境中的人形机器人部署打开新可能。

四:总结

Discussion :

Helix 的训练效率

Helix 的训练非常高效,能在极少的资源下实现强大的物体泛化能力。总共使用约 500 小时高质量监督数据 来训练 Helix,这只占以往 VLA 数据集规模的不到 5%,并且 无需依赖多机器人数据采集或多阶段训练 。注意到,这个数据量更接近现代单任务模仿学习的数据规模。尽管数据量相对较小,Helix 仍然能够扩展到 更具挑战性的全上半身 humanoid 控制动作空间,输出高频、高维动作信号。

A single set of weights:

以往的 VLA 系统通常需要,针对不同高层行为进行专门微调或者设计专门的动作头(action heads)来优化性能

而 Helix 的表现非常惊人,采用单一统一模型就可以处理多任务,权重只有S2 = 7B,S1 = 80M,而且功能功能包括:

  • 拾取和放置物品

  • 操作抽屉和冰箱

  • 多机器人精巧手部交接

  • 操作数千种新物体

结论:提出了 Helix,这是 首个能够通过自然语言直接控制整个 humanoid 上半身的 Vision-Language-Action 模型 。与早期机器人系统不同,Helix 能够即时生成 长时程、协作、灵巧操作,无需任务特定演示或大量人工编程。

Helix 显示出强大的 物体泛化能力

  • 能够通过自然语言指令抓取数千种训练中从未见过的家居物品

  • 适应不同形状、尺寸、颜色和材质

这标志着 Figure 在 humanoid 机器人行为扩展方面的 重大突破 ,在家庭环境中辅助日常生活潜力巨大。虽然这些早期结果令人兴奋,但这只是可能性的冰山一角 。我们期待看到 Helix 扩展 1000 倍甚至更多 后的表现。

相关推荐
还不秃顶的计科生4 小时前
如何快速用cmd知道某个文件夹下的子文件以及子文件夹的这个目录分支具体的分支结构
人工智能
九河云4 小时前
不同级别华为云代理商的增值服务内容与质量差异分析
大数据·服务器·人工智能·科技·华为云
Elastic 中国社区官方博客4 小时前
Elasticsearch:Microsoft Azure AI Foundry Agent Service 中用于提供可靠信息和编排的上下文引擎
大数据·人工智能·elasticsearch·microsoft·搜索引擎·全文检索·azure
大模型真好玩4 小时前
Gemini3.0深度解析,它在重新定义智能,会是前端工程师噩梦吗?
人工智能·agent·deepseek
机器之心4 小时前
AI终于学会「读懂人心」,带飞DeepSeek R1,OpenAI o3等模型
人工智能·openai
AAA修煤气灶刘哥5 小时前
从Coze、Dify到Y-Agent Studio:我的Agent开发体验大升级
人工智能·低代码·agent
ANYOLY5 小时前
Sentinel 限流算法详解
算法·sentinel
陈佬昔没带相机5 小时前
MiniMax M2 + Trae 编码评测:能否与 Claude 4.5 扳手腕?
前端·人工智能·ai编程
美狐美颜SDK开放平台5 小时前
从0到1开发直播美颜SDK:算法架构、模型部署与跨端适配指南
人工智能·架构·美颜sdk·直播美颜sdk·第三方美颜sdk·美狐美颜sdk
小陈phd5 小时前
RAG从入门到精通(四)——结构化数据读取与导入
人工智能·langchain