【Figure AI】一个 Helix 网络模型实现精细操作和导航命令(直接从人类第一视角视频到机器人的迁移)

Project Go-Big:互联网规模的拟人机器人预训练 + 直接从人类视频到机器人的迁移

(发布日期:2025 年 9 月 18 日)

Figure AI单个模型自主导航和惊喜动作

摘要

一个重大进展

要让机器人在家庭环境中达到人类水平的智能,需要这些机器人能从大规模的现实世界中学习。今天,我们宣布在 Helix(Figure 的视觉-语言-动作模型,用于通用型拟人机器人控制)上的两个关键进展:

  • Project Go-Big:互联网规模的拟人预训练。Figure 正在构建世界上最大、最多样化的拟人机器人预训练数据集,该项目将通过与 Brookfield 的前所未有合作来加速推进,Brookfield 在全球拥有超过 100,000 个住宅单位。

  • 零样本人类视频 → 机器人迁移 。Helix 已经达成一个新的学习里程碑:仅通过以第一视角拍摄的人类视频训练,Figure 的机器人现在能够从**"去冰箱"**这样的自然语言命令出发,在杂乱的真实环境中导航 ------ 这是拟人机器人领域的一个首次突破。

演示人类视频采集如何有效覆盖现实空间,并捕获可被迁移到 Helix 的行为技巧。

人类视角 数据采集

转化后

互联网规模的拟人预训练

机器学习的最大突破通常来自对大规模、多样化数据集的大规模预训练:例如,ImageNet 对视觉模型的推动;Wikipedia 对语言模型的推动;YouTube 对生成视频模型的推动。

但在机器人领域,缺乏等同于"机器人行为的 YouTube"那样规模的数据集。

传统上,教机器人新技能通常需要昂贵的示范(人操作机器人)、手工编程、或在高度受控的环境下训练,但这些方式难以捕捉现实世界的杂乱性。拟人机器人(humanoid robots) 具有一个独特优势:它们的视角和运动学结构与人类类似,因此理论上可以把日常人类视频中的知识直接迁移给机器人。

Project Go-Big 正是基于这一愿景 ------ 这是 Figure 发起的一个大规模拟人机器人预训练数据采集计划。

昨天,Figure 宣布已与 Brookfield 资产管理公司达成合作。Brookfield 拥有 1 万亿美元的全球资产基础 ------ 包括超过 100,000 个住宅单元、5 亿 平方英尺的写字楼空间、1.6 亿 平方英尺的物流空间 ------ 这将帮助加速 Go-Big 计划,通过在这些环境中捕获人类有目标行为的大规模、多样化现实数据。

直接从人类视频到机器人迁移

此前,Helix 的工作主要侧重于上半身操作任务,例如折叠衣服、洗碗机装载、包裹重定位等。

但除了操作之外,拟人机器人还必须具备智能导航能力 ------ 在家中找到路径、为任务重新定位、在人或物体之间流畅移动。

我们很高兴地分享:Project Go-Big 已经为 Helix 带来了一个初步的学习成果 ------ 从纯粹的人类视频直接迁移到机器人行为 。使用 100% 的第一视角(egocentric)人类视频数据,这些视频是在 Brookfield 的真实家庭环境中被动采集的,Helix 被训练将人类的导航策略 直接转化为机器人的控制。令人惊讶的是,这一方法不需要任何机器人演示数据

结果包括:

  • 语音到导航 (Speech-to-Nav):Helix 现在能对类似 "走到厨房桌子那边" 或 "去给植物浇水" 的对话式命令作出反应,从像素输入到自主导航,在复杂、杂乱的家居环境中生成闭环控制。

  • 单一统一模型 :一个 Helix 网络模型现在能够同时输出高频率的精细操作和导航命令 ------ 无需为不同任务或不同数据源使用分离的子系统。

  • 零样本人类 → 机器人迁移:据我们所知,这是第一次有拟人机器人能够端到端地学习 ------ 从图像 (pixels) + 语言 (language) 到低层的 SE(2) 速度命令输出 ------ 而仅用人类视频,无需任何机器人特定的数据或训练。

结语

我们正快速逼近一个未来:拟人机器人以根本"人性化"的方式理解和互动家庭环境 ------ 它们能导航、操作物体,并在复杂环境中用自然语言作为主要接口来推理与行动。

我们与 Brookfield 的合作使我们有机会探索用于运动(locomotion)和操作 (manipulation) 的互联网规模体现式 (embodied) 数据集的全部潜力。

我们已经看到了初步益处:首次实现从人类视频到机器人导航的交叉形体 (cross-embodiment) 零样本迁移。

技术解析:这一代机器人采用了什么技术思路 / 核心创新

从这篇官方文章来看,Figure 在这一代 Helix 系统里引入/强化了以下几个关键技术思路和创新方向:

技术方向 / 创新 具体内容 / 特点 意义 / 挑战
互联网规模的拟人预训练(Humanoid Pretraining) 构建大规模、多样化、现实世界中的拟人行为数据集(尤其是人类第一视角视频),用于预训练机器人模型 类比于语言模型或视觉模型用大数据预训练的做法,将"机器人行为"纳入到预训练范式之中,是机器人领域少有的尝试。挑战在于采集、标注、对齐(人类动作 → 机器人动作)等方面。
跨形体迁移 / 零样本迁移 (Zero-shot human → robot transfer) 用纯人类视频(无机器人演示)训练机器人行为模型,从人类导航策略、动作模式、行为直观映射到机器人控制 这是一种极具野心的路径:如果成功,可大幅降低机器人训练成本和环境依赖性。但核心难点在于 "对齐" ------ 如何把人类的运动学 / 视角 /身体限制差异映射到机器人的能力范围,以及如何保证机器人在现实环境中稳定执行。
统一端到端模型 (Unified model for navigation + manipulation) 不再为导航 vs 操作分割模型,而是让同一个 Helix 网络模型从像素、语言输入,一并输出导航控制和操作控制 这简化了系统架构,提高通用性与协同能力。但对模型容量、稳定性、任务冲突、训练策略都提出了较高要求。
从语言 + 像素输入直接输出速度控制 (SE(2) 速度命令) 模型的输入是图像 (pixels) + 语言 (natural language command),输出是控制命令(例如机器人在地面平面上的速度指令) 这种端到端路径省去了中间手工规划或路径规划模块,但训练难度更高,尤其是在复杂/未知环境下需要鲁棒性和安全性。
现实环境数据采集与场景多样性 与 Brookfield 合作,在大量真实住宅 /商业 /物流环境中采集行为数据,覆盖各种杂乱、生活化场景 通过这种策略,Helix 模型能见到更多复杂环境下的人类行为,从而更具泛化能力。但采集、隐私、数据处理、同步、覆盖性都是挑战。

总的来说,这一代 Helix 机器人系统更倾向于一种"数据驱动 + 端到端学习 + 跨形体迁移"的路径,而不是传统的模块化、硬编码规划 + 强化学习单个任务的方式。

相关推荐
富唯智能21 天前
人形机器人重复定位精度:工业柔性制造的“定海神针”
人形机器人·工业机器人·智能机器人
音视频牛哥2 个月前
从感知到执行:人形机器人低延迟视频传输与多模态同步方案解析
网络·人工智能·深度学习·大牛直播sdk·机器人视觉·人形机器人·智能机器人
奥修的灵魂2 个月前
【宇树科技+智元机器人】人形机器人产业链核心标的
科技·机器人·人形机器人·宇树科技·智元机器人
音视频牛哥2 个月前
四足机器人远程视频与互动控制的全链路方案
机器人·音视频·大牛直播sdk·四足机器人·rtsp播放器·人形机器人·rtmp播放器
Wnq100725 个月前
工业场景轮式巡检机器人纯视觉识别导航的优势剖析与前景展望
人工智能·算法·计算机视觉·激光雷达·视觉导航·人形机器人·巡检机器人
OpenLoong 开源社区5 个月前
技术视界 | 青龙机器人训练地形详解(一):如何创建一个地形
人工智能·机器人·开源·人形机器人·openloong
OpenLoong 开源社区5 个月前
技术视界 | 数据的金字塔:从仿真到现实,机器人学习的破局之道
人工智能·学习·机器人·开源社区·人形机器人·openloong
放羊郎5 个月前
2025年首届人形机器人半程马拉松比赛(附机器人照片)
机器人·具身智能·人形机器人·半程马拉松·北京亦庄
OpenLoong 开源社区6 个月前
技术视界 | 从哲学到技术:人形机器人感知导航的探索(下篇)
人工智能·机器人·开源社区·人形机器人·openloong