【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分

1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery

2.时间: 2026.04

3.机构: Generalist AI

4.3个英文关键词: GEN-1, Embodied Intelligence, VLA

本文发布了新一代通用机器人模型GEN-1，通过大规模物理数据预训练和算法优化，首次让机器人在简单任务上达到了接近人类的"精通"水平（高成功率、高速度、能即兴应变）。

现有机器人模型（如GEN-0）虽然具备通用性，但成功率（约64%）和速度不足以商用；传统方法依赖昂贵的遥操作数据且泛化能力差；机器人缺乏在未知突发状况下即兴解决问题的能力（Improvisational Intelligence）。

基于GEN-0架构，利用超过50万小时的人类穿戴设备物理交互数据进行预训练，结合RL（强化学习）、多模态人类指导及推理时算法优化，定义了"精通"（Mastery）作为评估标准。

作者旨在证明：通过Scaling Laws（缩放定律）持续扩大物理交互数据和算力，可以像训练大语言模型（LLM）一样，让机器人逐步掌握物理世界的通用智能。GEN-1证明了"精通"是可以通过数据和算法量变引起质变达到的商业门槛。

数据来源革新：预训练数据完全不使用昂贵的机器人遥操作数据，而是利用低成本的人类穿戴设备捕捉的50万+小时物理活动数据。
定义新标准：提出了"精通"（Mastery）的概念，包含可靠性（99%成功率）、速度（比SOTA快3倍）和即兴智能（Improvisation）三个维度。
系统级优化：不仅是一个模型权重，而是包含推理时协调、控制硬化等系统组件的完整系统。

想象给机器人喂了海量人类如何干活的视频和动作数据（预训练），让它先学会"物理常识"。然后针对具体任务（如叠衣服），只用极少量（约1小时）的该任务数据进行"微调"。模型内部通过Harmonic Reasoning等技术，在运行时实时计算最优动作。

基于该团队之前的GEN-0模型（证明了机器人领域存在Scaling Laws），并借鉴了VLM（视觉语言模型）、VLA（视觉语言动作模型）以及World Models（世界模型）的研究思路。

数据：预训练数据超50万小时（人类穿戴设备数据，无机器人数据）；特定任务微调数据仅需约1小时。
评估方式：对比GEN-0和从零开始训练的模型，评估任务成功率（Reliability）、任务完成时间（Speed）以及面对干扰时的恢复能力（Improvisation）。
结论：GEN-1在多个任务（如折叠盒子、装手机）上达到99%的成功率（GEN-0为64%），速度提升约3倍，且能处理未在训练中见过的突发状况。

PaLM-E, RT-2, π0, π*0.6, GPT-3

Scaling Laws in Robotics with GEN-0 (Generalist, 2025)<2025.11>
π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)<2024>
RT-2: Vision-Language-Action Models (Brohan et al., 2023)<2023>

依然大数据，依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练，就能完成相应任务了。