【论文阅读】GEN-1: Scaling Embodied Foundation Models to Mastery

快速了解部分

基础信息(英文):

1.题目: GEN-1: Scaling Embodied Foundation Models to Mastery

2.时间: 2026.04

3.机构: Generalist AI

4.3个英文关键词: GEN-1, Embodied Intelligence, VLA

1句话通俗总结本文干了什么事情

本文发布了新一代通用机器人模型GEN-1,通过大规模物理数据预训练和算法优化,首次让机器人在简单任务上达到了接近人类的"精通"水平(高成功率、高速度、能即兴应变)。

研究痛点:现有研究不足 / 要解决的具体问题

现有机器人模型(如GEN-0)虽然具备通用性,但成功率(约64%)和速度不足以商用;传统方法依赖昂贵的遥操作数据且泛化能力差;机器人缺乏在未知突发状况下即兴解决问题的能力(Improvisational Intelligence)。

核心方法:关键技术、模型或研究设计(简要)

基于GEN-0架构,利用超过50万小时的人类穿戴设备物理交互数据进行预训练,结合RL(强化学习)、多模态人类指导及推理时算法优化,定义了"精通"(Mastery)作为评估标准。

深入了解部分

作者想要表达什么

作者旨在证明:通过Scaling Laws(缩放定律)持续扩大物理交互数据和算力,可以像训练大语言模型(LLM)一样,让机器人逐步掌握物理世界的通用智能。GEN-1证明了"精通"是可以通过数据和算法量变引起质变达到的商业门槛。

相比前人创新在哪里

  1. 数据来源革新:预训练数据完全不使用昂贵的机器人遥操作数据,而是利用低成本的人类穿戴设备捕捉的50万+小时物理活动数据。
  2. 定义新标准:提出了"精通"(Mastery)的概念,包含可靠性(99%成功率)、速度(比SOTA快3倍)和即兴智能(Improvisation)三个维度。
  3. 系统级优化:不仅是一个模型权重,而是包含推理时协调、控制硬化等系统组件的完整系统。

解决方法/算法的通俗解释

想象给机器人喂了海量人类如何干活的视频和动作数据(预训练),让它先学会"物理常识"。然后针对具体任务(如叠衣服),只用极少量(约1小时)的该任务数据进行"微调"。模型内部通过Harmonic Reasoning等技术,在运行时实时计算最优动作。

解决方法的具体做法

  1. 预训练:在无机器人数据的情况下,使用大规模人类物理交互数据训练基础模型。
  2. 适应特定任务:针对特定任务(如装手机),仅使用约1小时的特定机器人数据进行微调。
  3. 系统优化:引入强化学习(RL)、多模态人类指导以及推理时的Harmonic Reasoning技术,提升动作的流畅度和速度。

基于前人的哪些方法

基于该团队之前的GEN-0模型(证明了机器人领域存在Scaling Laws),并借鉴了VLM(视觉语言模型)、VLA(视觉语言动作模型)以及World Models(世界模型)的研究思路。

实验设置、数据、评估方式、结论

  • 数据:预训练数据超50万小时(人类穿戴设备数据,无机器人数据);特定任务微调数据仅需约1小时。
  • 评估方式:对比GEN-0和从零开始训练的模型,评估任务成功率(Reliability)、任务完成时间(Speed)以及面对干扰时的恢复能力(Improvisation)。
  • 结论:GEN-1在多个任务(如折叠盒子、装手机)上达到99%的成功率(GEN-0为64%),速度提升约3倍,且能处理未在训练中见过的突发状况。

提到的同类工作

PaLM-E, RT-2, π0, π*0.6, GPT-3

和本文相关性最高的3个文献

  1. Scaling Laws in Robotics with GEN-0 (Generalist, 2025)<2025.11>
  2. π0: A Vision-Language-Action Flow Model for General Robot Control (Black et al., 2024)<2024>
  3. RT-2: Vision-Language-Action Models (Brohan et al., 2023)<2023>

我的

依然大数据,依然Scaling law。重点是50万小时的人类穿戴设备数据。怀疑是ego类型的。加上1小时的机器人数据后训练,就能完成相应任务了。

相关推荐
云烟成雨TD3 小时前
Spring AI Alibaba 1.x 系列【55】Interrupts 中断机制:静态中断源码分析
人工智能·后端·spring
ting94520003 小时前
Codex 适配国产信创环境完整部署指南(深度技术篇)
人工智能·架构
JEECG低代码平台3 小时前
JimuReport 积木报表 v2.3.4 版本发布,免费的可视化 AI 报表
人工智能·低代码·数据可视化·报表工具
a752066283 小时前
飞书机器人+OpenClaw(小龙虾)本地AI:从创建应用到配置AppID/Secret全流程
人工智能·机器人·飞书·openclaw·小龙虾 ai·本地 ai 智能体
SuniaWang3 小时前
AgentX 专栏-00前言:一个Java开发者的Agent实践之路
java·人工智能·spring boot·langchain·系统架构
koharu1233 小时前
PointRCNN 精解:从原始点云到三维框的两阶段检测
人工智能·深度学习·目标检测·3d·三维点云
aneasystone本尊3 小时前
把小龙虾装进口袋:iOS / Android Node 配对
人工智能
梦想的初衷~3 小时前
claude code、codex双AI协同高水平论文撰写与质量校准:数据分析→论文初稿→交叉审稿全流程
人工智能·生物信息·实战教程·临床医学·claude code·codex cli·认知颠覆
@蔓蔓喜欢你3 小时前
GraphQL 入门:API 开发的新范式
人工智能·ai