【论文阅读】GEN-0: Embodied Foundation Models That Scale with Physical Interaction

快速了解部分

基础信息(英文):

  1. 题目: GEN-0: Embodied Foundation Models That Scale with Physical Interaction
  2. 时间: 2025.11
  3. 机构: Generalist AI
  4. 3个英文关键词: Embodied Foundation Models, Scaling Laws, Harmonic Reasoning

1句话通俗总结本文干了什么事情

本文提出了GEN-0,一种通过海量真实物理交互数据进行预训练的具身基础模型,旨在建立机器人领域的"扩展定律",实现机器人智能随数据和算力增加而可预测地提升。

研究痛点:现有研究不足 / 要解决的具体问题

  1. 缺乏扩展定律:机器人领域缺乏类似LLM的Scaling Laws,无法预测智能如何随数据/算力增长。
  2. 数据瓶颈:以往机器人模型受限于数据量不足,且难以处理海量数据。
  3. 小模型僵化:研究发现小参数模型(如1B)在面对海量数据时会出现"骨化"现象,无法继续学习。

核心方法:关键技术、模型或研究设计(简要)

  1. 海量真实数据:构建了包含27万+小时真实世界操作数据的训练集。
  2. 相位推理:设计了一种能让模型在实时物理世界中边思考边行动的训练机制。
  3. 大模型架构:验证了模型需要达到一定规模(7B+参数)才能有效吸收物理交互数据。

深入了解部分

作者想要表达什么

作者试图证明机器人智能也可以像大语言模型一样,通过"暴力美学"(Scaling Laws)实现突破。只要拥有足够多的真实物理交互数据和足够大的模型规模(7B以上),机器人就能习得通用的物理常识和技能,而不再受限于特定任务的编程。

相比前人创新在哪里

  1. 首次观测到"骨化"相变:在机器人领域首次观察到小模型在大数据下"学不动"的现象,证明了大模型(7B+)的必要性。
  2. 确立机器人扩展定律:量化证明了预训练数据量、模型大小与下游任务成功率之间的幂律关系。
  3. 真实世界数据规模:使用了远超以往规模的真实世界(而非模拟)操作数据。

解决方法/算法的通俗解释

GEN-0就像是给机器人装了一个"大脑",这个大脑不是针对某一个特定动作训练的,而是看过了几十万小时的人类操作视频和数据。

  • 相位推理:它能像人一样,在动作进行时同步思考下一步怎么动,而不是像以前那样必须停下来思考再行动。
  • 扩展定律:只要给它看更多的视频(数据)和把大脑造得更大(参数),它的操作能力就会稳定地变强。

解决方法的具体做法

  1. 数据收集:建立全球网络,收集了270,000小时的真实世界操作数据(包括家庭、仓库等),并以每周10,000小时的速度增长。
  2. 模型训练
    • 使用不同规模(1B, 6B, 7B)的模型进行对比。
    • 采用"相位推理"训练方式,处理感知和行动的异步流。
  3. 迁移学习:在大规模预训练后,仅用少量特定任务数据(Post-training)进行微调,即可在新任务上达到高成功率(99%)。

基于前人的哪些方法

  1. Vision-Language Models:基于现有的视觉语言预训练模型基础。
  2. PaLM-E:参考了具身多模态语言模型的设计思路。
  3. LLM Scaling Laws:借鉴了Kaplan等人关于神经语言模型扩展定律的理论。

实验设置、数据、评估方式、结论

  1. 数据:270,000+小时真实操作数据。测试了16组不同任务(如叠衣服、装相机、分拣乐高)。
  2. 评估:使用"下一动作预测误差"和"真实机器人任务成功率"作为指标。
  3. 结论
    • 1B模型在数据过载时出现骨化,性能停滞。
    • 7B+模型性能随数据增加持续提升。
    • 预训练数据越多,下游任务所需微调数据越少,成功率越高(最高达99%)。

提到的同类工作

  1. PaLM-E:具身多模态语言模型。
  2. Figure 01 / Helix:视觉-语言-行动模型。
  3. Droid:机器人数据集或相关技术。

和本文相关性最高的3个文献

  1. PaLM-E: An Embodied Multimodal Language Model (Driess et al., 2023)
  2. Scaling Laws for Neural Language Models (Kaplan and McCandlish et al., 2021)
  3. Real-Time Execution of Action Chunking Flow Policies (Black et al., 2025)

我的

重点就是Scaling law验证。数据越多越好,模型7B至少。

相关推荐
嗝o゚5 小时前
昇腾CANN ops-transformer 仓的 FlashAttention 算子:昇腾NPU上的注意力加速实现
人工智能·深度学习·transformer
35岁程序员的自救之路5 小时前
AiBBS - 面向下一个十年的AI + 云原生社区系统
人工智能·云原生
云烟成雨TD5 小时前
Spring AI Alibaba 1.x 系列【58】Spring AI Alibaba Builtin Nodes 模块介绍
java·人工智能·spring
skywalk81635 小时前
言律 Lite:无AI版架构设计
人工智能·编程
beyond阿亮5 小时前
Hermes Agent快速接入 QQ 完整教程|QQ聊天使用AI智能体
人工智能·windows·ai·openclaw·hermes agent
AI布道师-wang5 小时前
第 8 章:Agent——让模型学会自己干活
人工智能
hyunbar5 小时前
创建个人知识库(lamaIndex + ChromaDB + 本地开源模型)
人工智能
华为云开发者联盟5 小时前
基于华为云码道 + 高德地图MCP Server快速搭建行程规划助手
人工智能·华为云·软件开发·华为云码道
QuestLab5 小时前
华为云 CodeArts 代码智能体深度评测:国产 AI 编程助手,能打几分?
人工智能·华为云