【论文阅读】GEN-0: Embodied Foundation Models That Scale with Physical Interaction

传说故事2026-05-22 16:25

快速了解部分

基础信息（英文）：

题目: GEN-0: Embodied Foundation Models That Scale with Physical Interaction
时间: 2025.11
机构: Generalist AI
3个英文关键词: Embodied Foundation Models, Scaling Laws, Harmonic Reasoning

1句话通俗总结本文干了什么事情

本文提出了GEN-0，一种通过海量真实物理交互数据进行预训练的具身基础模型，旨在建立机器人领域的"扩展定律"，实现机器人智能随数据和算力增加而可预测地提升。

研究痛点：现有研究不足 / 要解决的具体问题

缺乏扩展定律：机器人领域缺乏类似LLM的Scaling Laws，无法预测智能如何随数据/算力增长。
数据瓶颈：以往机器人模型受限于数据量不足，且难以处理海量数据。
小模型僵化：研究发现小参数模型（如1B）在面对海量数据时会出现"骨化"现象，无法继续学习。

核心方法：关键技术、模型或研究设计（简要）

海量真实数据：构建了包含27万+小时真实世界操作数据的训练集。
相位推理：设计了一种能让模型在实时物理世界中边思考边行动的训练机制。
大模型架构：验证了模型需要达到一定规模（7B+参数）才能有效吸收物理交互数据。

深入了解部分

作者想要表达什么

作者试图证明机器人智能也可以像大语言模型一样，通过"暴力美学"（Scaling Laws）实现突破。只要拥有足够多的真实物理交互数据和足够大的模型规模（7B以上），机器人就能习得通用的物理常识和技能，而不再受限于特定任务的编程。

相比前人创新在哪里

首次观测到"骨化"相变：在机器人领域首次观察到小模型在大数据下"学不动"的现象，证明了大模型（7B+）的必要性。
确立机器人扩展定律：量化证明了预训练数据量、模型大小与下游任务成功率之间的幂律关系。
真实世界数据规模：使用了远超以往规模的真实世界（而非模拟）操作数据。

解决方法/算法的通俗解释

GEN-0就像是给机器人装了一个"大脑"，这个大脑不是针对某一个特定动作训练的，而是看过了几十万小时的人类操作视频和数据。

相位推理：它能像人一样，在动作进行时同步思考下一步怎么动，而不是像以前那样必须停下来思考再行动。
扩展定律：只要给它看更多的视频（数据）和把大脑造得更大（参数），它的操作能力就会稳定地变强。

解决方法的具体做法

数据收集：建立全球网络，收集了270,000小时的真实世界操作数据（包括家庭、仓库等），并以每周10,000小时的速度增长。
模型训练 ：
- 使用不同规模（1B, 6B, 7B）的模型进行对比。
- 采用"相位推理"训练方式，处理感知和行动的异步流。
迁移学习：在大规模预训练后，仅用少量特定任务数据（Post-training）进行微调，即可在新任务上达到高成功率（99%）。

基于前人的哪些方法

Vision-Language Models：基于现有的视觉语言预训练模型基础。
PaLM-E：参考了具身多模态语言模型的设计思路。
LLM Scaling Laws：借鉴了Kaplan等人关于神经语言模型扩展定律的理论。

实验设置、数据、评估方式、结论

数据：270,000+小时真实操作数据。测试了16组不同任务（如叠衣服、装相机、分拣乐高）。
评估：使用"下一动作预测误差"和"真实机器人任务成功率"作为指标。
结论：
- 1B模型在数据过载时出现骨化，性能停滞。
- 7B+模型性能随数据增加持续提升。
- 预训练数据越多，下游任务所需微调数据越少，成功率越高（最高达99%）。

提到的同类工作

PaLM-E：具身多模态语言模型。
Figure 01 / Helix：视觉-语言-行动模型。
Droid：机器人数据集或相关技术。

和本文相关性最高的3个文献

PaLM-E: An Embodied Multimodal Language Model (Driess et al., 2023)
Scaling Laws for Neural Language Models (Kaplan and McCandlish et al., 2021)
Real-Time Execution of Action Chunking Flow Policies (Black et al., 2025)

我的

重点就是Scaling law验证。数据越多越好，模型7B至少。

上一篇：主题10：实时性——硬实时与软实时

下一篇：不做 A/B 测试的 prompt 优化都是在赌运气：生产级 LLM A/B 实验完整方案

热门推荐

01GitHub 镜像站点 022026年7月AI圈大地震：GPT-5.6被政府限制、Claude入驻Slack、Anthropic自研芯片 03如何新建文件夹？电脑新建文件夹的4种方法 04国内可直接用、免费额度/永久免费的大模型API清单（含 SiliconFlow、火山、阿里、智谱、百度、Kimi、DeepSeek、DMXAPI 等）05AI科技热点日报 | 2026年07月01日 06幻兽帕鲁 - 服务器管理员权限与 GM 命令完全指南 07AI 编程 IDE 全景解析 2026：Agent 全面接管开发链路 08微信历史版本含下载地址（ Windows PC | 安卓 | MAC ）及设置微信不更新 09【解构】DeepSeek V4 发布：技术报告深度解读 + 横向对比六大开源模型，我们的判断是……102026 国产 AI 大模型横评：DeepSeek、通义千问、Kimi、文心一言、星火、豆包谁更能打？