在当前具身智能(Embodied Intelligence)的发展浪潮中,"模仿学习"(Imitation Learning)无疑是主流范式------通过大量人类示范数据(如遥操作轨迹),训练机器人复现开门、抓取、装配等行为。Figure、Tesla Optimus、Mobile ALOHA 等系统都依赖这一路径快速获得基础能力。
然而,模仿只是起点,而非终点 。当面对从未见过的工具、非标准物体或突发障碍时,仅靠模仿的机器人往往束手无策。要实现通用具身智能,我们必须推动其技能从"复制"走向"创造"------即在理解物理规律、任务目标与自身能力的基础上,自主生成新颖、有效、适应性强的动作策略 。
本文将探讨:具身智能如何完成从模仿到创造的跃迁?其技能演化经历了哪些关键阶段?又有哪些前沿方法正在铺就这条路径?

一、模仿:高效但脆弱的起点
模仿学习的优势显而易见:
- 样本效率高:相比强化学习动辄百万次试错,人类示范可直接提供高质量策略;
- 行为自然:复现人类动作更符合人机协作预期;
- 工程落地快:已有大量遥操作数据集(如DROID、BridgeData)支撑训练。
但其局限同样突出:
- 缺乏泛化性:面对新物体(如异形水杯)或新场景(如倾斜桌面),策略容易失效;
- 无法处理失败:若示范中未包含错误恢复策略,机器人遇挫即停;
- 无目标理解:它知道"怎么做",但不知道"为什么这么做"。
这就像一个只会照着菜谱做菜的学徒------一旦缺了某种调料,就不知如何替代。

二、技能演化的三阶段路径
要突破模仿的天花板,具身智能的技能发展需经历三个递进阶段:
阶段1:感知增强的模仿(Perception-Augmented Imitation)
在原始动作轨迹基础上,引入多模态感知(视觉、力觉、语言)进行条件化。例如:
- 根据物体材质调整抓力;
- 根据指令"轻一点"放慢动作速度;
- 利用视觉反馈实时校正手部位置。
代表工作如 RT-1 、OpenVLA ,已能实现跨物体、跨视角的稳健模仿。
阶段2:组合与重组(Composition & Reuse)
将复杂任务分解为可复用的"技能原语"(Skills Primitives),如"抓""推""旋转""放置"。系统通过高层规划器(如LLM)动态组合这些原语,应对新任务。
例如,斯坦福的 SayCan 框架中,大语言模型解析"把散落的笔放进笔筒",并调用预训练的"拾取小物体"和"精准放置"技能模块,无需重新训练。
这种"乐高式"构建极大提升了灵活性,是迈向创造的关键一步。
阶段3:自主创造与优化(Autonomous Creation)
在无示范或部分示范情况下,智能体基于任务目标、环境状态和物理常识,从零生成全新动作序列 。这通常结合:
- 强化学习:在仿真或真实环境中试错优化;
- 世界模型:预测动作后果,支持虚拟探索;
- 因果推理:理解"推A会导致B移动"的机制,避免无效尝试。
例如,ETH Zurich 的四足机器人能在未见过的碎石路上,自主发明一种混合步态------既非人类示范,也非预设模式,而是环境交互中涌现的最优解。

三、驱动"创造"的核心技术
要实现技能的创造性演化,以下技术正成为关键支柱:
1. 具身基础模型(Embodied Foundation Models)
如 OpenVLA、VIMA 等,通过大规模多任务预训练,学习通用的"感知-语言-动作"映射。它们不仅能模仿,还能根据新指令内插或外推 出合理行为,展现出初步创造力。
2. 分层强化学习 + 技能发现
通过选项框架(Options Framework)或变分技能提取(如DIAYN、VALOR),让智能体自动发现环境中可重复利用的子技能,并在高层策略中灵活调用。
3. 人在回路的进化学习
当机器人提出一个新方案(如用扫把推箱子代替手搬),人类可给予反馈:"可行"或"太危险"。系统据此更新策略库,形成"创造---评估---优化"的闭环。
4. 物理常识注入
通过可微分物理引擎或符号规则,约束生成的动作必须符合力学规律。例如,禁止"单手托起100kg重物"这类违反常识的方案,提升创造的可行性。
四、典型案例:创造正在发生
- Google 的 RT-2 + 推理扩展:在未训练过的场景中,机器人能"用鞋拔子代替镊子夹小物件"------这是一种工具替代的创造性行为。
- MIT 的 "Creative Tool-Use" 项目:机器人面对新任务(如清理洒落的豆子),会自主选择附近最合适的工具(书本、杯子、纸巾),并设计使用方式。
- 波士顿动力 Atlas 的新动作:最新视频中,Atlas 能在跳跃后根据落地姿态动态调整平衡策略,这些动作并非预先编程,而是在线优化生成。
这些案例表明:创造不是玄学,而是可工程化的智能涌现 。

五、挑战与未来展望
通往创造性具身智能的道路仍不平坦:
- 安全边界难界定:创造性行为可能带来不可预知风险;
- 评估标准缺失:如何量化"创造性"?目前尚无共识;
- 计算成本高昂:实时生成新策略对边缘设备压力巨大。
未来方向可能包括:
- 构建"安全创意空间":在物理与伦理约束下允许有限创新;
- 发展"技能DNA"概念:将技能编码为可遗传、可变异的单元;
- 推动"人机共创"范式:人类提供意图,机器提供实现方案。
结语
从婴儿模仿父母挥手,到工程师发明机械臂;从鹦鹉学舌,到诗人创作新词------模仿是学习的入口,创造才是智能的出口 。
具身智能的终极目标,不是成为人类的影子,而是成为能与我们并肩解决问题的伙伴。当机器人不再问"你以前是怎么做的?",而是说"我有个新办法,要不要试试?"------那一刻,技能的演化才真正抵达创造的彼岸。