机器人学习十年进化史——从强化学习到VLA的范式变迁

机器人学习在第一阶段的核心使命，是回答一个基础问题：端到端的数据驱动方法，在真实世界的机器人上到底能不能work？ 2015-2016年，DQN和AlphaGo的相继成功，证明了端到端方法的巨大潜力。然而，面对真实机器人那高维、连续的动作空间，以及24小时不间断运行的工程挑战，当时并没有现成的答案。

为攻克这一难题，Ted Xiao所在的Google Brain机器人团队开创性地将机械臂与针对性算法（如QT-Opt）结合，并系统性地解决了仿真到现实的迁移问题。然而，验证了可行性之后，一个更深层的困境浮出水面：强化学习的收益正在递减。 分布式系统的运维噩梦、数据因代码变更而报废，都昭示着"RL is Painful"。与此同时，被视为"玩具"的行为克隆（BC）路线则长期卡在约70%的准确率瓶颈。

面对这一困境，团队做出了一个在当时极其反主流的决定：进入"Code Yellowish"状态，暂停所有论文发表，花一年半时间雇佣专业操作员远程操控，专门收集高质量的人类示范数据，最终积累了约87,000条轨迹。这次"孤注一掷"最终带来了关键顿悟：大规模模仿学习不仅能work，而且正是突破瓶颈的"配方"。 这一认知奠定了范式迁移的基础：从在线强化学习转向大规模离线模仿学习。

1、核心技术方法：从工具借用 to 原生融合

随着研究范式的转变，技术路径也经历了从"借用"外部模型到"原生"融合的演化。

早期的多路径探索 ：在范式彻底转向之前，团队进行了多方向尝试，如用于大规模多任务学习的BC-Z，能够一网多技能、探索神经网络记忆上限的MT-OPT，以及通过"玩"来产生数据的Learning from Play。
基础模型时代的"握手"：这一阶段是以大型语言模型（LLM）和视觉语言模型（VLM）的爆发为起点的。
- SayCan (LLM as Planner)：首个标志性工作，利用LLM生成高层任务规划，同时由一个"价值函数"评估每个子步骤在物理世界中的可行性。两者结合，产出"既合理又可执行"的计划，实现了语言模型与机器人的首次"握手"。
- RT-1 (Transformer-based Policy)：将机器人策略本身也构建为一个Transformer，把语言指令和图像观测全部token化，输出离散化的动作。在8.7万条轨迹上训练后，其性能超越了所有基线。
- RT-2 (VLA, VLM as Backbone) ：实现了最激进的跳跃------不借用VLM做规划，而是直接将VLM作为机器人的策略骨架。它将动作预测任务重构为视觉问答，使模型涌现出前所未有的推理和泛化能力。
规模化时代的"涌现"：进入Scaling时代，技术不再是从零造轮子，而是基于一个强大的基座模型进行各个维度的加码。
- Gemini Robotics ER (Embodied Reasoning)：洞察到VLM在物理常识上的短板，专门为Gemini模型补齐了3D物体检测、抓取角度预测等具身推理能力，再"喂"给下游策略，实现能力跃升。
- Gemini Robotics 1.5 (Reasoning + Motion Transfer) ：引入"推理"机制，让机器人在执行前先用自然语言"想一想"，将长时域任务分解。更关键的是动作迁移能力，一个神经网络可将运动经验零样本迁移到运动学结构完全不同的平台上。

2、关键项目与里程碑演进

文章提到的项目并非孤立的算法创新，而是构成了一条清晰的演进脉络：

时代划分	代表性项目	核心思路	关键意义
存在性证明时代	QT-Opt, BC-Z	端到端强化学习、多任务模仿学习	证明可行性的早期探索
基础模型时代	SayCan, RT-1, RT-2	用大模型做规划、Transformer策略、VLA原生策略	终结了"BC只能到70%"的旧信念，找到规模化配方
规模化时代	Gemini Robotics ER/1.5, Pi 0.6	增强VLM的具身推理、引入"思考"机制、后训练	突破黑箱，强化物理常识推理，实现跨本体零样本迁移

此外，评估体系也变得更加多元化，出现了基于仿真的Sim-to-Real评估、分布式跨机构评估（如RoboArena）等新方法。数据方面，人类第一视角的自我中心数据（如GAI的五十万小时交互数据）成为"当红炸子鸡"，被视为突破数据瓶颈的关键。

3、总结与展望：迈向通用之路

Ted Xiao对具身智能领域进行了深刻反思：

发展范式演变 ：从强化学习到模仿学习，再到VLA，根本驱动力都是 "数据"规模化。旧瓶颈被打破，新瓶颈出现，推动时代更迭。
重要发展方向 ：Ted看好两条路径------①视频动作模型 ，使用生成式模型来理解物理世界；②第一人称人类数据，大规模采集并利用人类操作的一手数据。
原理类比与整合 ：文章提出了一个深刻的隐喻：操控（Manipulation）像大脑皮层 ，需要示例和监督；运动控制（Locomotion）像小脑/脊髓，是反射性的。如何将大脑（操控）、小脑（运动）与长时域推理能力三者融合，是当前最核心的开放问题。
"ChatGPT时刻"尚未到来：Ted认为，机器人领域的"ChatGPT时刻"在产品层面仍需时间，但所需的技术拼图正以前所未有的速度变得完整。它更像一场多维度的赛跑，而非等待一个单一突破。