论文阅读笔记:The Bitter Lesson (苦涩的教训)
作者 :Rich Sutton (强化学习之父)
时间 :2019年3月13日
关键词:#AI哲学 #计算算力 #通用方法 #具身智能 #搜索与学习
1. 核心论点 (The Core Thesis)
"AI 历史上的最大教训是:利用大规模算力的通用方法(General Methods),最终总是胜过利用人类领域知识(Human Knowledge)的特定方法。"
- 为什么"苦涩"?
- 因为它打击了研究者的自尊心。我们总倾向于认为通过通过巧妙的设计、将被我们理解的"知识"植入系统是进步的关键。
- 然而历史证明,这些基于人类理解的特定设计(Feature Engineering, Heuristics),在长期来看往往不仅无效,反而会阻碍系统的进一步扩展。
- 最终的胜利者往往是那些我们认为"简单粗暴"的方法(如搜索和学习),只要算力跟得上。
2. 核心逻辑推演 (The Logic)
A. 算力的指数增长 (Moore's Law)
- 背景:大多数AI研究是在算力恒定的假设下进行的(短期视角),这时候利用人类知识确实能带来立竿见影的效果。
- 现实:算力成本呈指数级下降。在较长的时间跨度下(超过一个典型的PhD项目周期),算力会变得极其充裕。
- 结论 :长期来看,唯一起决定性作用的因素是对算力的利用率(Leveraging of computation)。
B. 人类知识的陷阱 (The Trap of Human Knowledge)
- 短期诱惑:植入人类知识(如手工设计的特征、规则)能在早期快速提升性能,且让研究者感到满足(觉得自己理解了问题本质)。
- 长期瓶颈 :
- 人类知识是极其复杂且不规则的,难以完美编码。
- 随着算力提升,硬编码的知识无法随之扩展(Scale),反而成为了系统性能的上限(Ceiling)。
- 它让系统变得复杂,难以应用通用的计算优化。
C. 两个能随算力无限扩展的通用方法 (The Two Scalable Methods)
- 搜索 (Search):如棋类中的蒙特卡洛树搜索(MCTS)。
- 学习 (Learning):如深度神经网络、强化学习。
- 共同点:它们都能随着算力的增加而线性或指数级地提升性能,不需要人类介入调整。
3. 历史案例复盘 (Case Studies)
Sutton 列举了四个领域的演变来佐证他的观点,这对具身智能同样有启示:
- 国际象棋 (Chess) :
- 人类方法:利用人类大师对棋局结构的理解。
- 胜者:Deep Blue (1997)。基于大规模深层搜索(Massive Search)。当时被传统派鄙视,认为"只是暴力计算,不是智能",但它赢了。
- 围棋 (Go) :
- 人类方法:设计复杂的局面评估函数。
- 胜者:AlphaGo。延迟了20年,但同样依靠搜索 + 自博弈学习(Self-play Learning)。初始版本还用了人类棋谱,但后来 AlphaZero 完全抛弃人类知识,更强。
- 语音识别 (Speech Recognition) :
- 人类方法:基于语音学、音素、声道模型。
- 胜者:70年代的统计方法 (HMMs) -> 现在的深度学习 (Deep Learning)。
- 计算机视觉 (Computer Vision) :
- 人类方法:SIFT, 边缘检测, 广义圆柱体模型。
- 胜者:CNN/ViT。只保留了卷积/不变性等极少先验,依靠大数据+大算力。
4. 深度思考:对具身智能 (Embodied AI) 的启示
具身智能方向的研究,这篇文章值得反复咀嚼,因为机器人领域目前正处于"苦涩教训"发生的前夜或初期。
A. 对抗"构建思维"的诱惑
- 现状 :在机器人领域,我们依然大量依赖 Explicit Modeling。例如:
- 基于解析解的运动学/动力学模型 (Analytical Kinematics/Dynamics)。
- 基于几何特征的抓取检测 (Grasping heuristics)。
- SLAM 中人为定义的 Landmark 或 Feature。
- 人为设计的 Reward Function(Reward Engineering)。
- Sutton的警告 :不要试图将"我们认为我们是如何思考的"构建到机器人里。比如,不要硬编码"杯子"、"桌子"、"物体"的概念。世界是无限复杂的,我们简化的模型永远是拙劣的近似。
- 未来方向 :应该构建能够发现这些概念的"元方法"(Meta-methods)。
B. 具身智能中的"搜索"与"学习"
- Search :在具身智能中,Motion Planning (RRT*, PRM) 本质是搜索,但传统的规划依赖准确模型。未来的趋势可能是 Learned Search 或 Model-Based RL (如Dreamer),在Latent Space里进行大规模搜索。
- Learning :从 End-to-End Visuomotor Policy (Pixels to Torques) 的兴起可以看到端倪。
- 与其设计一个复杂的 Pipeline (Perception -> State Estimation -> Planning -> Control),不如直接利用大规模数据(如RT-1, RT-2, Octo)去学习。
C. 具身智能的特殊性 (Critical Thinking)
Sutton 的文章主要基于信息处理(Information Processing)领域。具身智能有其特殊性,需要辩证看待:
- 数据瓶颈 (Data Scarcity) :与围棋(可以无限自博弈)不同,物理世界的数据采集昂贵且危险。
- 应对 :这正是为什么 Sim-to-Real 和 World Models 如此重要。仿真允许我们在虚拟世界利用"摩尔定律"产生无限数据,然后迁移到现实。
- 硬件摩尔定律的缺失 :机器人的本体(电机、减速器)并不遵循摩尔定律。
- 观点 :虽然硬件不指数进化,但控制硬件的智能(大脑)可以。更好的控制策略可以让廉价硬件发挥超常性能(如由软件定义的柔性控制)。
D. 研究建议
根据这篇文章,在选题和做研究时可以参考:
- Scale First:思考你的方法是否能随着算力和数据的增加而自动变强?如果你的方法依赖大量手工调参或特定假设,它可能没有未来。
- 减少 Inductive Bias:虽然少量 Bias (如CNN的平移不变性) 有用,但过多的物理约束可能会在数据量上来后限制模型上限。
- 关注 General Purpose Architectures:如 Transformer / Diffusion 在 Robot Learning 中的应用,而不是设计针对某种特定任务(如插孔、叠衣服)的专用网络结构。
5. 金句摘录 (用于论文写作或Presentation)
- "The biggest lesson... is that general methods that leverage computation are ultimately the most effective, and by a large margin." (最大的教训是...利用计算的通用方法最终是最有效的,且优势巨大。)
- "We have to learn the bitter lesson that building in how we think we think does not work in the long run." (我们必须学会这个苦涩的教训:从长远来看,构建"我们认为我们是如何思考的"是行不通的。)
- "We want AI agents that can discover like we can, not which contain what we have discovered." (我们需要的是能像我们一样去发现 的AI,而不是包含我们已经发现的东西的AI。)
总结:Sutton 实际上是在倡导一种**"极简主义的算法设计 + 极大主义的算力投入"**。作为具身智能研究者,我们的任务是设计那个"能够容纳海量计算和数据"的容器(算法),而不是去设计数据本身。