论文阅读笔记：The Bitter Lesson (苦涩的教训)

作者：Rich Sutton (强化学习之父)
时间：2019年3月13日
关键词：#AI哲学 #计算算力 #通用方法 #具身智能 #搜索与学习

"AI 历史上的最大教训是：利用大规模算力的通用方法（General Methods），最终总是胜过利用人类领域知识（Human Knowledge）的特定方法。"

为什么"苦涩"？
- 因为它打击了研究者的自尊心。我们总倾向于认为通过通过巧妙的设计、将被我们理解的"知识"植入系统是进步的关键。
- 然而历史证明，这些基于人类理解的特定设计（Feature Engineering, Heuristics），在长期来看往往不仅无效，反而会阻碍系统的进一步扩展。
- 最终的胜利者往往是那些我们认为"简单粗暴"的方法（如搜索和学习），只要算力跟得上。

短期诱惑：植入人类知识（如手工设计的特征、规则）能在早期快速提升性能，且让研究者感到满足（觉得自己理解了问题本质）。
长期瓶颈 ：
1. 人类知识是极其复杂且不规则的，难以完美编码。
2. 随着算力提升，硬编码的知识无法随之扩展（Scale），反而成为了系统性能的上限（Ceiling）。
3. 它让系统变得复杂，难以应用通用的计算优化。

Sutton 列举了四个领域的演变来佐证他的观点，这对具身智能同样有启示：

国际象棋 (Chess) ：
- 人类方法：利用人类大师对棋局结构的理解。
- 胜者：Deep Blue (1997)。基于大规模深层搜索（Massive Search）。当时被传统派鄙视，认为"只是暴力计算，不是智能"，但它赢了。
围棋 (Go) ：
- 人类方法：设计复杂的局面评估函数。
- 胜者：AlphaGo。延迟了20年，但同样依靠搜索 + 自博弈学习（Self-play Learning）。初始版本还用了人类棋谱，但后来 AlphaZero 完全抛弃人类知识，更强。
语音识别 (Speech Recognition) ：
- 人类方法：基于语音学、音素、声道模型。
- 胜者：70年代的统计方法 (HMMs) -> 现在的深度学习 (Deep Learning)。
计算机视觉 (Computer Vision) ：
- 人类方法：SIFT, 边缘检测, 广义圆柱体模型。
- 胜者：CNN/ViT。只保留了卷积/不变性等极少先验，依靠大数据+大算力。

具身智能方向的研究，这篇文章值得反复咀嚼，因为机器人领域目前正处于"苦涩教训"发生的前夜或初期。

现状：在机器人领域，我们依然大量依赖 Explicit Modeling。例如：
- 基于解析解的运动学/动力学模型 (Analytical Kinematics/Dynamics)。
- 基于几何特征的抓取检测 (Grasping heuristics)。
- SLAM 中人为定义的 Landmark 或 Feature。
- 人为设计的 Reward Function（Reward Engineering）。
Sutton的警告 ：不要试图将"我们认为我们是如何思考的"构建到机器人里。比如，不要硬编码"杯子"、"桌子"、"物体"的概念。世界是无限复杂的，我们简化的模型永远是拙劣的近似。
未来方向 ：应该构建能够发现这些概念的"元方法"（Meta-methods）。

Search ：在具身智能中，Motion Planning (RRT*, PRM) 本质是搜索，但传统的规划依赖准确模型。未来的趋势可能是 Learned Search 或 Model-Based RL (如Dreamer)，在Latent Space里进行大规模搜索。
Learning ：从 End-to-End Visuomotor Policy (Pixels to Torques) 的兴起可以看到端倪。
- 与其设计一个复杂的 Pipeline (Perception -> State Estimation -> Planning -> Control)，不如直接利用大规模数据（如RT-1, RT-2, Octo）去学习。

Sutton 的文章主要基于信息处理（Information Processing）领域。具身智能有其特殊性，需要辩证看待：

数据瓶颈 (Data Scarcity) ：与围棋（可以无限自博弈）不同，物理世界的数据采集昂贵且危险。
- 应对：这正是为什么 Sim-to-Real 和 World Models 如此重要。仿真允许我们在虚拟世界利用"摩尔定律"产生无限数据，然后迁移到现实。
硬件摩尔定律的缺失 ：机器人的本体（电机、减速器）并不遵循摩尔定律。
- 观点：虽然硬件不指数进化，但控制硬件的智能（大脑）可以。更好的控制策略可以让廉价硬件发挥超常性能（如由软件定义的柔性控制）。

根据这篇文章，在选题和做研究时可以参考：

Scale First：思考你的方法是否能随着算力和数据的增加而自动变强？如果你的方法依赖大量手工调参或特定假设，它可能没有未来。
减少 Inductive Bias：虽然少量 Bias (如CNN的平移不变性) 有用，但过多的物理约束可能会在数据量上来后限制模型上限。
关注 General Purpose Architectures：如 Transformer / Diffusion 在 Robot Learning 中的应用，而不是设计针对某种特定任务（如插孔、叠衣服）的专用网络结构。

"The biggest lesson... is that general methods that leverage computation are ultimately the most effective, and by a large margin." (最大的教训是...利用计算的通用方法最终是最有效的，且优势巨大。)
"We have to learn the bitter lesson that building in how we think we think does not work in the long run." (我们必须学会这个苦涩的教训：从长远来看，构建"我们认为我们是如何思考的"是行不通的。)
"We want AI agents that can discover like we can, not which contain what we have discovered." (我们需要的是能像我们一样去发现的AI，而不是包含我们已经发现的东西的AI。)

总结：Sutton 实际上是在倡导一种**"极简主义的算法设计 + 极大主义的算力投入"**。作为具身智能研究者，我们的任务是设计那个"能够容纳海量计算和数据"的容器（算法），而不是去设计数据本身。