机器学习发展历程 —— 从 “规则硬编” 到 “自主学习”

机器学习发展历程 ------ 从 "规则硬编" 到 "自主学习"

快速导读

难度：入门
位置：第 5 篇
建议先读：第 4 篇《归纳偏好 ------ 机器学习的 "择偶标准"》
读完可接：第 6 篇《机器学习的实际应用 ------ 不止 "猜西瓜"，生活处处是场景》

读法建议：先把这篇当成上一节的延伸来看，遇到公式不顺时回头翻《归纳偏好 ------ 机器学习的 "择偶标准"》对应小节；读完直接接《机器学习的实际应用 ------ 不止 "猜西瓜"，生活处处是场景》，会更连贯。

文章目录

[机器学习发展历程 ------ 从 "规则硬编" 到 "自主学习"](#机器学习发展历程 —— 从 “规则硬编” 到 “自主学习”)
- 快速导读
- [一、早期探索：推理期与知识期（1950s-1970s）------ 机器靠 "死记硬背" 和 "按规则推理"](#一、早期探索：推理期与知识期（1950s-1970s）—— 机器靠 “死记硬背” 和 “按规则推理”)
- - [1. 推理期（1950s-1960s）：让机器会 "演绎推理"](#1. 推理期（1950s-1960s）：让机器会 “演绎推理”)
  - [2. 知识期（1970s-1980s）：让机器 "记住人类知识"](#2. 知识期（1970s-1980s）：让机器 “记住人类知识”)
- [二、第一次浪潮：连接主义崛起与符号学习兴盛（1980s）------ 机器开始 "自主学规则"](#二、第一次浪潮：连接主义崛起与符号学习兴盛（1980s）—— 机器开始 “自主学规则”)
- - [1. 连接主义：模拟人脑神经元（神经网络雏形）](#1. 连接主义：模拟人脑神经元（神经网络雏形）)
  - [2. 符号学习：让机器学 "显式规则"](#2. 符号学习：让机器学 “显式规则”)
- [三、第二次浪潮：统计学习主导（1990s-2010s）------ 用 "概率" 让学习更靠谱](#三、第二次浪潮：统计学习主导（1990s-2010s）—— 用 “概率” 让学习更靠谱)
- - [1. 核心思想：基于数据分布建模](#1. 核心思想：基于数据分布建模)
  - [2. 代表算法与事件：](#2. 代表算法与事件：)
  - [3. 西瓜例子：](#3. 西瓜例子：)
  - [4. 归纳偏好：](#4. 归纳偏好：)
- [四、第三次浪潮：深度学习爆发（2010s - 至今）------ 多层网络的 "王者归来"](#四、第三次浪潮：深度学习爆发（2010s - 至今）—— 多层网络的 “王者归来”)
- - [1. 核心思想：多层网络自动提取特征](#1. 核心思想：多层网络自动提取特征)
  - [2. 代表事件与算法：](#2. 代表事件与算法：)
  - [3. 西瓜例子：](#3. 西瓜例子：)
  - [4. 归纳偏好：](#4. 归纳偏好：)
- 五、发展历程的核心启示：三次范式转移
- - [1. 从 "依赖人类知识" 到 "自主学习知识"](#1. 从 “依赖人类知识” 到 “自主学习知识”)
  - [2. 从 "追求可解释性" 到 "平衡性能与可解释性"](#2. 从 “追求可解释性” 到 “平衡性能与可解释性”)
  - [3. 从 "处理简单数据" 到 "处理复杂数据"](#3. 从 “处理简单数据” 到 “处理复杂数据”)
- 六、小练习：对应算法与发展阶段
- [七、小结：历程是 "问题驱动" 的进化](#七、小结：历程是 “问题驱动” 的进化)

一、早期探索：推理期与知识期（1950s-1970s）------ 机器靠 "死记硬背" 和 "按规则推理"

这是人工智能和机器学习的萌芽阶段，核心思路是 "让机器模仿人类的逻辑推理"，还没有真正的 "自主学习"。

1. 推理期（1950s-1960s）：让机器会 "演绎推理"

核心思想：机器不需要学，只要给它一套逻辑规则和公理，它就能推导出结论 ------ 就像几何证明，已知公理，推导出定理。
代表事件 ：
- 1952 年，阿瑟・萨缪尔开发了 "跳棋程序"，这是早期机器学习的雏形 ------ 程序能通过分析大量棋局，记住 "好棋" 和 "坏棋"，但本质是 "机械学习"（死记硬背）。
- 1956 年，达特茅斯会议提出 "人工智能" 概念，标志着学科诞生；之后出现了 "逻辑理论家" 程序，能证明《数学原理》中的定理。
西瓜例子：这个阶段的机器判断好瓜，需要人类写死规则："如果色泽 = 青绿 AND 根蒂 = 蜷缩 AND 敲声 = 浊响 → 好瓜"，机器只能按这个规则执行，不能自己总结新规则。
归纳偏好：完全依赖人类设定的显式规则，没有机器自主的偏好。

2. 知识期（1970s-1980s）：让机器 "记住人类知识"

背景：推理期的局限很明显 ------ 没有规则就无法工作，而复杂任务的规则太多，人类写不完。于是研究者想到：让机器 "记住" 人类专家的知识，形成 "专家系统"。
核心思想：把领域专家的知识（比如医生的诊断经验、农民挑瓜的技巧）整理成规则库，机器用这些知识解决问题。
代表事件 ：
- 1965 年，世界上第一个专家系统 DENDRAL 诞生，能帮助化学家分析分子结构。
- 之后出现了 MYCIN 医疗诊断系统，能根据症状判断细菌感染。
西瓜例子：人类把所有挑瓜技巧整理成 100 条规则，机器根据这些规则匹配新瓜，但如果遇到规则里没有的情况（比如 "根蒂稍蜷 + 敲声沉闷"），就无法判断。
瓶颈："知识工程瓶颈"------ 人类知识很难完整、准确地整理成规则库，而且规则库无法适应新情况（比如新的西瓜品种）。
归纳偏好：偏好人类专家的显式知识，规则越详细越好。

二、第一次浪潮：连接主义崛起与符号学习兴盛（1980s）------ 机器开始 "自主学规则"

知识期的瓶颈让研究者意识到：机器必须自己从数据中学知识，而不是依赖人类。这一时期出现了两大流派，共同开启了 "机器学习" 作为独立学科的时代。

1. 连接主义：模拟人脑神经元（神经网络雏形）

核心思想：模仿人脑神经元的连接方式，用 "多层网络" 自动学习特征和规则，不用人类手动设计。
代表事件 ：
- 1958 年，感知机（最简单的神经网络）诞生，能学习简单的线性分类规则（比如 "根蒂蜷缩 = 1，硬挺 = 0"，用线性函数判断好瓜）。
- 1986 年，BP 算法（误差逆传播）被重新发明，解决了多层神经网络的训练问题，让深层网络能学习复杂规则。
西瓜例子：把西瓜的属性（色泽、根蒂等）转换成数字，输入神经网络，网络通过 BP 算法调整参数，自动学到 "根蒂蜷缩 + 色泽青绿 → 好瓜" 的规则，不用人类干预。
归纳偏好：偏好通过多层网络拟合数据，隐含 "相似输入对应相似输出" 的偏好。
局限：当时计算能力有限，深层网络训练困难；而且被指出 "只能处理线性问题"，连 "异或" 这样简单的非线性问题都解决不了，后来逐渐沉寂。

2. 符号学习：让机器学 "显式规则"

核心思想：从数据中总结出人类能理解的符号规则（比如 "IF 根蒂蜷缩 THEN 好瓜"），代表算法有决策树、归纳逻辑程序设计（ILP）。
代表事件 ：
- 1986 年，ID3 决策树算法诞生，用信息增益选择属性，能自动生成判断规则。
- 1993 年，C4.5 算法出现，解决了 ID3 的缺陷，成为当时最常用的符号学习算法。
西瓜例子：ID3 算法从西瓜数据中自动生成决策树：先按 "纹理" 划分，再按 "根蒂" 划分，最终生成可解释的规则链，人类能清楚看到机器的判断逻辑。
归纳偏好：偏好 "信息增益大的属性优先划分"（决策树），本质是 "追求简单、可解释的规则"（奥卡姆剃刀）。
优势与局限：规则可解释性强，但面对复杂数据（比如连续属性、高维数据）时，规则会变得冗长，泛化能力下降。

三、第二次浪潮：统计学习主导（1990s-2010s）------ 用 "概率" 让学习更靠谱

符号学习和早期连接主义的局限，让研究者转向 "统计"------ 用概率模型描述数据规律，不追求显式规则，而是追求泛化能力。这一时期，统计学习成为主流，支持向量机（SVM）更是成为 "明星算法"。

1. 核心思想：基于数据分布建模

不再纠结 "显式规则"，而是假设数据服从某种概率分布，通过数据估计分布参数，再用分布预测新样本。
核心优势：能处理高维数据、噪声数据，泛化能力更强。

2. 代表算法与事件：

支持向量机（SVM）：1995 年正式提出，用 "最大间隔" 划分数据，能通过核函数处理非线性问题（比如西瓜的非线性分类），在文本分类等任务中表现惊艳。
朴素贝叶斯：基于贝叶斯定理和属性独立性假设，简单高效，适合大规模数据。
统计学习理论：为算法提供了坚实的理论支撑，解释了 "为什么模型能泛化"，解决了之前算法 "只知其然不知其所以然" 的问题。

3. 西瓜例子：

SVM 通过核函数把西瓜的 "色泽、根蒂、密度" 等属性映射到高维空间，找到最大间隔超平面，划分好瓜和坏瓜，不用手动设计特征，也不用生成显式规则。
朴素贝叶斯计算 "根蒂蜷缩""色泽青绿" 等属性对 "好瓜" 的后验概率，选择概率最大的类别，偏好 "属性独立" 的假设。

4. 归纳偏好：

SVM 偏好 "最大间隔超平面"，认为这样的模型泛化能力最强；
朴素贝叶斯偏好 "属性条件独立"，追求模型简单、计算高效；
整体偏好 "有理论支撑的泛化能力"，不再执着于规则可解释性。

四、第三次浪潮：深度学习爆发（2010s - 至今）------ 多层网络的 "王者归来"

统计学习虽然强大，但面对海量数据（比如图像、语音）时，特征工程依然繁琐 ------ 需要人类手动设计特征（比如图像的边缘、纹理）。而深度学习的出现，彻底解决了这个问题：自动学习多层特征。

1. 核心思想：多层网络自动提取特征

深度学习本质是 "深层神经网络"，通过几十甚至上百层的网络，自动从原始数据中提取 "低维特征→高维特征"（比如图像：像素→边缘→纹理→物体）。
爆发原因：大数据时代的海量数据（有足够数据训练深层网络）+ 计算能力提升（GPU 让深层网络训练提速千倍）。

2. 代表事件与算法：

2012 年，AlexNet 在 ImageNet 图像分类竞赛中夺冠，错误率远低于传统算法，标志着深度学习的崛起。
之后出现了 CNN（卷积神经网络）、RNN（循环神经网络）、Transformer 等模型，在图像、语音、自然语言处理等领域垄断性领先。

3. 西瓜例子：

用 CNN 处理西瓜的图像数据：输入西瓜的照片，网络第一层提取 "颜色梯度"（低维特征），第二层提取 "根蒂形状、色泽分布"（中维特征），第三层提取 "好瓜的整体特征"（高维特征），最终直接输出 "好瓜 / 坏瓜" 的判断，全程不用人类设计特征。
若用深度学习处理西瓜的属性数据（密度、含糖率等），网络能自动学习属性间的复杂非线性关系，比传统统计学习更精准。

4. 归纳偏好：

偏好 "多层非线性映射"，认为深层网络能更好地拟合复杂数据；
偏好 "参数共享"（比如 CNN 的卷积核），减少参数数量，避免过拟合；
不再追求可解释性，转而追求 "高性能"，哪怕模型是 "黑箱"。

五、发展历程的核心启示：三次范式转移

回顾几十年的发展，机器学习的核心思路发生了三次关键转变，每一次都对应着归纳偏好的升级：

1. 从 "依赖人类知识" 到 "自主学习知识"

早期：机器靠人类写的规则和知识工作，偏好 "显式、详细的人类知识"；
现在：机器从数据中自主学知识，偏好 "数据驱动的隐式规律"。

2. 从 "追求可解释性" 到 "平衡性能与可解释性"

符号学习：偏好 "可解释的简单规则"（比如决策树）；
统计学习：兼顾可解释性和性能（比如 SVM 的最大间隔有明确意义）；
深度学习：偏好 "高性能"，可解释性让位于效果。

3. 从 "处理简单数据" 到 "处理复杂数据"

早期算法：偏好 "低维、线性、无噪声的数据"；
现代算法：偏好 "高维、非线性、有噪声的数据"，能自动适应复杂场景。

六、小练习：对应算法与发展阶段

请你将以下算法与对应的发展阶段匹配，并说明其归纳偏好：

决策树（ID3）；2. 感知机；3. SVM；4. CNN；5. 专家系统。

提示：

知识期：专家系统（偏好人类显式规则）；
连接主义崛起期：感知机（偏好线性分类规则）；
符号学习兴盛期：决策树（偏好信息增益大的属性）；
统计学习主导期：SVM（偏好最大间隔超平面）；
深度学习爆发期：CNN（偏好多层特征提取）。

七、小结：历程是 "问题驱动" 的进化

机器学习的发展，本质是 "解决旧问题、遇到新问题、再找新方案" 的过程：

知识期解决了 "推理期规则太少" 的问题，却遇到 "知识工程瓶颈"；
符号学习和连接主义解决了 "自主学规则" 的问题，却遇到 "复杂数据处理不了" 的问题；
统计学习解决了 "泛化能力" 的问题，却遇到 "特征工程繁琐" 的问题；
深度学习解决了 "自动提特征" 的问题，却面临 "可解释性差" 的新挑战。

了解这段历程，能帮我们理解不同算法的设计逻辑 ------ 为什么有的算法简单可解释，有的算法复杂但性能强。后续学习具体算法时，我们就能带着 "它是为解决什么问题而生" 的视角，更快掌握核心。

下一篇，我们会跳出理论，看看机器学习在现实生活中的具体应用 ------ 从互联网搜索到自动驾驶，这些应用背后分别对应哪些机器学习任务，又用到了哪些我们聊过的算法和归纳偏好。

如果在练习中遇到疑问，或者想分享你对某个阶段的理解，欢迎在评论区留言讨论～