深度学习三次浪潮、三大驱动力与神经科学的恩怨(二)

1. 一个领域，多个名字

很多人以为"深度学习"是一个全新的领域。事实上，它的历史可以追溯到 20 世纪 40 年代------只不过在不同时期，它被叫过完全不同的名字：

1940s-1960s ：被称为控制论（Cybernetics）
1980s-1990s ：被称为联结主义（Connectionism）/ 并行分布处理（PDP）
2006-至今 ：才以深度学习（Deep Learning）之名广为人知

如果你用 Google 图书搜索"控制论"、"联结主义"和"神经网络"这三个词的出现频率，会看到两座清晰的历史山峰------分别对应前两次浪潮。第三座山峰正是当下。

每次更名的背后，不仅仅是换了个标签，更反映了研究社群的哲学立场在变化：从试图模拟大脑，到追求工程实用性，再到强调"多层次组合学习"这一更普遍的原理。

2. 第一次浪潮（1940s-1960s）：控制论

2.1 起源：模拟大脑

最早的学习算法旨在回答一个根本性问题：大脑是怎样学习的？为什么能学习？

研究者们设计了简单的线性模型：给定 nnn 个输入 x1,x2,...,xnx₁, x₂, ..., xₙx1,x2,...,xn，学习一组权重 w1,w2,...,wnw₁, w₂, ..., wₙw1,w2,...,wn，计算输出：

f(x,w)=x1w1+x2w2+...+xnwnf(x, w) = x₁w₁ + x₂w₂ + ... + xₙwₙf(x,w)=x1w1+x2w2+...+xnwn

2.2 三个里程碑模型

① McCulloch-Pitts 神经元（1943）

这是最早的脑功能计算模型。它通过检验 f(x,w) 的正负来识别两类输入------正值归为一类，负值归为另一类。但权重必须由人工设定，无法自动学习。

② 感知机 Perceptron（1950s）

Frank Rosenblatt 发明的感知机是历史上第一个能从数据中自动学习权重的模型。这是一个真正的里程碑------从"人工设定参数"到"从样本自动调参"的跨越。

③ 自适应线性单元 ADALINE（约同一时期）

ADALINE 直接返回 f(x) 的值（而不是正负号）来预测一个实数值。更重要的是，用于调节 ADALINE 权重的训练算法就是随机梯度下降（SGD）的一种特例。

稍加改进后的 SGD 至今仍是深度学习的主要训练算法。这意味着现代深度学习的训练核心，在 1950 年代就已经埋下了种子。

2.3 致命缺陷：XOR 问题

这些模型本质上都是线性模型 f(x, w) = Σxᵢwᵢ。线性模型的根本局限在于：它们只能学习线性可分的函数。

1969 年，Minsky 和 Papert 在著作《Perceptrons》中指出了一个致命案例------异或（XOR）函数：

f( $0,1$ ,w)=1f( $1,0$ ,w)=1f( $0,1$ , w) = 1 f( $1,0$ , w) = 1f( $0,1$ ,w)=1f( $1,0$ ,w)=1
f( $1,1$ ,w)=0f( $0,0$ ,w)=0f( $1,1$ , w) = 0 f( $0,0$ , w) = 0f( $1,1$ ,w)=0f( $0,0$ ,w)=0

不存在任何一组权重 w 能让线性模型正确计算 XOR。这个结论被过度推广------批评者对整个"受生物学启发的学习"产生了普遍的抵触，导致了第一次 AI 寒冬。

2.4 给今天的启示

但指出一个深刻的事实：线性模型尽管不能解决 XOR，但至今仍是最广泛使用的机器学习模型之一 （比如逻辑回归就是线性模型加 sigmoid）。XOR 问题暴露的不是线性模型无用，而是单独一个线性模型不够用------你需要多层组合，也就是深度。第6章将详细展示如何用一个两层网络完美解决 XOR。

3. 第二次浪潮（1980s-1990s）：联结主义

3.1 认知科学的背景

联结主义（Connectionism）是在认知科学的背景下出现的。1980 年代初期，大多数认知科学家研究符号推理模型。但符号模型面临一个核心困境：它们无法解释大脑如何用神经元来实现推理功能。

联结主义者的核心信念：

当网络将大量简单的计算单元连接在一起时，可以实现智能行为。

这个信念同时适用于生物神经元和计算模型中的隐藏单元。很多复苏的想法可以追溯到心理学家 Donald Hebb 在 1940 年代的工作（"一起放电的神经元会连在一起"，即 Hebb 学习规则）。

3.2 关键突破一：反向传播算法

反向传播（Backpropagation）使得训练具有隐藏层的深度神经网络成为可能。它高效地计算损失函数对每个权重的梯度，从而让 SGD 知道该如何调整每一个参数。

虽然这个算法后来一度被遗忘，但截至今日它仍然是训练深度模型的主导方法。第6章将完整推导反向传播的数学细节。

3.3 关键突破二：分布式表示

这是联结主义时期贡献的最重要概念之一，也是全书的核心主题。

核心思想：

系统的每一个输入都应该由多个特征表示
每一个特征都应该参与到多个输入的表示

具体例子：假设视觉系统需要识别 3 种颜色（红/绿/蓝）× 3 种物体（汽车/卡车/鸟类）= 9 种组合。

局部表示方案 ：

为每种组合分配一个独立的神经元------红汽车、红卡车、红鸟、绿汽车......共需要 9 个神经元 。问题是：每个神经元都必须独立学习颜色和物体身份的概念，它从"红汽车"的图片中学到的"红色"知识无法传递给识别"红鸟"的神经元。

分布式表示方案 ：

用 3 个神经元编码颜色，3 个神经元编码物体身份，只需要 6 个神经元 。关键优势是：描述"红色"的那个神经元能够从汽车、卡车和鸟类的所有红色图像 中学习"红色"的概念------知识是跨类别共享的。

深远影响：如果有 100 种颜色和 100 种物体------

局部表示需要 100 × 100 = 10,000 个神经元
分布式表示只需要 100 + 100 = 200 个神经元

这就是为什么分布式表示具有指数级的组合优势------它用线性的资源编码了指数级的组合。这个概念贯穿全书，在第15章还将深入展开。

3.4 关键突破三：LSTM（1997）

在 1990 年代，研究者发现用神经网络建模长序列时会遇到根本性的数学难题------梯度消失和梯度爆炸问题（Hochreiter, 1991; Bengio, 1993）。

1997 年，Hochreiter 和 Schmidhuber 提出了**长短期记忆网络（LSTM）**来解决这些难题。LSTM 通过精妙的"门控"机制，让信息能够在很长的时间步上稳定地传递。如今 LSTM 在许多序列任务中广泛应用。第10章将完整剖析它的结构。

3.5 衰退的双重打击

打击一：商业泡沫破裂

1990 年代中期，基于神经网络和其他 AI 技术的创业公司开始寻求投资，做法"野心勃勃但不切实际"。当 AI 研究不能实现这些不合理的期望时，投资者彻底失望。

打击二：竞争对手崛起

与此同时，机器学习的其他领域取得了显著进步：

核方法（SVM）：在分类和回归任务上效果卓越
图模型（贝叶斯网络/马尔可夫随机场）：在概率推理任务上很成功

这两个因素共同导致了第二次衰退，并一直持续到 2007 年。

3.6 低谷中的坚守者

在漫长的低谷期，加拿大高级研究所（CIFAR） 的 NCAP 研究计划是最重要的火种守护者。它联合了三位后来被称为"深度学习三巨头"的研究者：

研究者	所在大学	后来的贡献
Geoffrey Hinton	多伦多大学	2006年深度信念网络，引爆第三次浪潮
Yoshua Bengio	蒙特利尔大学	神经语言模型、GAN理论、注意力机制
Yann LeCun	纽约大学	LeNet卷积网络、自监督学习

三人于 2018 年共同获得图灵奖。没有 CIFAR 在低谷期的资助，可能就没有深度学习的第三次浪潮。

4. 第三次浪潮（2006-至今）：深度学习

4.1 引爆点：2006 年的突破

在那个时候，人们普遍认为深度网络是难以训练的 。但 Geoffrey Hinton 在 2006 年证明了：一种名为**深度信念网络（DBN）的模型可以用贪婪逐层预训练（Greedy Layer-wise Pretraining）**策略有效训练。

核心思想：不要试图一次性训练整个深度网络（这会失败），而是：

先训练第一层（作为一个受限玻尔兹曼机 RBM）
固定第一层，用第一层的输出作为输入来训练第二层
逐层向上，每次只训练一层
最后用反向传播对整个网络进行微调

其他 CIFAR 附属研究组很快证明，同样的策略可以训练多种类型的深度网络。深度神经网络开始全面优于基于手工特征的传统方法。

4.2 一个深刻的认知转变

有一句极其重要的话：

"目前在复杂任务达到人类水平的学习算法，与 1980 年代努力解决玩具问题的学习算法几乎是一样的 。最重要的新进展是现在我们有了这些算法得以成功训练所需的资源。"

这句话道破了一个被很多人忽视的真相：不是算法突然变聪明了，而是数据、算力和工程实践终于追上了算法的需求。

4.3 第三次浪潮的研究重心变迁

2006-2012：无监督预训练是关键技术，研究重点在如何训练深度网络
2012-至今：监督学习+大数据成为主流，预训练不再是必需品（但在 NLP 领域，预训练后来以 BERT/GPT 的形式强势回归）
新兴方向：无监督学习、小数据集的泛化能力

5. 驱动力 1：与日俱增的数据量

5.1 为什么数据这么重要？

人工神经网络的第一个实验在 1950 年代就完成了，但为什么直到最近才变成关键技术？

给出的核心解释：

"随着训练数据的增加，所需的技巧正在减少。"

在小数据时代，要让深度学习工作需要极高的工程技巧------选择正确的架构、正则化策略、学习率调度、预训练方案......这让它看起来"只有专家才能用的艺术"。但当数据足够多时，粗糙的模型也能表现得很好，因为统计估计的核心负担（从少量观察推广到新数据）被大大减轻了。

5.2 数据量增长史

时代	数据规模	代表数据集	特点
20世纪初	数百~数千	手动度量	人工收集
1950s-1980s	几十~几百	合成字母位图	验证网络"能学习"
1980s-1990s	数万	MNIST（6万）	手写数字扫描
2000s初	数万	CIFAR-10（6万）	彩色小图
2010s	数百万~数千万	ImageNet（1400万）、Street View House Numbers、Sports-1M	社会数字化驱动
机器翻译	数亿句对	WMT英法、Canadian Hansard	远超其他任务

关键经验法则（截至 2016）：

每类 ~5,000 个标注样本 → 可接受的性能
~10,000,000 个标注样本 → 达到或超过人类表现

5.3 MNIST------"机器学习的果蝇"

Geoffrey Hinton 将 MNIST 数据集比作"机器学习的果蝇"。就像生物学家用果蝇做实验（因为它生命周期短、基因组小、容易操控），机器学习研究者可以在 MNIST 这个受控环境下快速验证算法思路。尽管现代技术已经可以轻松解决 MNIST，它仍然是最广泛使用的基准测试之一。

6. 驱动力 2：与日俱增的模型规模

6.1 核心见解：规模产生智能

联结主义给我们的最重要启示之一：

当动物的许多神经元一起工作时才会变得聪明。单独神经元或小集合的神经元不是特别有用。

这不仅是哲学观点，更是数量上的硬性要求。

6.2 增长数据

自引入隐藏单元以来，人工神经网络的规模大约每 2.4 年翻一倍
每个神经元的连接数已与猫的大脑在同一数量级
但在神经元总数上，直到最近的网络都"惊人地小"
即使"很大"的现代网络，实际上比青蛙的神经系统还小
按目前趋势，至少要到 2050 年代，人工神经网络才能具备与人脑相同数量级的神经元

"其神经元比一个水蛭还少的神经网络不能解决复杂的人工智能问题，这是不足为奇的。"

6.3 增长的驱动力

因素	贡献
更快的 CPU	单核性能每年提升
通用 GPU 的出现	并行计算能力指数级提升
更快的网络连接	分布式训练成为可能
更好的分布式计算软件	多机多卡协调训练

7. 驱动力 3：与日俱增的精度和应用复杂度

7.1 图像识别的进化

年代	能力边界
最早期	识别裁剪紧凑的小图中的单个对象
中期	更大尺寸的图像
2012+	高分辨率照片、1000+ 类别、无需裁剪

ImageNet ILSVRC 竞赛------深度学习的"出道舞台"：

年份	方法	Top-5 错误率
2011年及之前	传统特征工程	~26.1%
2012年	AlexNet（CNN）	~15.3%
此后每年	更深的CNN	持续下降
截至写书时	残差网络	~3.6%

从 26.1% 到 15.3%------这不是小幅改进，而是一夜之间将错误率几乎砍半。这是深度学习登上历史舞台的标志性时刻。

7.2 语音识别的跳跃

语音识别在 1990 年代提高后，直到约 2000 年都处于停滞不前的状态。深度学习的引入使得错误率陡然下降，有些甚至降低了一半。

7.3 任务复杂度的五级跳

清晰地展示了深度学习处理的任务如何一步步变得更复杂：

第一级：单对象识别

从裁剪好的小图中识别一个物体。

第二级：整个字符序列输出

Goodfellow 等人（2014）证明神经网络可以直接输出描述图像的完整字符序列（如门牌号"1847"），而不需要逐个字符标注。

第三级：序列到序列学习（Seq2Seq）

LSTM 等循环网络用于对序列之间的关系建模，引领了机器翻译的颠覆性发展。输入一个法语句子，输出对应的英语翻译。

第四级：神经图灵机

能学习读写存储单元的神经网络。可以从"输入一堆乱序数字→输出排好序的数字"这样的样本中自动学习排序算法。这是"自我编程"的雏形。

第五级：深度强化学习

DeepMind 的系统学会玩 Atari 视频游戏并匹敌人类。自主的智能体通过试错学习，无需人类指导。

7.4 工业应用与科学贡献

工业落地：Google、Microsoft、Facebook、IBM、Baidu、Apple、Adobe、Netflix、NVIDIA、NEC 等全面采用。

软件框架的发展：Theano → PyLearn2 → Torch → Caffe → DistBelief → MXNet → TensorFlow（时间线，此后还有 PyTorch 等）

科学贡献：

药物发现：预测分子相互作用
粒子物理：搜索亚原子粒子
神经科学：解析构建人脑三维图的显微镜图像
计算神经科学：卷积网络为研究视觉处理提供了计算模型

8. 神经科学与深度学习：灵感而非蓝图

8.1 神经科学提供了什么？

① 可行性证明

大脑的存在证明了智能行为是可能的。概念上，建立智能的直接途径是逆向大脑背后的计算原理。

② 通用算法假说------雪貂实验

神经学家将雪貂的大脑重新接线，使视觉信号传送到听觉处理区域。结果雪貂竟然学会了用听觉区域"看"东西。

这个实验暗示了一个惊人的可能：大多数哺乳动物的大脑可能使用一种通用的学习算法来处理不同的感知任务。在此之前，AI 研究是分散的------不同社群分别研究 NLP、视觉、语音。这个发现启发了一种统一的方法论：也许存在一个算法可以同时处理所有这些任务。

③ 架构灵感

新认知机（Neocognitron, 1980）受哺乳动物视觉系统的结构启发------视觉皮层中简单细胞检测边缘、复杂细胞实现平移不变性。它后来成为现代**卷积网络（CNN）**的基础。
整流线性单元（ReLU）：原始认知机受大脑功能知识启发引入了复杂的版本。简化的现代版（ReLU）吸收了来自神经科学和工程两个方向的思想。

8.2 神经科学不提供什么？

非常明确地划定了边界：

"大家不应该认为深度学习在尝试模拟大脑。"

原因一：信息不足

要深刻理解大脑使用的算法，需要同时监测至少数千相连神经元的活动。我们做不到这一点------甚至连大脑最简单、最深入研究的部分都远远没有理解。

原因二：更像生物 ≠ 更好

真实的神经元计算着与整流线性单元非常不同的函数，但更接近生物神经元的模型并没有导致机器学习性能的提升。

原因三：架构有灵感，算法没有

神经科学成功地启发了一些网络架构（如 CNN），但我们对大脑的生物学习机制了解不够，因此无法为训练算法提供太多借鉴。

原因四：灵感来源是多元的

现代深度学习从许多领域获取灵感，特别是应用数学的基本内容------线性代数、概率论、信息论和数值优化。有些深度学习研究者完全不关心神经科学。

8.3 深度学习 vs 计算神经科学

维度	深度学习	计算神经科学
目标	构建能解决智能任务的计算机系统	构建大脑真实工作机制的精确模型
标准	任务性能（准确率等）	生物真实性
态度	大脑是灵感之一，但不是唯一指导	大脑是研究对象本身
交集	研究人员在两个领域间来回穿梭是常见的

9. 全章总结：深度学习的本质

最后一段给出了精炼的总结：

"深度学习是机器学习的一种方法。在过去几十年的发展中，它大量借鉴了我们关于人脑、统计学和应用数学的知识。近年来，得益于更强大的计算机、更大的数据集和能够训练更深网络的技术，深度学习的普及性和实用性都有了极大的发展。"

一句话概括深度学习的本质：

它是一种通过多层次的简单表示来逐步构建复杂抽象的机器学习方法，用嵌套的层级概念体系来理解世界。

深度学习 三次浪潮、三大驱动力与神经科学的恩怨(二)