深度学习系列（二）

深度学习理论基础的奠基阶段及其代表性技术。

这一阶段为现代深度学习的爆发式发展奠定了坚实的数学、算法和概念基础。

深度学习理论基础奠基阶段 (20世纪40年代 - 90年代)

深度学习的理论基础并非一蹴而就，而是经历了数十年的积累，主要围绕神经网络模型、学习算法和计算理论展开。以下是关键里程碑和代表技术：

1. 神经元的数学模型 (1943)

提出者： Warren McCulloch & Walter Pitts
核心思想： 首次提出用数学模型模拟生物神经元的行为。
模型描述：
oj=f(∑iwijxi+bj) o_j = f(\sum_{i} w_{ij} x_i + b_j) oj=f(i∑wijxi+bj)
其中：
- xix_ixi 是输入信号。
- wijw_{ij}wij 是输入 iii 到神经元 jjj 的连接权重。
- bjb_jbj 是神经元 jjj 的偏置。
- f(⋅)f(\cdot)f(⋅) 是一个激活函数（最初是阈值函数）。
- ojo_joj 是神经元 jjj 的输出。
意义： 为人工神经网络提供了最基本的计算单元模型。

2. 赫布学习规则 (1949)

提出者： Donald Hebb
核心思想： "一起激发的神经元会连在一起"。即如果两个神经元同时被激活，它们之间的连接强度（权重）应该增强。
数学描述：
Δwij∝oioj \Delta w_{ij} \propto o_i o_j Δwij∝oioj
其中 Δwij\Delta w_{ij}Δwij 是权重 wijw_{ij}wij 的变化量，oio_ioi 和 ojo_joj 分别是前神经元和后神经元的激活值。
意义： 启发了后续基于误差驱动的学习算法（如感知机学习规则、Delta规则、BP算法），是权重调整概念的雏形。

3. 感知机 (Perceptron, 1958)

提出者： Frank Rosenblatt
核心思想： 一种单层神经网络（仅含输入层和输出层），可用于二元分类。
结构：
- 输入层接收特征。
- 输出层是一个阈值逻辑单元（通常使用阶跃激活函数）。
学习算法：
- 初始化权重。
- 对于每个训练样本 (x,y)(x, y)(x,y)：
  - 计算预测输出 y^=step(wTx)\hat{y} = step(w^T x)y^=step(wTx)。
  - 更新权重：w←w+η(y−y^)xw \leftarrow w + \eta (y - \hat{y}) xw←w+η(y−y^)x。
  - 其中 η\etaη 是学习率。
意义： 第一个可实现的神经网络模型和学习算法，证明了简单的线性分类器可以通过学习完成特定任务。
局限性： 只能解决线性可分问题（如 XOR 问题无法解决），这导致了第一次 AI 寒冬。

4. 多层感知机 (MLP) 与误差反向传播算法 (Backpropagation, BP) (1986)

关键贡献者： David Rumelhart, Geoffrey Hinton, Ronald Williams 等人（独立发现者还包括其他研究者）。
核心思想： 在多层感知机（包含输入层、至少一个隐藏层、输出层）中，利用链式法则计算损失函数相对于网络所有权重参数的梯度。
算法步骤：
1. 前向传播： 输入数据通过网络，计算各层输出直至最终输出 y^\hat{y}y^。
2. 计算损失： 计算预测输出 y^\hat{y}y^ 与真实标签 yyy 之间的误差 EEE（例如均方误差 MSE：E=12(y^−y)2E = \frac{1}{2} (\hat{y} - y)^2E=21(y^−y)2）。
3. 反向传播：
  - 计算损失 EEE 对输出层神经元输入的梯度 δout\delta^{out}δout。
  - 利用链式法则，逐层反向计算损失 EEE 对隐藏层神经元输入的梯度 δh\delta^{h}δh。
    δjl=f′(netjl)∑kδkl+1wkjl+1 \delta_j^{l} = f'(net_j^{l}) \sum_k \delta_k^{l+1} w_{kj}^{l+1} δjl=f′(netjl)k∑δkl+1wkjl+1
  - 其中 lll 是层索引，netjlnet_j^{l}netjl 是第 lll 层第 jjj 个神经元的加权输入，f′f'f′ 是激活函数的导数。
4. 权重更新： 利用梯度下降更新权重：
  Δwijl=−ηδjloil−1 \Delta w_{ij}^{l} = - \eta \delta_j^{l} o_i^{l-1} Δwijl=−ηδjloil−1
  wijl←wijl+Δwijl w_{ij}^{l} \leftarrow w_{ij}^{l} + \Delta w_{ij}^{l} wijl←wijl+Δwijl
意义： 这是深度学习的基石。它使得训练具有多层隐藏层的神经网络成为可能，解决了感知机无法学习非线性问题的关键缺陷。理论上，具有一个隐藏层和足够多神经元的 MLP 可以逼近任何连续函数（万能近似定理）。

5. 卷积神经网络雏形与权值共享/平移不变性 (1980s - 1998)

关键贡献者： Kunihiko Fukushima (Neocognitron, 1980), Yann LeCun (LeNet-5, 1998)。
核心思想：
- 卷积层： 使用可学习的卷积核（滤波器）在输入数据（如图像）上滑动，进行局部特征提取。核心是权值共享 （同一卷积核的所有位置使用相同的权重），这极大地减少了参数数量并引入了平移不变性（特征位置变化不影响识别）。
- 池化层： 对卷积层输出的特征图进行下采样（如最大池化、平均池化），降低维度，提供一定程度的平移不变性。
代表模型 (LeNet-5)：
- 结构：输入 -> 卷积层 (C1) -> 池化层 (S2) -> 卷积层 (C3) -> 池化层 (S4) -> 全连接层 (C5) -> 全连接层 (F6) -> 输出层。
- 应用：成功应用于手写数字识别 (MNIST)。
意义： 为处理具有强烈局部相关性和平移不变性的数据（尤其是图像）提供了强大的专用网络结构，是现代 CNN 的鼻祖。

6. 循环神经网络与长短期记忆网络 (RNNs & LSTM, 1997)

关键贡献者： Sepp Hochreiter & Jürgen Schmidhuber (LSTM)。
核心思想：
- RNN： 网络中存在循环连接，使网络具有记忆能力，能够处理序列数据（如文本、语音、时间序列）。基本 RNN 单元状态更新：
  ht=f(Wxhxt+Whhht−1+bh) h_t = f(W_{xh} x_t + W_{hh} h_{t-1} + b_h) ht=f(Wxhxt+Whhht−1+bh)
  ot=g(Whoht+bo) o_t = g(W_{ho} h_t + b_o) ot=g(Whoht+bo)
- LSTM： 为了解决基本 RNN 训练时的梯度消失/爆炸问题，难以学习长期依赖关系。LSTM 引入了门控机制（输入门 iti_tit，遗忘门 ftf_tft，输出门 oto_tot）和细胞状态 CtC_tCt。
  - 核心方程（简化）：
    C~t=tanh⁡(WC⋅[ht−1,xt]+bC) \tilde{C}t = \tanh(W_C \cdot [h{t-1}, x_t] + b_C) C~t=tanh(WC⋅[ht−1,xt]+bC)
    Ct=ft⊙Ct−1+it⊙C~t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ft⊙Ct−1+it⊙C~t
    ht=ot⊙tanh⁡(Ct) h_t = o_t \odot \tanh(C_t) ht=ot⊙tanh(Ct)
  - 门控计算：
    it=σ(Wi⋅[ht−1,xt]+bi) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi⋅[ht−1,xt]+bi)
    ft=σ(Wf⋅[ht−1,xt]+bf) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf⋅[ht−1,xt]+bf)
    ot=σ(Wo⋅[ht−1,xt]+bo) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo⋅[ht−1,xt]+bo)
意义： 为处理序列数据和学习长期依赖关系提供了有效的神经网络架构，是自然语言处理、语音识别等领域的重要基础。

7. 正则化与优化技术

正则化： 为防止过拟合，早期提出了权重衰减 (L2 正则化：λ∑w2\lambda \sum w^2λ∑w2)、Dropout (Hinton et al., 2012 提出，但思想酝酿更早) 等方法。
优化： 随机梯度下降 (SGD) 是基础，动量法 (Momentum) 等改进方法也在早期被提出以加速收敛和避免震荡。

总结

深度学习理论基础的奠基阶段是一个漫长而关键的时期。从 McCulloch-Pitts 神经元模型到 Hebb 学习规则，从感知机的兴衰到 BP 算法的突破，再到 CNN 和 RNN/LSTM 等专用架构的提出，这一系列工作解决了神经网络如何表示信息、如何学习（尤其是学习非线性关系和序列依赖）、如何有效计算（权值共享、门控机制）等核心理论问题。虽然受限于当时的计算能力和数据规模，深度学习的潜力尚未完全展现，但这些奠基性的工作为 21 世纪初开始的深度学习复兴和大规模应用铺平了道路。