深度学习系列(二)

深度学习理论基础的奠基阶段及其代表性技术。

这一阶段为现代深度学习的爆发式发展奠定了坚实的数学、算法和概念基础。


深度学习理论基础奠基阶段 (20世纪40年代 - 90年代)

深度学习的理论基础并非一蹴而就,而是经历了数十年的积累,主要围绕神经网络模型、学习算法和计算理论展开。以下是关键里程碑和代表技术:


1. 神经元的数学模型 (1943)
  • 提出者: Warren McCulloch & Walter Pitts
  • 核心思想: 首次提出用数学模型模拟生物神经元的行为。
  • 模型描述:
    oj=f(∑iwijxi+bj) o_j = f(\sum_{i} w_{ij} x_i + b_j) oj=f(i∑wijxi+bj)
    其中:
    • xix_ixi 是输入信号。
    • wijw_{ij}wij 是输入 iii 到神经元 jjj 的连接权重。
    • bjb_jbj 是神经元 jjj 的偏置。
    • f(⋅)f(\cdot)f(⋅) 是一个激活函数(最初是阈值函数)。
    • ojo_joj 是神经元 jjj 的输出。
  • 意义: 为人工神经网络提供了最基本的计算单元模型。

2. 赫布学习规则 (1949)
  • 提出者: Donald Hebb
  • 核心思想: "一起激发的神经元会连在一起"。即如果两个神经元同时被激活,它们之间的连接强度(权重)应该增强。
  • 数学描述:
    Δwij∝oioj \Delta w_{ij} \propto o_i o_j Δwij∝oioj
    其中 Δwij\Delta w_{ij}Δwij 是权重 wijw_{ij}wij 的变化量,oio_ioi 和 ojo_joj 分别是前神经元和后神经元的激活值。
  • 意义: 启发了后续基于误差驱动的学习算法(如感知机学习规则、Delta规则、BP算法),是权重调整概念的雏形。

3. 感知机 (Perceptron, 1958)
  • 提出者: Frank Rosenblatt
  • 核心思想: 一种单层神经网络(仅含输入层和输出层),可用于二元分类。
  • 结构:
    • 输入层接收特征。
    • 输出层是一个阈值逻辑单元(通常使用阶跃激活函数)。
  • 学习算法:
    • 初始化权重。
    • 对于每个训练样本 (x,y)(x, y)(x,y):
      • 计算预测输出 y^=step(wTx)\hat{y} = step(w^T x)y^=step(wTx)。
      • 更新权重:w←w+η(y−y^)xw \leftarrow w + \eta (y - \hat{y}) xw←w+η(y−y^)x。
      • 其中 η\etaη 是学习率。
  • 意义: 第一个可实现的神经网络模型和学习算法,证明了简单的线性分类器可以通过学习完成特定任务。
  • 局限性: 只能解决线性可分问题(如 XOR 问题无法解决),这导致了第一次 AI 寒冬。

4. 多层感知机 (MLP) 与 误差反向传播算法 (Backpropagation, BP) (1986)
  • 关键贡献者: David Rumelhart, Geoffrey Hinton, Ronald Williams 等人(独立发现者还包括其他研究者)。
  • 核心思想: 在多层感知机(包含输入层、至少一个隐藏层、输出层)中,利用链式法则计算损失函数相对于网络所有权重参数的梯度。
  • 算法步骤:
    1. 前向传播: 输入数据通过网络,计算各层输出直至最终输出 y^\hat{y}y^。
    2. 计算损失: 计算预测输出 y^\hat{y}y^ 与真实标签 yyy 之间的误差 EEE(例如均方误差 MSE:E=12(y^−y)2E = \frac{1}{2} (\hat{y} - y)^2E=21(y^−y)2)。
    3. 反向传播:
      • 计算损失 EEE 对输出层神经元输入的梯度 δout\delta^{out}δout。
      • 利用链式法则,逐层反向计算损失 EEE 对隐藏层神经元输入的梯度 δh\delta^{h}δh。
        δjl=f′(netjl)∑kδkl+1wkjl+1 \delta_j^{l} = f'(net_j^{l}) \sum_k \delta_k^{l+1} w_{kj}^{l+1} δjl=f′(netjl)k∑δkl+1wkjl+1
      • 其中 lll 是层索引,netjlnet_j^{l}netjl 是第 lll 层第 jjj 个神经元的加权输入,f′f'f′ 是激活函数的导数。
    4. 权重更新: 利用梯度下降更新权重:
      Δwijl=−ηδjloil−1 \Delta w_{ij}^{l} = - \eta \delta_j^{l} o_i^{l-1} Δwijl=−ηδjloil−1
      wijl←wijl+Δwijl w_{ij}^{l} \leftarrow w_{ij}^{l} + \Delta w_{ij}^{l} wijl←wijl+Δwijl
  • 意义: 这是深度学习的基石。它使得训练具有多层隐藏层的神经网络成为可能,解决了感知机无法学习非线性问题的关键缺陷。理论上,具有一个隐藏层和足够多神经元的 MLP 可以逼近任何连续函数(万能近似定理)。

5. 卷积神经网络雏形与权值共享/平移不变性 (1980s - 1998)
  • 关键贡献者: Kunihiko Fukushima (Neocognitron, 1980), Yann LeCun (LeNet-5, 1998)。
  • 核心思想:
    • 卷积层: 使用可学习的卷积核(滤波器)在输入数据(如图像)上滑动,进行局部特征提取。核心是权值共享 (同一卷积核的所有位置使用相同的权重),这极大地减少了参数数量并引入了平移不变性(特征位置变化不影响识别)。
    • 池化层: 对卷积层输出的特征图进行下采样(如最大池化、平均池化),降低维度,提供一定程度的平移不变性。
  • 代表模型 (LeNet-5):
    • 结构:输入 -> 卷积层 (C1) -> 池化层 (S2) -> 卷积层 (C3) -> 池化层 (S4) -> 全连接层 (C5) -> 全连接层 (F6) -> 输出层。
    • 应用:成功应用于手写数字识别 (MNIST)。
  • 意义: 为处理具有强烈局部相关性和平移不变性的数据(尤其是图像)提供了强大的专用网络结构,是现代 CNN 的鼻祖。

6. 循环神经网络与长短期记忆网络 (RNNs & LSTM, 1997)
  • 关键贡献者: Sepp Hochreiter & Jürgen Schmidhuber (LSTM)。
  • 核心思想:
    • RNN: 网络中存在循环连接,使网络具有记忆能力,能够处理序列数据(如文本、语音、时间序列)。基本 RNN 单元状态更新:
      ht=f(Wxhxt+Whhht−1+bh) h_t = f(W_{xh} x_t + W_{hh} h_{t-1} + b_h) ht=f(Wxhxt+Whhht−1+bh)
      ot=g(Whoht+bo) o_t = g(W_{ho} h_t + b_o) ot=g(Whoht+bo)
    • LSTM: 为了解决基本 RNN 训练时的梯度消失/爆炸问题,难以学习长期依赖关系。LSTM 引入了门控机制(输入门 iti_tit,遗忘门 ftf_tft,输出门 oto_tot)和细胞状态 CtC_tCt。
      • 核心方程(简化):
        C~t=tanh⁡(WC⋅[ht−1,xt]+bC) \tilde{C}t = \tanh(W_C \cdot [h{t-1}, x_t] + b_C) C~t=tanh(WC⋅[ht−1,xt]+bC)
        Ct=ft⊙Ct−1+it⊙C~t C_t = f_t \odot C_{t-1} + i_t \odot \tilde{C}_t Ct=ft⊙Ct−1+it⊙C~t
        ht=ot⊙tanh⁡(Ct) h_t = o_t \odot \tanh(C_t) ht=ot⊙tanh(Ct)
      • 门控计算:
        it=σ(Wi⋅[ht−1,xt]+bi) i_t = \sigma(W_i \cdot [h_{t-1}, x_t] + b_i) it=σ(Wi⋅[ht−1,xt]+bi)
        ft=σ(Wf⋅[ht−1,xt]+bf) f_t = \sigma(W_f \cdot [h_{t-1}, x_t] + b_f) ft=σ(Wf⋅[ht−1,xt]+bf)
        ot=σ(Wo⋅[ht−1,xt]+bo) o_t = \sigma(W_o \cdot [h_{t-1}, x_t] + b_o) ot=σ(Wo⋅[ht−1,xt]+bo)
  • 意义: 为处理序列数据和学习长期依赖关系提供了有效的神经网络架构,是自然语言处理、语音识别等领域的重要基础。

7. 正则化与优化技术
  • 正则化: 为防止过拟合,早期提出了权重衰减 (L2 正则化:λ∑w2\lambda \sum w^2λ∑w2)、Dropout (Hinton et al., 2012 提出,但思想酝酿更早) 等方法。
  • 优化: 随机梯度下降 (SGD) 是基础,动量法 (Momentum) 等改进方法也在早期被提出以加速收敛和避免震荡。

总结

深度学习理论基础的奠基阶段是一个漫长而关键的时期。从 McCulloch-Pitts 神经元模型到 Hebb 学习规则,从感知机的兴衰到 BP 算法的突破,再到 CNN 和 RNN/LSTM 等专用架构的提出,这一系列工作解决了神经网络如何表示信息、如何学习(尤其是学习非线性关系和序列依赖)、如何有效计算(权值共享、门控机制)等核心理论问题。虽然受限于当时的计算能力和数据规模,深度学习的潜力尚未完全展现,但这些奠基性的工作为 21 世纪初开始的深度学习复兴和大规模应用铺平了道路。

相关推荐
xier_ran2 小时前
深度学习:学习率衰减(Learning Rate Decay)
人工智能·深度学习·机器学习
Baihai_IDP2 小时前
如何提升 LLMs 处理表格的准确率?一项针对 11 种格式的基准测试
人工智能·面试·llm
Francek Chen2 小时前
【CANN】开启AI开发新纪元,释放极致计算效率
人工智能·深度学习·cann·ai开发
工藤学编程2 小时前
零基础学AI大模型之Milvus部署架构选型+Linux实战:Docker一键部署+WebUI使用
人工智能·架构·milvus
酷柚易汛智推官2 小时前
阿里“千问”破局C端AI:开源基石与B端势能的双重革命
人工智能·开源·酷柚易汛
路人与大师2 小时前
解密“精准劝阻”:基于大数据与AI的反诈骗智能体系统深度解析
大数据·人工智能
Humbunklung2 小时前
files-to-prompt 简介
人工智能·prompt
老蒋新思维2 小时前
借刘润之智,在 IP+AI 时代构筑战略 “增长方舟”|创客匠人
大数据·网络·人工智能·网络协议·tcp/ip·创客匠人·知识变现
Juchecar2 小时前
翻译:与语言无关的编程:为什么你可能仍然需要代码
人工智能