机器学习：6.卷积神经网络与循环神经网络

卷积神经网络与循环神经网络

卷积神经网络（CNN）和循环神经网络（RNN）是深度学习中处理空间结构数据和序列结构数据的两大核心模型，结合词嵌入等表征学习技术，在计算机视觉和自然语言处理等领域发挥了重大作用。

一. 卷积神经网络 (CNN)

卷积神经网络受到动物视觉感受野的启发，通过局部相关性和权重共享机制，能够极其高效地提取图像或文本的空间/局部特征。

这是为您补充了卷积层与池化层详细计算公式和范例的 Markdown 总结笔记：

一. 卷积神经网络 (CNN)

卷积神经网络受到动物视觉感受野的启发，通过局部相关性和权重共享机制，能够极其高效地提取图像或文本的空间/局部特征。

核心机制：
- 局部相关性 ：网络通过稀疏连接实现，第 mmm 层的过滤器（神经元）仅接收来自第 m−1m-1m−1 层具有空间相关性的局部单元的输入。
- 共享权重 ：每个过滤器在整个视野中滑动复制，这些复制的单元共享完全相同的权重，从而提取出特定的特征映射 (Feature Map)。
核心层结构：
- 卷积层 (Convolutional Layer) ：将输入数据的局部区域与卷积核进行对应位置的值相乘后求和 ，每个卷积核内部的值即为需要模型训练优化的参数。
  - 计算公式 ：假设输入特征图的宽度或高度尺寸为 WWW，卷积核大小为 FFF（即 F×FF \times FF×F），步长（Stride）为 SSS，边缘的零填充（Padding）层数为 PPP，则输出特征图的单边尺寸 OOO 的计算公式为：
    
    O=⌊W−F+2PS⌋+1O = \lfloor \frac{W - F + 2P}{S} \rfloor + 1O=⌊SW−F+2P⌋+1
  - 计算范例 ：假设输入一张大小为 10×1010 \times 1010×10 的图像，使用一个大小为 3×33 \times 33×3 的卷积核进行特征提取。在步长 S=1S=1S=1 且无填充 P=0P=0P=0 的情况下，输出的特征映射大小为 10−3+2×01+1=8\frac{10 - 3 + 2 \times 0}{1} + 1 = 8110−3+2×0+1=8，即得到 8×88 \times 88×8 的输出特征图。
- 池化层 (Pooling Layer/Subsampling) ：主要用于下采样，常见的有最大池化 (Max-pooling) 和平均池化 (Average-pooling) 。其操作是将输入图像划分为一组非重叠（或重叠）的矩形子区域，并对每个子区域输出最大值或平均值。
  - 计算公式 ：池化层通常不涉及学习参数，假设池化窗口大小为 FFF，滑动步长为 SSS，通常无零填充（P=0P=0P=0），则输出尺寸的公式为：
    
    O=⌊W−FS⌋+1O = \lfloor \frac{W - F}{S} \rfloor + 1O=⌊SW−F⌋+1
  - 计算范例 ：假设经过卷积后得到一个 4×44 \times 44×4 的特征图，接着应用一个 2×22 \times 22×2 的池化过滤器，步长设为 2 。这会将原始矩阵划分为 4 个互不重叠的 2×22 \times 22×2 子区域。若采用最大池化，则分别提取这四个区域中的最大值，最终输出一个 2×22 \times 22×2 的矩阵特征图。
  - 优点：能够有效减少计算量；是获取给定兴趣区域内响应最强烈节点特征的极佳方法。
  - 缺点：由于丢弃了部分像素，不可避免地会导致部分空间信息的丢失。
典型应用案例：
- 图像领域：人脸识别、手写数字识别（如 MNIST 数据集）、通用图像识别（如包含海量图片的 ImageNet 数据集及 ResNet、GoogLeNet 等经典网络）。
- 文本领域 ：文本分类。利用词嵌入将单词映射为 Rd\mathbb{R}^dRd 向量，再利用 k×dk \times dk×d 的矩阵作为卷积核提取文本模式，最后通过池化层和全连接网络提炼高级特征。

二. 循环神经网络 (RNN)

与前馈神经网络的静态计算不同，循环神经网络引入了时间维度的概念，非常适合处理具有时间或序列属性的数据。

与前馈网络的对比 ：
- 前馈神经网络 ：是有向无环图，网络中无自连边。
- 循环神经网络 ：有自连边，能够将隐层的信息随着时间步向后传递。其反向传播算法被称为基于时间的反向传播 (BPTT)。
任务架构分类 ：
- One to Many：如图片字幕生成。
- Many to One：如文本分类、情感分析。
- Many to Many：如机器翻译（编码/解码RNN）、对话系统、股价估算或视频帧分类。
RNN面临的挑战 ：
- 标准 RNN 无法很好地利用早期的序列信息，在面临长序列时会出现间隔依赖 (Gap dependency) 和长期依赖问题，容易遗忘早期输入。

三. 长短期记忆网络 (LSTM) 与 GRU

为了解决 RNN 的长期依赖问题，LSTM 巧妙地引入了细胞状态和门控机制，赋予了网络选择性记忆和遗忘的能力。

1. LSTM 的核心思想

门控机制 (Gate)：通过 Sigmoid 层实现，其输出值在 0 到 1 之间。值为 0 表示"不让任何信息通过"，值为 1 表示"让一切信息通过"。
细胞状态 (CtC_tCt)：贯穿整个网络结构，充当长期记忆的载体。
三大门控结构 ：
- 遗忘门 (ftf_tft) ：决定多大程度上遗忘过去的长期信息（基于上一隐藏状态 ht−1h_{t-1}ht−1 和当前输入 xtx_txt）。
- 输入门 (iti_tit) ：决定将多少当前的新信息融入长期记忆中，并结合 tanh⁡\tanhtanh 激活函数生成候选记忆 C~t\tilde{C}_tC~t。
- 状态更新 ：融合遗忘门和输入门的信息。Ct=ft∗Ct−1+it∗C~tC_t = f_t * C_{t-1} + i_t * \tilde{C}_tCt=ft∗Ct−1+it∗C~t （对应位置的值相乘）。
- 输出门 (oto_tot) ：决定将哪些短期重要的信息作为当前时刻的隐藏状态 hth_tht 输出。

2. LSTM 的常见变体与 GRU

窥视孔连接 (Peephole Connections)：允许门控结构直接"看到"当前的细胞状态。
耦合遗忘门和输入门 ：将遗忘和添加新信息作为一个联合决策，即 Ct=ft∗Ct−1+(1−ft)∗C~tC_t = f_t * C_{t-1} + (1 - f_t) * \tilde{C}_tCt=ft∗Ct−1+(1−ft)∗C~t。
GRU (Gated Recurrent Unit) ：将遗忘门和输入门合并为更新门 ，并引入重置门，简化了 LSTM 的结构并保持了良好的性能。

四. 表征学习与词嵌入 (Word Embedding)

词嵌入算法通过特定模型将稀疏的文本数据转化为密集的向量表征，是自然语言处理 (NLP) 的基石。

独热编码的局限 ：高维稀疏，如 man: [0,0,1,0,...]，无法体现词语间的语义联系。
词嵌入 (Word Embedding) ：
- 为每个单词分配一个低维连续向量（如 cat: [0.6, 0.9, 0.1, -0.7, ...]）。
- 核心属性 ：映射到降维后的二维或多维平面上时，语义相近的词语，其对应的向量位置也更相近。
Word2Vec 算法 ：
- 2013 年由 Google 发表，通过训练一个通用的嵌入矩阵（每一行代表一个词），该矩阵可直接迁移用于各类下游 NLP 任务。
- 两种主流实现方法 ：
  - CBOW (连续词袋模型)：基于给定的上下文词，去预测中间的目标词。实现中会将上下文词向量求和（或求平均）作为上下文向量来进行线性层 Softmax 预测。
  - Skip-gram (跳字模型)：基于给定的目标词，去预测其周围的上下文词。