机器学习:6.卷积神经网络与循环神经网络

卷积神经网络与循环神经网络

卷积神经网络(CNN)和循环神经网络(RNN)是深度学习中处理空间结构数据和序列结构数据的两大核心模型,结合词嵌入等表征学习技术,在计算机视觉和自然语言处理等领域发挥了重大作用。

一. 卷积神经网络 (CNN)

卷积神经网络受到动物视觉感受野的启发,通过局部相关性和权重共享机制,能够极其高效地提取图像或文本的空间/局部特征。

这是为您补充了卷积层与池化层详细计算公式和范例的 Markdown 总结笔记:

一. 卷积神经网络 (CNN)

卷积神经网络受到动物视觉感受野的启发,通过局部相关性和权重共享机制,能够极其高效地提取图像或文本的空间/局部特征。

  • 核心机制

    • 局部相关性 :网络通过稀疏连接实现,第 mmm 层的过滤器(神经元)仅接收来自第 m−1m-1m−1 层具有空间相关性的局部单元的输入。
    • 共享权重 :每个过滤器在整个视野中滑动复制,这些复制的单元共享完全相同的权重,从而提取出特定的特征映射 (Feature Map)
  • 核心层结构

    • 卷积层 (Convolutional Layer) :将输入数据的局部区域与卷积核进行对应位置的值相乘后求和 ,每个卷积核内部的值即为需要模型训练优化的参数 。

      • 计算公式 :假设输入特征图的宽度或高度尺寸为 WWW,卷积核大小为 FFF(即 F×FF \times FF×F),步长(Stride)为 SSS,边缘的零填充(Padding)层数为 PPP,则输出特征图的单边尺寸 OOO 的计算公式为:

        O=⌊W−F+2PS⌋+1O = \lfloor \frac{W - F + 2P}{S} \rfloor + 1O=⌊SW−F+2P⌋+1

      • 计算范例 :假设输入一张大小为 10×1010 \times 1010×10 的图像,使用一个大小为 3×33 \times 33×3 的卷积核进行特征提取 。在步长 S=1S=1S=1 且无填充 P=0P=0P=0 的情况下,输出的特征映射大小为 10−3+2×01+1=8\frac{10 - 3 + 2 \times 0}{1} + 1 = 8110−3+2×0+1=8,即得到 8×88 \times 88×8 的输出特征图 。

    • 池化层 (Pooling Layer/Subsampling) :主要用于下采样,常见的有最大池化 (Max-pooling)平均池化 (Average-pooling) 。其操作是将输入图像划分为一组非重叠(或重叠)的矩形子区域,并对每个子区域输出最大值或平均值 。

      • 计算公式 :池化层通常不涉及学习参数,假设池化窗口大小为 FFF,滑动步长为 SSS,通常无零填充(P=0P=0P=0),则输出尺寸的公式为:

        O=⌊W−FS⌋+1O = \lfloor \frac{W - F}{S} \rfloor + 1O=⌊SW−F⌋+1

      • 计算范例 :假设经过卷积后得到一个 4×44 \times 44×4 的特征图,接着应用一个 2×22 \times 22×2 的池化过滤器,步长设为 2 。这会将原始矩阵划分为 4 个互不重叠的 2×22 \times 22×2 子区域 。若采用最大池化,则分别提取这四个区域中的最大值,最终输出一个 2×22 \times 22×2 的矩阵特征图 。

      • 优点:能够有效减少计算量;是获取给定兴趣区域内响应最强烈节点特征的极佳方法 。

      • 缺点:由于丢弃了部分像素,不可避免地会导致部分空间信息的丢失 。

  • 典型应用案例

    • 图像领域:人脸识别、手写数字识别(如 MNIST 数据集)、通用图像识别(如包含海量图片的 ImageNet 数据集及 ResNet、GoogLeNet 等经典网络)。
    • 文本领域 :文本分类。利用词嵌入将单词映射为 Rd\mathbb{R}^dRd 向量,再利用 k×dk \times dk×d 的矩阵作为卷积核提取文本模式,最后通过池化层和全连接网络提炼高级特征。

二. 循环神经网络 (RNN)

与前馈神经网络的静态计算不同,循环神经网络引入了时间维度的概念,非常适合处理具有时间或序列属性的数据。

  • 与前馈网络的对比
    • 前馈神经网络 :是有向无环图,网络中无自连边
    • 循环神经网络有自连边,能够将隐层的信息随着时间步向后传递。其反向传播算法被称为基于时间的反向传播 (BPTT)。
  • 任务架构分类
    • One to Many:如图片字幕生成。
    • Many to One:如文本分类、情感分析。
    • Many to Many:如机器翻译(编码/解码RNN)、对话系统、股价估算或视频帧分类。
  • RNN面临的挑战
    • 标准 RNN 无法很好地利用早期的序列信息,在面临长序列时会出现间隔依赖 (Gap dependency)长期依赖问题,容易遗忘早期输入。

三. 长短期记忆网络 (LSTM) 与 GRU

为了解决 RNN 的长期依赖问题,LSTM 巧妙地引入了细胞状态和门控机制,赋予了网络选择性记忆和遗忘的能力。

1. LSTM 的核心思想

  • 门控机制 (Gate):通过 Sigmoid 层实现,其输出值在 0 到 1 之间。值为 0 表示"不让任何信息通过",值为 1 表示"让一切信息通过"。
  • 细胞状态 (CtC_tCt):贯穿整个网络结构,充当长期记忆的载体。
  • 三大门控结构
    • 遗忘门 (ftf_tft) :决定多大程度上遗忘过去的长期信息(基于上一隐藏状态 ht−1h_{t-1}ht−1 和当前输入 xtx_txt)。
    • 输入门 (iti_tit) :决定将多少当前的新信息融入长期记忆中,并结合 tanh⁡\tanhtanh 激活函数生成候选记忆 C~t\tilde{C}_tC~t。
    • 状态更新 :融合遗忘门和输入门的信息。Ct=ft∗Ct−1+it∗C~tC_t = f_t * C_{t-1} + i_t * \tilde{C}_tCt=ft∗Ct−1+it∗C~t (对应位置的值相乘)。
    • 输出门 (oto_tot) :决定将哪些短期重要的信息作为当前时刻的隐藏状态 hth_tht 输出。

2. LSTM 的常见变体与 GRU

  • 窥视孔连接 (Peephole Connections):允许门控结构直接"看到"当前的细胞状态。
  • 耦合遗忘门和输入门 :将遗忘和添加新信息作为一个联合决策,即 Ct=ft∗Ct−1+(1−ft)∗C~tC_t = f_t * C_{t-1} + (1 - f_t) * \tilde{C}_tCt=ft∗Ct−1+(1−ft)∗C~t。
  • GRU (Gated Recurrent Unit) :将遗忘门和输入门合并为更新门 ,并引入重置门,简化了 LSTM 的结构并保持了良好的性能。

四. 表征学习与词嵌入 (Word Embedding)

词嵌入算法通过特定模型将稀疏的文本数据转化为密集的向量表征,是自然语言处理 (NLP) 的基石。

  • 独热编码的局限 :高维稀疏,如 man: [0,0,1,0,...],无法体现词语间的语义联系。
  • 词嵌入 (Word Embedding)
    • 为每个单词分配一个低维连续向量(如 cat: [0.6, 0.9, 0.1, -0.7, ...])。
    • 核心属性 :映射到降维后的二维或多维平面上时,语义相近的词语,其对应的向量位置也更相近
  • Word2Vec 算法
    • 2013 年由 Google 发表,通过训练一个通用的嵌入矩阵(每一行代表一个词),该矩阵可直接迁移用于各类下游 NLP 任务。
    • 两种主流实现方法
      • CBOW (连续词袋模型):基于给定的上下文词,去预测中间的目标词。实现中会将上下文词向量求和(或求平均)作为上下文向量来进行线性层 Softmax 预测。
      • Skip-gram (跳字模型):基于给定的目标词,去预测其周围的上下文词。
相关推荐
LaughingZhu1 小时前
Product Hunt 每日热榜 | 2026-06-10
前端·人工智能·经验分享·chatgpt·html
DataX_ruby821 小时前
2026年数据中台平台成熟度排名
大数据·人工智能·数据治理·数据中台
呆呆敲代码的小Y1 小时前
CodeGraph 使用教程:专为代码库打造的知识图谱
人工智能·ai·llm·知识图谱·代码库·codegraph·代码知识库
AI科技星1 小时前
数术工坊:投影秘籍
人工智能·线性代数·架构·概率论·学习方法
qcx231 小时前
【AI daily 2026-06-10】RAG 2026 已进入“Agentic RAG“时代
人工智能·ai·llm·agent·agi
十六年开源服务商1 小时前
2026数字艺术展示网站策划全攻略
大数据·人工智能
有Li1 小时前
HOI-Brain:从fMRI中准确提取带符号高阶交互用于脑疾病诊断的多通道
论文阅读·人工智能·交互·文献·医学生
RSTJ_16251 小时前
PYTHON+AI LLM DAY SEVENTY-TWO
人工智能
Stick_ZYZ1 小时前
A2A:让 Agent 从单兵作战走向团队协作
java·开发语言·网络·人工智能·python·ai