卷积神经网络 - 参数学习

本文我们通过两个简化的例子,展示如何从前向传播、损失计算,到反向传播推导梯度,再到参数更新,完整地描述卷积层的参数学习过程。

一、例子一

我们构造一个非常简单的卷积神经网络,其结构仅包含一个卷积层和一个输出(不使用激活函数,为了便于数学推导),损失函数采用均方误差(MSE)。

1. 设定问题

输入数据

假设输入为一幅小的灰度图像 X:

例如,令

卷积核

使用一个 2×2 的卷积核 W:

并设有偏置 b。

卷积操作

采用"valid"卷积(不填充),在这种情况下,由于输入和核大小都为2×2,卷积操作仅得到一个输出标量 O:

O=(w1⋅x11+w2⋅x12+w3⋅x21+w4⋅x22)+b.

我们为了简化,不使用激活函数(即线性激活),这样前向计算就很直观。

目标输出

设定目标值为 y(比如标签值),假设 y=10。

损失函数

我们使用均方误差(MSE):

2. 前向传播计算

代入示例数据:

  • 初始假设卷积核权重和偏置(假设初始值为):

计算输出 O:

损失:

3. 梯度推导(反向传播)

我们需要计算损失 L 关于每个参数的梯度,即

步骤1:计算损失对输出 O 的梯度

代入数据:O−y=4.5−10=−5.5.

步骤2:计算输出 O 关于各参数的梯度

步骤3:链式法则计算损失对各参数的梯度

根据链式法则:

代入数值:

4. 参数更新(梯度下降)

设定学习率 η,例如 η=0.01,则更新规则为:

更新后的参数:

更新后,新的卷积核参数为:

5. 训练过程总结

整个训练过程如下:

  1. 前向传播:对输入图像进行卷积计算,得到输出 O。
  2. 计算损失:利用损失函数(MSE)计算模型输出与目标值之间的误差 L。
  3. 反向传播:根据链式法则计算损失对各参数(卷积核权重和偏置)的梯度。
  4. 参数更新:使用梯度下降(或其他优化算法)更新参数,向降低损失的方向调整。
  5. 迭代训练:重复上述步骤,遍历整个训练数据集,直到损失收敛或达到设定的迭代次数。

这个例子虽然非常简单(只有一个卷积层,一个输出单元),但它清楚展示了如何从前向传播计算输出、如何利用损失函数计算误差、如何通过反向传播推导每个参数的梯度,并最终利用梯度下降更新参数。实际的卷积神经网络通常包含多个卷积层、池化层和全连接层,但每个部分的参数学习原理都是类似的------都是通过不断地计算梯度并更新参数,使得模型能够更好地拟合数据,从而实现准确的图像分类、检测等任务。

二、例子二

以下是一个具体的卷积神经网络(CNN)训练过程示例,详细展示前向传播、损失计算、反向传播、参数更新的每个步骤。我们以简单的数字识别任务为例,使用极简网络结构便于手动验证。

示例设定

1. 输入数据
  • 输入图像:2×2的灰度图像,表示数字"1"

  • 真实标签:y_true=[1,0](二分类,索引0为"非1",索引1为"是1")

2. 网络结构
  • 卷积层:1个2×2卷积核,无填充,步长=1

    • 初始权重:

    • 激活函数:ReLU(ReLU(x)=max⁡(0,x))

  • 全连接层:输入1个神经元 → 输出2个神经元

    • 初始权重:

    • 激活函数:Softmax(输出概率)

3. 超参数
  • 学习率:η=0.1

  • 损失函数:交叉熵损失(Cross-Entropy Loss)

(一)前向传播(Forward Pass)

1. 卷积层计算
  • 卷积操作

    输入 X 与卷积核 W_conv 逐元素相乘后求和,加偏置:

    Conv输出=(0.2×0.5+0.8×(−0.3)+0.6×0.2+0.1×0.4)+0.1=0.1−0.24+0.12+0.04+0.1=0.12

  • ReLU激活

    Aconv=ReLU(0.12)=0.12

2. 全连接层计算
  • 线性变换

  • Softmax激活

    预测结果:类别1("是1")的概率为0.628,类别0为0.372。

(二)损失计算(Loss Calculation)

  • 交叉熵损失

(三)反向传播(Backward Pass)

1. 全连接层梯度
  • Softmax梯度

  • 权重梯度

  • 偏置梯度

2. 卷积层梯度
  • ReLU梯度

  • 传递到卷积层的梯度

  • 卷积核权重梯度

  • 卷积层偏置梯度

(四)参数更新(Parameter Update)

1. 全连接层参数
  • 权重更新

  • 偏置更新

2. 卷积层参数
  • 权重更新

  • 偏置更新

(五)更新后效果验证

1. 前向传播再计算
  • 新卷积输出

    Conv输出=(0.2×0.4933+0.8×(−0.3268)+0.6×0.1799+0.1×0.3967)+0.0665≈0.0987

    ReLU激活后:Aconv=0.0987

  • 新全连接输出

    Softmax概率:

2. 新损失值

New Loss=−log⁡(0.581)≈0.542(比原始损失0.465反而增大)

(六)结果分析

  1. 损失未下降的原因

    • 单步更新局限性:梯度下降可能需要多步迭代才能收敛。

    • 学习率过大:学习率 η=0.1 可能跳过最优解,可尝试更小值(如0.05)。

    • 网络容量限制:极简模型可能无法有效拟合复杂模式。

  2. 参数学习方向验证

(七)关键总结

  • 前向传播:数据从输入到输出的逐层变换。

  • 反向传播:通过链式法则计算梯度,明确参数调整方向。

  • 参数更新:沿负梯度方向微调参数,逐步逼近最优解。

  • 迭代优化:需多次迭代(Epoch)才能显著降低损失。

通过这个极简示例,可直观理解CNN参数学习的动态过程。实际训练中需结合批量数据、更复杂网络结构和优化策略(如Adam、学习率衰减)提升效果。

相关推荐
智驱力人工智能3 分钟前
构筑安全红线 发电站旋转设备停机合规监测的视觉分析技术与应用 旋转设备停机检测 旋转设备异常检测 设备停机AI行为建模
人工智能·opencv·算法·安全·目标检测·计算机视觉·边缘计算
独自破碎E5 分钟前
怎么优化RAG的检索效果?
人工智能·自然语言处理
这儿有一堆花5 分钟前
从机械傀儡到具身智能:机器人控制模型的演变实录
人工智能·机器人
寻星探路9 分钟前
【算法进阶】滑动窗口与前缀和:从“和为 K”到“最小覆盖子串”的极限挑战
java·开发语言·c++·人工智能·python·算法·ai
木木木一10 分钟前
Rust学习记录--C10 泛型,Trait,生命周期
python·学习·rust
予枫的编程笔记10 分钟前
【注册技巧】stackoverflow无法注册解决方案
人工智能·stackoverflow·注册技巧
qwerasda12385215 分钟前
【深度学习】如何使用YOLO11-RevCol模型进行伤口类型识别与分类 擦伤、瘀伤、烧伤、切割伤以及正常状态检测_2
人工智能·深度学习·分类
Moonquakes54015 分钟前
嵌入式基础学习笔记(51)
笔记·单片机·学习
柳智敏min16 分钟前
AI学术工具:论文写作的“得力编辑”而非“全程代笔”
人工智能
数字孪生家族16 分钟前
基于视频孪生与空间智能深度融合的智慧城市解决方案
人工智能·智慧城市·数字孪生智慧城市·智慧城市建设方案·视频孪生空间智能双驱动