在理解了卷积的数学原理后,我们需要掌握如何在 PyTorch 代码中具体实现它。nn.Conv2d 是构建卷积神经网络(CNN)最频繁使用的模块。本篇将详细拆解其核心参数,并通过实战代码展示其对图像维度的影响。
1. 卷积层的分类
PyTorch 提供了不同维度的卷积工具,以适配不同的数据类型:
- Conv1d:一维卷积,常用于序列数据(如文本、音频)。
- Conv2d:二维卷积,标准工具,用于处理图像数据。
- Conv3d:三维卷积,用于处理视频序列或医学影像(如 CT 扫描)。
2. 深入理解 nn.Conv2d 的核心参数
在 110_卷积层.ipynb 中,重点介绍了以下几个决定卷积效果的关键参数:
- in_channels:输入通道数(如 RGB 图像为 3)。
- out_channels :输出通道数。它代表了卷积核(滤波器)的个数,每个卷积核会提取一种特征。
- kernel_size :卷积核的大小。定义为
3代表 3*3。在训练过程中,卷积核内部的数值会自动调整,但尺寸是预设好的。 - stride (步长) :卷积核滑动的快慢。默认是
1。 - padding (填充):在图片四周补 0 的层数,用于控制输出尺寸。
3.维度计算公式:输出图片多大?这是卷积层使用中最核心的数学问题。
给定输入尺寸,输出尺寸 的计算公式如下:
提示:如果计算结果不是整数,PyTorch 默认会向下取整(floor)。
4. 实战代码:观察图像的变化
文件通过代码演示了如何将一个简单的 5x5 矩阵经过卷积层处理:
Python
import torch
import torch.nn as nn
# 1. 模拟输入数据:BatchSize=1, Channel=1, 高=5, 宽=5
input = torch.tensor([[1, 2, 0, 3, 1],
[0, 1, 2, 3, 1],
[1, 2, 1, 0, 0],
[5, 2, 3, 1, 1],
[2, 1, 0, 1, 1]], dtype=torch.float32)
input = torch.reshape(input, (1, 1, 5, 5))
# 2. 定义卷积层
# 输入1通道,输出1通道,卷积核3x3,步长1,无填充
conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, stride=1, padding=0)
# 3. 前向传播
output = conv(input)
print(output.shape) # 结果为 torch.Size([1, 1, 3, 3])
5. 总结:卷积层的"学习"本质
我们应该理解到:
- 参数化:卷积层中的卷积核(Kernel)是具有参数的,网络通过反向传播来学习这些参数,从而使其能够识别出有用的特征。
- 降维与特征提取 :通过调整
stride和kernel_size,卷积层在提取特征的同时,通常也会减小图像的宽高,从而降低后续计算的复杂度。