107_PyTorch 实战：深度解析 nn.Conv2d 卷积层参数与应用

在理解了卷积的数学原理后，我们需要掌握如何在 PyTorch 代码中具体实现它。nn.Conv2d 是构建卷积神经网络（CNN）最频繁使用的模块。本篇将详细拆解其核心参数，并通过实战代码展示其对图像维度的影响。

1. 卷积层的分类

PyTorch 提供了不同维度的卷积工具，以适配不同的数据类型：

Conv1d：一维卷积，常用于序列数据（如文本、音频）。
Conv2d：二维卷积，标准工具，用于处理图像数据。
Conv3d：三维卷积，用于处理视频序列或医学影像（如 CT 扫描）。

2. 深入理解 `nn.Conv2d` 的核心参数

在 110_卷积层.ipynb 中，重点介绍了以下几个决定卷积效果的关键参数：

in_channels：输入通道数（如 RGB 图像为 3）。
out_channels ：输出通道数。它代表了卷积核（滤波器）的个数，每个卷积核会提取一种特征。
kernel_size ：卷积核的大小。定义为 3 代表 3*3。在训练过程中，卷积核内部的数值会自动调整，但尺寸是预设好的。
stride (步长) ：卷积核滑动的快慢。默认是 1。
padding (填充)：在图片四周补 0 的层数，用于控制输出尺寸。

3.维度计算公式：输出图片多大？这是卷积层使用中最核心的数学问题。

给定输入尺寸，输出尺寸的计算公式如下：

提示：如果计算结果不是整数，PyTorch 默认会向下取整（floor）。

4. 实战代码：观察图像的变化

文件通过代码演示了如何将一个简单的 5x5 矩阵经过卷积层处理：

Python

复制代码

import torch
import torch.nn as nn

# 1. 模拟输入数据：BatchSize=1, Channel=1, 高=5, 宽=5
input = torch.tensor([[1, 2, 0, 3, 1],
                      [0, 1, 2, 3, 1],
                      [1, 2, 1, 0, 0],
                      [5, 2, 3, 1, 1],
                      [2, 1, 0, 1, 1]], dtype=torch.float32)
input = torch.reshape(input, (1, 1, 5, 5))

# 2. 定义卷积层
# 输入1通道，输出1通道，卷积核3x3，步长1，无填充
conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, stride=1, padding=0)

# 3. 前向传播
output = conv(input)
print(output.shape) # 结果为 torch.Size([1, 1, 3, 3])

5. 总结：卷积层的"学习"本质

我们应该理解到：

参数化：卷积层中的卷积核（Kernel）是具有参数的，网络通过反向传播来学习这些参数，从而使其能够识别出有用的特征。
降维与特征提取 ：通过调整 stride 和 kernel_size，卷积层在提取特征的同时，通常也会减小图像的宽高，从而降低后续计算的复杂度。