PyTorch卷积层填充(Padding)与步幅(Stride)详解及代码示例

本文通过具体代码示例讲解PyTorch中卷积操作的填充(Padding) 和**步幅(Stride)**对输出形状的影响,帮助读者掌握卷积层的参数配置技巧。


一、填充与步幅基础

  • 填充(Padding):在输入数据边缘添加指定数量的像素,用于控制输出尺寸的大小。

  • 步幅(Stride):卷积核在输入数据上每次滑动的步长,用于控制输出尺寸的缩小比例。

输出尺寸计算公式:

二、代码实现与示例

1. 全侧边填充1个像素

python 复制代码
import torch
from torch import nn

def comp_conv2d(conv2d, x):
    x = x.reshape((1, 1) + x.shape)  # 增加批次和通道维度
    y = conv2d(x)                    # 计算卷积
    return y.reshape(y.shape[2:])    # 删除批次和通道维度

# 创建卷积层:3x3卷积核,填充1像素
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
x = torch.rand((8, 8))               # 8x8输入矩阵
comp_conv2d(conv2d, x).shape         # 输出形状

输出结果

bash 复制代码
torch.Size([8, 8])

解析:填充1像素后,输入尺寸保持不变。


2. 非对称填充(高度和宽度不同)

python 复制代码
# 创建卷积层:5x3卷积核,高度填充2,宽度填充1
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, x).shape

输出结果

bash 复制代码
torch.Size([8, 8])

3. 步幅设置为2

python 复制代码
# 创建卷积层:3x3卷积核,填充1,步幅2
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, x).shape

输出结果

bash 复制代码
torch.Size([4, 4])

4. 复杂参数组合

python 复制代码
# 创建卷积层:3x5卷积核,高度不填充,宽度填充1,步幅(3,4)
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, x).shape

输出结果

bash 复制代码
torch.Size([2, 2])

三、总结

  1. 填充用于保持输入输出尺寸一致或调整边缘特征保留。

  2. 步幅用于降低输出尺寸,减少计算量。

  3. 通过组合不同参数,可灵活控制卷积层的输出形状。

建议读者通过修改参数自行实验,深入理解公式中的数值变化规律。

相关推荐
AAD555888991 小时前
基于Mask_RCNN的猫科动物目标检测识别模型实现与分析
人工智能·目标检测·计算机视觉
Katecat996631 小时前
基于YOLOv8和MAFPN的骆驼目标检测系统实现
人工智能·yolo·目标检测
合力亿捷-小亿1 小时前
2026年AI语音机器人测评推荐:复杂噪声环境下语义识别准确率对比分析
人工智能·机器人
子夜江寒1 小时前
基于 LSTM 的中文情感分类项目解析
人工智能·分类·lstm
方见华Richard1 小时前
AGI安全三大方向机构对比清单(2025-2026)
人工智能·经验分享·交互·原型模式·空间计算
翱翔的苍鹰1 小时前
大语言模型发展历程
人工智能·语言模型·自然语言处理
2501_941329721 小时前
【AI】使用YOLO11-C3k2-LFEM模型实现车窗识别,精准定位车辆玻璃区域,智能驾驶辅助系统必备技术_1
人工智能
52Hz1181 小时前
力扣230.二叉搜索树中第k小的元素、199.二叉树的右视图、114.二叉树展开为链表
python·算法·leetcode