PyTorch卷积层填充(Padding)与步幅(Stride)详解及代码示例

本文通过具体代码示例讲解PyTorch中卷积操作的填充(Padding) 和**步幅(Stride)**对输出形状的影响,帮助读者掌握卷积层的参数配置技巧。


一、填充与步幅基础

  • 填充(Padding):在输入数据边缘添加指定数量的像素,用于控制输出尺寸的大小。

  • 步幅(Stride):卷积核在输入数据上每次滑动的步长,用于控制输出尺寸的缩小比例。

输出尺寸计算公式:

二、代码实现与示例

1. 全侧边填充1个像素

python 复制代码
import torch
from torch import nn

def comp_conv2d(conv2d, x):
    x = x.reshape((1, 1) + x.shape)  # 增加批次和通道维度
    y = conv2d(x)                    # 计算卷积
    return y.reshape(y.shape[2:])    # 删除批次和通道维度

# 创建卷积层:3x3卷积核,填充1像素
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
x = torch.rand((8, 8))               # 8x8输入矩阵
comp_conv2d(conv2d, x).shape         # 输出形状

输出结果

bash 复制代码
torch.Size([8, 8])

解析:填充1像素后,输入尺寸保持不变。


2. 非对称填充(高度和宽度不同)

python 复制代码
# 创建卷积层:5x3卷积核,高度填充2,宽度填充1
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))
comp_conv2d(conv2d, x).shape

输出结果

bash 复制代码
torch.Size([8, 8])

3. 步幅设置为2

python 复制代码
# 创建卷积层:3x3卷积核,填充1,步幅2
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)
comp_conv2d(conv2d, x).shape

输出结果

bash 复制代码
torch.Size([4, 4])

4. 复杂参数组合

python 复制代码
# 创建卷积层:3x5卷积核,高度不填充,宽度填充1,步幅(3,4)
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))
comp_conv2d(conv2d, x).shape

输出结果

bash 复制代码
torch.Size([2, 2])

三、总结

  1. 填充用于保持输入输出尺寸一致或调整边缘特征保留。

  2. 步幅用于降低输出尺寸,减少计算量。

  3. 通过组合不同参数,可灵活控制卷积层的输出形状。

建议读者通过修改参数自行实验,深入理解公式中的数值变化规律。

相关推荐
星马梦缘几秒前
机器学习与模式识别 第十二章 自适应学习优化器 考点压缩
人工智能·机器学习·优化器·sgd·adam·rmsprop
ai产品老杨1 分钟前
多路摄像头AI分析性能优化指南
人工智能·性能优化
想你依然心痛2 分钟前
HarmonyOS 6(API 23)实战:基于HMAF的「量子编排」——PC端AI智能体量子计算模拟与量子-经典混合智能编排平台
人工智能·交互·实时音视频·智能体
自不量力的A同学2 分钟前
Solon AI v4.0.3 发布
人工智能
LDR0063 分钟前
LDR6500赋能POS机底座:单口Type-C供电、维护与产测一体化解决方案
大数据·c语言·人工智能
ai产品老杨4 分钟前
RTSP摄像头接入AI分析常见问题和排查清单
人工智能
AI科技星7 分钟前
32维超复数流形中意识信息场与物质耦合的拓扑动力学
人工智能·学习·算法·数据挖掘·回归·乖乖数学·全域数学
matlab代码19 分钟前
基于CNN卷积神经网络日常物品识别系统 (数字图像处理GUI界面)【源码37期】
人工智能·神经网络·cnn·物品识别
2zcode24 分钟前
基于HSV颜色空间和卷积神经网络的交通标志识别系统设计与实现
人工智能·神经网络·cnn
xxie12379424 分钟前
Python 闭包的调用方法与实践
开发语言·python