《动手学深度学习 Pytorch版》 6.3 填充和步幅

6.3.1 填充

虽然我们用的卷积核较小,每次只会丢失几像素,但是如果应用多层连续的卷积层,累积的像素丢失就会很多。解决此问题的方法为填充。

填充后的输出形状将为 ( n h − k h + p h + 1 ) × ( n w − k w + p w + 1 ) (n_h-k_h+p_h+1)\times(n_w-k_w+p_w+1) (nh−kh+ph+1)×(nw−kw+pw+1)

python 复制代码
import torch
from torch import nn

def comp_conv2d(conv2d, X):
    X = X.reshape((1, 1) + X.shape)  # 批量大小和通道数都是1(此处为元组拼接)
    Y = conv2d(X)
    return Y.reshape(Y.shape[2:])  # 再忽略前两个维度

conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1)
X = torch.rand(size=(8, 8))
comp_conv2d(conv2d, X).shape  # 如果无填充则是 (6,6)
复制代码
torch.Size([8, 8])
python 复制代码
conv2d = nn.Conv2d(1, 1, kernel_size=(5, 3), padding=(2, 1))  # 也可以填充不同的高度和宽度
comp_conv2d(conv2d, X).shape  # 若不填充则为 (4, 6)
复制代码
torch.Size([8, 8])

6.3.2 步幅

python 复制代码
conv2d = nn.Conv2d(1, 1, kernel_size=3, padding=1, stride=2)  # 步幅为2则宽度高度减半
comp_conv2d(conv2d, X).shape
复制代码
torch.Size([4, 4])

引入步幅后输出的形状应为 ⌊ ( n h − k h + p h + s h ) / s h ⌋ × ⌊ ( n w − k w + p w + s w ) / s w ⌋ \left\lfloor(n_h-k_h+p_h+s_h)/s_h\right\rfloor\times\left\lfloor(n_w-k_w+p_w+s_w)/s_w\right\rfloor ⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋

python 复制代码
conv2d = nn.Conv2d(1, 1, kernel_size=(3, 5), padding=(0, 1), stride=(3, 4))  # 实际实践中很少使用不一致的步幅或填充
comp_conv2d(conv2d, X).shape
复制代码
torch.Size([2, 2])

练习

(1)对于本节中的最后一个示例,计算其输出形状,以查看它是否于实验结果一致。

( 高度 × 宽度 ) = ⌊ ( n h − k h + p h + s h ) / s h ⌋ × ⌊ ( n w − k w + p w + s w ) / s w ⌋ = ⌊ ( 8 − 3 + 0 + 3 ) / 3 ⌋ × ⌊ ( 8 − 5 + 1 + 4 ) / 4 ⌋ = ⌊ 8 / 3 ⌋ × ⌊ 8 / 4 ⌋ = ( 2 × 2 ) \begin{align} \left(高度\times宽度\right)&=\left\lfloor(n_h-k_h+p_h+s_h)/s_h\right\rfloor\times\left\lfloor(n_w-k_w+p_w+s_w)/s_w\right\rfloor\\ &= \left\lfloor(8-3+0+3)/3\right\rfloor\times\left\lfloor(8-5+1+4)/4\right\rfloor\\ &= \left\lfloor8/3\right\rfloor\times\left\lfloor8/4\right\rfloor\\ &= (2\times2) \end{align} (高度×宽度)=⌊(nh−kh+ph+sh)/sh⌋×⌊(nw−kw+pw+sw)/sw⌋=⌊(8−3+0+3)/3⌋×⌊(8−5+1+4)/4⌋=⌊8/3⌋×⌊8/4⌋=(2×2)


(2)对本节中的实验中,试一试其他填充和步幅的组合。


(3)对于音频信号,步幅为2说明什么?

类似于计组里学的对信号进行采样。


(4)步幅大于1的计算优势是什么?

减少计算量。

相关推荐
霍小毛24 分钟前
破局工业数据孤岛!数字孪生+AI智慧设备资产管理平台,重构智能运维新范式
人工智能·重构
AI人工智能+32 分钟前
基于深度学习的银行回单识别技术,成为连接物理票据与数字财务系统的桥梁
深度学习·计算机视觉·ocr·银行回单识别
向量引擎34 分钟前
向量引擎的新时代:从OpenClaw、Hermes到GPT Image 2与龙虾(Lobster)模型的深度对比与应用
人工智能·gpt·aigc·api·ai编程·key·api调用
2501_9411491140 分钟前
智能家居的无声守护者:物联网系统自动化测试落地经验
人工智能·语音识别
ComputerInBook1 小时前
数字图像处理(4版)——第 7 章——小波及其它图像变换(上)(Rafael C.Gonzalez&Richard E. Woods)
人工智能·机器学习·数字图像处理·图像变换
冬奇Lab2 小时前
烧了数千美金 Token,我用 AI Agent 打通了企业级 Bug 修复全流程
人工智能·debug
冬奇Lab2 小时前
一天一个开源项目(第85篇):TypeScript 巫师把自己的 Claude 配置推到了 GitHub,一夜全球第一
人工智能·开源·claude
爱艺江河2 小时前
智慧合规的HarmonyOS原生实践:与OpenClaw适配的项目方案浅析
人工智能·华为·harmonyos
xiaoduo AI2 小时前
客服机器人用知识图谱推理吗?Agent功能介绍+关联问答,跨品类问题能推导?
人工智能·机器人·知识图谱
Data-Miner2 小时前
数以轻舟聚焦Excel-Agent场景:当AI做表工具学会说人话
人工智能·excel