107_PyTorch 实战:深度解析 nn.Conv2d 卷积层参数与应用

在理解了卷积的数学原理后,我们需要掌握如何在 PyTorch 代码中具体实现它。nn.Conv2d 是构建卷积神经网络(CNN)最频繁使用的模块。本篇将详细拆解其核心参数,并通过实战代码展示其对图像维度的影响。

1. 卷积层的分类

PyTorch 提供了不同维度的卷积工具,以适配不同的数据类型:

  • Conv1d:一维卷积,常用于序列数据(如文本、音频)。
  • Conv2d:二维卷积,标准工具,用于处理图像数据。
  • Conv3d:三维卷积,用于处理视频序列或医学影像(如 CT 扫描)。

2. 深入理解 nn.Conv2d 的核心参数

110_卷积层.ipynb 中,重点介绍了以下几个决定卷积效果的关键参数:

  • in_channels:输入通道数(如 RGB 图像为 3)。
  • out_channels :输出通道数。它代表了卷积核(滤波器)的个数,每个卷积核会提取一种特征。
  • kernel_size :卷积核的大小。定义为 3 代表 3*3。在训练过程中,卷积核内部的数值会自动调整,但尺寸是预设好的。
  • stride (步长) :卷积核滑动的快慢。默认是 1
  • padding (填充):在图片四周补 0 的层数,用于控制输出尺寸。

3.维度计算公式:输出图片多大?这是卷积层使用中最核心的数学问题。

给定输入尺寸,输出尺寸 的计算公式如下:

提示:如果计算结果不是整数,PyTorch 默认会向下取整(floor)。


4. 实战代码:观察图像的变化

文件通过代码演示了如何将一个简单的 5x5 矩阵经过卷积层处理:

Python

复制代码
import torch
import torch.nn as nn

# 1. 模拟输入数据:BatchSize=1, Channel=1, 高=5, 宽=5
input = torch.tensor([[1, 2, 0, 3, 1],
                      [0, 1, 2, 3, 1],
                      [1, 2, 1, 0, 0],
                      [5, 2, 3, 1, 1],
                      [2, 1, 0, 1, 1]], dtype=torch.float32)
input = torch.reshape(input, (1, 1, 5, 5))

# 2. 定义卷积层
# 输入1通道,输出1通道,卷积核3x3,步长1,无填充
conv = nn.Conv2d(in_channels=1, out_channels=1, kernel_size=3, stride=1, padding=0)

# 3. 前向传播
output = conv(input)
print(output.shape) # 结果为 torch.Size([1, 1, 3, 3])

5. 总结:卷积层的"学习"本质

我们应该理解到:

  1. 参数化:卷积层中的卷积核(Kernel)是具有参数的,网络通过反向传播来学习这些参数,从而使其能够识别出有用的特征。
  2. 降维与特征提取 :通过调整 stridekernel_size,卷积层在提取特征的同时,通常也会减小图像的宽高,从而降低后续计算的复杂度。
相关推荐
zhuiyisuifeng1 小时前
2026前瞻:GPTimage2镜像官网或将颠覆视觉创作
人工智能·gpt
徐健峰1 小时前
GPT-image-2 热门玩法实战(一):AI 看手相 — 一张手掌照片生成专业手相分析图
人工智能·gpt
weixin_370976351 小时前
AI的终极赛跑:进入AGI,还是泡沫破灭?
大数据·人工智能·agi
Slow菜鸟1 小时前
AI学习篇(五) | awesome-design-md 使用说明
人工智能·学习
冬奇Lab2 小时前
RAG 系列(五):Embedding 模型——语义理解的核心
人工智能·llm·aigc
深小乐2 小时前
AI 周刊【2026.04.27-05.03】:Anthropic 9000亿美元估值、英伟达死磕智能体、中央重磅定调AI
人工智能
码点滴2 小时前
什么时候用 DeepSeek V4,而不是 GPT-5/Claude/Gemini?
人工智能·gpt·架构·大模型·deepseek
狐狐生风2 小时前
LangChain 向量存储:Chroma、FAISS
人工智能·python·学习·langchain·faiss·agentai
波动几何2 小时前
CDA架构代码工坊技能cda-code-lab
人工智能
舟遥遥娓飘飘2 小时前
DeepSeek V4技术变革对社会结构与职业体系的重构
人工智能