目录
什么是感受野
定义 :
输出特征图上的一个元素,在 输入图像 上所对应的空间区域大小。
理解 :
你站在一栋楼(网络)的顶楼(深层)透视往下看,只能看到地面(输入)的九块地砖,这些地砖就是你的感受野。
重要性:
- 目标检测:需要匹配感受野,否则"看不到"大目标
- 语义分割:感受野 < 物体尺寸 → 分类错误
- 超分/去噪:感受野 < 纹理尺度 → 伪影
两层 3×3 卷积的感受野
Step-1 第一层
输入 7×7 → 3×3 卷积 → 输出 5×5
RF = 3
Step-2 第二层
把 5×5 特征再 3×3 卷积 → 输出 3×3
此时输出中心点 (1,1) 在特征图上的感受范围是 (0:3, 0:3)
映射回输入图像: 特征图 (0:3, 0:3) 对应输入 (0:5, 0:5)
⇒ 输入上需要 5×5 区域
故RF = 5
通项 RF = 2l + 1
| 网络片段 | 层数 l | 感受野 | 实战意义 |
|---|---|---|---|
| VGG-16 前 3 层 3×3 | 3 | 7×7 | 可捕获 CIFAR-10 整图 |
| ResNet50 瓶颈 4 层 3×3 | 4 | 9×9 | ImageNet 小物体 |
| 空洞卷积 (d=2) 替代 | 等效 7×7 | 15×15 | 不增加参数 |
为什么不用一层 5×5
假设输入输出通道均为 C
| 方案 | 参数量 | 非线性次数 | 感受野 |
|---|---|---|---|
| 一层 5×5 | 25C² | 1 | 5×5 |
| 两层 3×3 | 2×3×3×C² = 18C² | 2 | 5×5 |
- 参数减少 28%
- 多一次 ReLU,增强非线性表达能力
- 更深 → 更好泛化(Bias-Variance )
网络设计例子
- VGG: 3×3 堆叠→ ImageNet结果证明小核堆叠有效
- ResNet:Bottleneck 用 1×1→3×3→1×1
- EfficientNet:复合缩放同时加深、加宽、加分辨率,感受野同步增长
常见面试追问
Q1 :padding=1 会影响感受野吗?
A:不会,只影响特征图尺寸,RF 计算公式不变。
Q2 :stride=2 时两层 3×3 RF 是多少?
A :RF2 = 3 + (3−1)×2 = 7
Q3 :1×1 卷积会增加感受野吗?
A:不会,k=1 ⇒ 增量为 0,仅用于通道混合。
Q4 :空洞卷积 dilated=2 的 3×3 等效核多大?
A :等效 k = 3 + (3−1)×(2−1) = 5
Q5 :Transformer 里还有感受野概念吗?
A:有,叫 Attention Window,原理相同,只是从局部卷积变成全局/局部自注意力。