上周调一个车载检测模型,雨天场景的误检率突然飙升。盯着可视化特征图看了半天,发现问题出在尺度上------远处模糊的车尾和近处清晰的车头,Neck层用的普通金字塔好像有点"力不从心"。这让我想起了当年在语义分割领域常用的ASPP(Atrous Spatial Pyramid Pooling),能不能把它移植到YOLO的Neck里试试?
为什么是ASPP?
YOLO原有的FPN+PAN结构确实能融合多尺度特征,但对同一尺度内的多感受野覆盖不够细腻。比如检测画面中同时出现的近处行人(细节丰富)和远处交通标志(模糊小目标),传统金字塔在不同层之间传递特征时,容易丢失这种同层内的多尺度上下文信息。
ASPP的核心思想很直接:在同一个特征图上,用多个不同膨胀率的空洞卷积并行采样,相当于用多个"不同焦距的镜头"同时观察同一区域。这样既保留了原始分辨率,又捕获了多尺度上下文,特别适合解决目标尺度跨度大的场景。
动手改造Neck层
直接在YOLOv11的Neck模块里插入ASPP块。这里我选择加在FPN输出之后、PAN开始之前的位置,让融合后的特征先经过多感受野增强,再往下传递。
python
class ASPP(nn.Module):
def __init__(self, in_channels, out_channels=256):
super().__init__()
# 1x1卷积分支,保留原始特征
self.conv1x1 = nn.Conv2d(in_channels, out_channels, 1, bias=False)
# 三个不同膨胀率的空洞卷积
self.conv3x3_d6 = nn.Conv2d(in_channels, out_channels, 3, padding=6, dilation=6, bias=False)
self.conv3x3_d12 = nn.Conv2d(in_channels, out_channels, 3, padding=12, dilation=12, bias=False)
self.conv3x3_d18 = nn.Conv2d(in_channels, out_channels, 3, padding=18, dilation=18, bias=False)
# 全局平均池化分支,这里注意要接1x1卷积调整通道数
self.gap = nn.AdaptiveAvgPool2d(1)
self.gap_conv = nn.Conv2d(in_channels, out_channels, 1, bias=False)
# 输出融合层
self.fusion = nn.Conv2d(out_channels * 5, out_channels, 1, bias=False)
self.bn = nn.BatchNorm2d(out_channels)
self.relu = nn.ReLU(inplace=True)
def forward(self, x):
# 保存输入分辨率,后面上采样要用
h, w = x.shape[2:]
# 四个并行分支
branch1 = self.conv1x1(x)
branch2 = self.conv3x3_d6(x)
branch3 = self.conv3x3_d12(x)
branch4 = self.conv3x3_d18(x)
# 全局池化分支,这里容易踩坑:记得用双线性插值上采样回原尺寸
gap_out = self.gap(x)
gap_out = self.gap_conv(gap_out)
branch5 = F.interpolate(gap_out, size=(h, w), mode='bilinear', align_corners=False)
# 通道维度拼接
out = torch.cat([branch1, branch2, branch3, branch4, branch5], dim=1)
out = self.fusion(out)
out = self.bn(out)
out = self.relu(out)
return out
几个调试细节:
- 膨胀率不要盲目设大,我试过dilation=24,小目标特征直接碎掉了。一般用6、12、18这种梯度递增的组合效果比较稳。
- 全局池化分支的上采样一定要用
align_corners=False,不然边缘会对不齐,这个坑我踩过。 - 输出融合的1x1卷积必须有,不然五路特征直接堆在一起通道数爆炸,计算量扛不住。
融合进YOLOv11的Neck
在模型的yaml配置文件里,找到Neck部分,在FPN输出层后面插入ASPP模块:
yaml
neck:
- [...原有FPN层...]
- ASPP:
in_channels: 512 # 根据你的实际通道数调整
out_channels: 256
- [...后续PAN层...]
训练时注意,ASPP会引入一些额外参数,学习率可以稍微调低一点。我在COCO预训练模型上微调,初始lr从0.01降到0.008,收敛更平稳。
实际效果与权衡
在雨天测试集上,改进后的模型误检率下降了3.2%,尤其是远处模糊目标的召回率有明显提升。但代价是推理速度慢了约8%------毕竟多了五组卷积。这里有个小技巧:如果部署到边缘设备,可以把ASPP放在Neck的最后一层输出前,只对最终检测头用的特征做增强,能省不少计算量。
另外发现一个有趣的现象:ASPP对遮挡目标也有改善。因为多感受野能"绕过"遮挡物,采集到更完整的上下文信息。这在人流密集的场景很有用。
个人经验建议
- 不要所有层都加ASPP。我试过在Neck的每一层都插,效果反而下降。建议只在关键融合层(如FPN输出)加一个,多了特征会过度平滑。
- 膨胀率要和输入分辨率匹配。如果特征图太小(比如下采样32倍后),大膨胀率的卷积会退化成1x1卷积,失去多尺度意义。这时候要么调小膨胀率,要么把ASPP移到更浅的层。
- 部署时考虑硬件加速。有些推理框架对空洞卷积优化不好,实测TensorRT对标准卷积+上采样的替代方案更友好。如果追求极致速度,可以用多分支普通卷积+不同kernel size来模拟ASPP效果。
最后说句实在话:任何结构改进都是权衡的艺术。ASPP带来的精度提升是否值得那点速度损失,完全取决于你的应用场景。如果是智慧交通这种对误检零容忍的场合,这8%的延迟换3%的精度,我觉得值。如果是实时视频分析,可能就要再斟酌了。多跑几轮ablation test,数据会告诉你答案。