【导读】
在计算机视觉的世界里,"卷积网络不擅长定位"几乎成了共识。
但真的是这样吗?
在实际任务中,越来越多的系统(如 YOLO 系列、图像配准与关键点检测)都需要模型准确给出图像中的坐标点。卷积网络真的就不能胜任这类任务吗?
本文通过一系列严谨实验和系统分析,从最朴素的卷积结构到复杂的空间感知模块,再到热图预测机制,全面探讨了卷积模型对空间坐标的表达能力。
不仅验证了部分误解,也指出了低成本高精度的最佳设计路径。
如果你关心目标检测、姿态估计、图像几何任务中的定位问题,那这篇文章值得你深入阅读。
卷积网络真的不适合坐标定位吗?

这是一个在计算机视觉领域比较红的说法,根据 2016 年的研究,ConvNet 在需要精精定位特征坐标的任务中表现差异。
当前规模上已经有不少实践系统需要直接预测坐标,如 YOLO 系列、图像单应性等。那么为什么实际效果超越了理论预期?
文中推出两大偏见用于解释:
- 【独热编码偏见】: 如果需要分别为图像中每个位置缓存特征,那么通道数量将体现指数增长的扩散

- 【最优编码估计】: 在允许一定误差下,同样的信息只需少量的 bit 就能表示

这是分析卷积网络空间表示性能的理论基础。
简单实验设计:让模型来"找点"

进一步,作者构造了极简数据集:1000 张 149x149 的灰度图,图中仅有一个"框角",需要预测其 (x, y) 坐标。
它分开了特征定位能力和算法多样性之间的约束,为后续模型构建提供基准。
调研模型包括:
- VGG 风格:每块含 2 个 conv 层

- 简化版:每块仅一个 conv 层
- 全卷积:保留原始分辨率,使用 GAP 作为集成

所有系列将通过 MPE 精度、编码效率和计算成本进行全面衡量。
基线分析:卷积网络真的不行吗?
以下是三种简单模型架构中最佳通道数(以及全卷积模型的卷积层数量)的原始结果。每种架构中测试集 MPE 最低的配置已突出显示:

结果反映出有趣的情况:
- 最优型可达 MPE 约 0.9px,虽未达像素级,但还是超越随机猜测
- 比特/通道 编码效率达到 0.4bit,远余独热偏见的预期
- 神经元死亡分析显示,所有通道都有效利用
故,卷积网络对于简单的特征坐标还是有一定能力的,不能一算拋弃。
为了更公平地比较它们,以下展示了最接近实现 1.5px 训练集 MPE 的相应配置和结果:

亮点:
- 通道数优化: 在相同精度下,每层卷积数为2的卷积网络所需的通道数更少,从而使得每通道的信息量更高,这与压缩假设(compression hypothesis)相一致。
- 模型性能比较: 全转换模型(fully transformed models)的计算开销(按FLOPs衡量)要比其他模型高出一个数量级,这在设计高效网络结构时具有参考意义。
问题与局限:
- 准确度不够: 当前模型的最优定位误差为 0.9px,远未达到像素级定位所需的 MPE ≤ 0.2 的要求,说明还有显著改进空间。
- 缺乏全局特征感知能力: 全卷积模型(Fully Convolutional Models)在该任务中表现良好,主要得益于其对局部特征的学习能力,但它们的感受野有限(即便有16层,也仅覆盖图像的约22%),因此在处理需要全局上下文的信息时存在明显局限。
探索更好模型:明确空间代码
热点在于如何以最小价格提升精度,作者展开了对多类更加空间体感的模型结构探索,目标是找到一种架构,它 1) 能够可靠地显著提高准确率,优于简单的卷积网络;2) 最小化计算成本;3) 普遍适用于多个问题领域:
- CoordConv : 在输入初始加入坐标线程
- StrideGrid : 以步进块为单位描述地方关系
****
- 逐位置最大池化: 转换下量操作,解耦 semantic 和 spatial 层

- 软 attention pool : 使用 softmax 对空间信息进行波泡池化,保留联系


结果显示:
该模型架构最终比单纯的卷积网络有了显著的提升。下图展示了使用所选架构(最多 32 个语义特征通道)对验证集进行测试的结果示例:

软波泡模型符合各项指标,接近像素级(MPE 降至 0.6px 级别)

计算成本与基线模型相差无几
性能优于综合性很强,适用于更实际的多特征定位
热图网络:就是一把刀

不再直接预测坐标,输出一张热图,通过 argmax + 细化算法进行位置调整,基于这个思路,造成了两类系统:
- 全卷积热图: 极简组织,但精度 MPE<0.1px

- 多空间热图: 基于 FPN 模型融合各级特征,MPE 降至 0.025px,达到像素级

这类模型表现突出:
- 较低的计算成本下达到极高精度
- 但不适合得到坐标就算结果的场景,需要热图输出是最终 target
总结反思:坐标算法的新思路
这篇文章通过实验证明:
- 卷积网络是有能力表示和转换空间信息的
- 软 attention + 多空间热图是精度/成本最优规划
- 基线卷积网络依然对于不需要像素级精度的场景是有效工具
如果你正在做姿态估计、图像应性、关键点检测等场景,上述分析对你有极大启发。