卷积网络到底能不能“定位”？一次对空间表示能力的深度解析

【导读】

在计算机视觉的世界里，"卷积网络不擅长定位"几乎成了共识。

但真的是这样吗？

在实际任务中，越来越多的系统（如 YOLO 系列、图像配准与关键点检测）都需要模型准确给出图像中的坐标点。卷积网络真的就不能胜任这类任务吗？

本文通过一系列严谨实验和系统分析，从最朴素的卷积结构到复杂的空间感知模块，再到热图预测机制，全面探讨了卷积模型对空间坐标的表达能力。

不仅验证了部分误解，也指出了低成本高精度的最佳设计路径。

如果你关心目标检测、姿态估计、图像几何任务中的定位问题，那这篇文章值得你深入阅读。

卷积网络真的不适合坐标定位吗？

这是一个在计算机视觉领域比较红的说法，根据 2016 年的研究，ConvNet 在需要精精定位特征坐标的任务中表现差异。

当前规模上已经有不少实践系统需要直接预测坐标，如 YOLO 系列、图像单应性等。那么为什么实际效果超越了理论预期？

文中推出两大偏见用于解释：

这是分析卷积网络空间表示性能的理论基础。

进一步，作者构造了极简数据集：1000 张 149x149 的灰度图，图中仅有一个"框角"，需要预测其 (x, y) 坐标。

它分开了特征定位能力和算法多样性之间的约束，为后续模型构建提供基准。

调研模型包括：

所有系列将通过 MPE 精度、编码效率和计算成本进行全面衡量。

以下是三种简单模型架构中最佳通道数（以及全卷积模型的卷积层数量）的原始结果。每种架构中测试集 MPE 最低的配置已突出显示：

结果反映出有趣的情况：

故，卷积网络对于简单的特征坐标还是有一定能力的，不能一算拋弃。

为了更公平地比较它们，以下展示了最接近实现 1.5px 训练集 MPE 的相应配置和结果：

通道数优化： 在相同精度下，每层卷积数为2的卷积网络所需的通道数更少，从而使得每通道的信息量更高，这与压缩假设（compression hypothesis）相一致。
模型性能比较： 全转换模型（fully transformed models）的计算开销（按FLOPs衡量）要比其他模型高出一个数量级，这在设计高效网络结构时具有参考意义。

准确度不够： 当前模型的最优定位误差为 0.9px，远未达到像素级定位所需的 MPE ≤ 0.2 的要求，说明还有显著改进空间。
缺乏全局特征感知能力： 全卷积模型（Fully Convolutional Models）在该任务中表现良好，主要得益于其对局部特征的学习能力，但它们的感受野有限（即便有16层，也仅覆盖图像的约22%），因此在处理需要全局上下文的信息时存在明显局限。