卷积网络到底能不能“定位”?一次对空间表示能力的深度解析

【导读】

在计算机视觉的世界里,"卷积网络不擅长定位"几乎成了共识。

但真的是这样吗?

在实际任务中,越来越多的系统(如 YOLO 系列、图像配准与关键点检测)都需要模型准确给出图像中的坐标点。卷积网络真的就不能胜任这类任务吗?

本文通过一系列严谨实验和系统分析,从最朴素的卷积结构到复杂的空间感知模块,再到热图预测机制,全面探讨了卷积模型对空间坐标的表达能力。

不仅验证了部分误解,也指出了低成本高精度的最佳设计路径。

如果你关心目标检测、姿态估计、图像几何任务中的定位问题,那这篇文章值得你深入阅读。

卷积网络真的不适合坐标定位吗?

这是一个在计算机视觉领域比较红的说法,根据 2016 年的研究,ConvNet 在需要精精定位特征坐标的任务中表现差异。

当前规模上已经有不少实践系统需要直接预测坐标,如 YOLO 系列、图像单应性等。那么为什么实际效果超越了理论预期?

文中推出两大偏见用于解释:

  • 【独热编码偏见】: 如果需要分别为图像中每个位置缓存特征,那么通道数量将体现指数增长的扩散
  • 【最优编码估计】: 在允许一定误差下,同样的信息只需少量的 bit 就能表示

这是分析卷积网络空间表示性能的理论基础。

简单实验设计:让模型来"找点"

进一步,作者构造了极简数据集:1000 张 149x149 的灰度图,图中仅有一个"框角",需要预测其 (x, y) 坐标。

它分开了特征定位能力和算法多样性之间的约束,为后续模型构建提供基准。

调研模型包括:

  • VGG 风格:每块含 2 个 conv 层
  • 简化版:每块仅一个 conv 层
  • 全卷积:保留原始分辨率,使用 GAP 作为集成

所有系列将通过 MPE 精度、编码效率和计算成本进行全面衡量。

基线分析:卷积网络真的不行吗?

以下是三种简单模型架构中最佳通道数(以及全卷积模型的卷积层数量)的原始结果。每种架构中测试集 MPE 最低的配置已突出显示:

结果反映出有趣的情况:

  • 最优型可达 MPE 约 0.9px,虽未达像素级,但还是超越随机猜测
  • 比特/通道 编码效率达到 0.4bit,远余独热偏见的预期
  • 神经元死亡分析显示,所有通道都有效利用

故,卷积网络对于简单的特征坐标还是有一定能力的,不能一算拋弃。

为了更公平地比较它们,以下展示了最接近实现 1.5px 训练集 MPE 的相应配置和结果:

亮点:

  • 通道数优化: 在相同精度下,每层卷积数为2的卷积网络所需的通道数更少,从而使得每通道的信息量更高,这与压缩假设(compression hypothesis)相一致。
  • 模型性能比较: 全转换模型(fully transformed models)的计算开销(按FLOPs衡量)要比其他模型高出一个数量级,这在设计高效网络结构时具有参考意义。

问题与局限:

  • 准确度不够: 当前模型的最优定位误差为 0.9px,远未达到像素级定位所需的 MPE ≤ 0.2 的要求,说明还有显著改进空间。
  • 缺乏全局特征感知能力: 全卷积模型(Fully Convolutional Models)在该任务中表现良好,主要得益于其对局部特征的学习能力,但它们的感受野有限(即便有16层,也仅覆盖图像的约22%),因此在处理需要全局上下文的信息时存在明显局限。

探索更好模型:明确空间代码

热点在于如何以最小价格提升精度,作者展开了对多类更加空间体感的模型结构探索,目标是找到一种架构,它 1) 能够可靠地显著提高准确率,优于简单的卷积网络;2) 最小化计算成本;3) 普遍适用于多个问题领域

  • CoordConv : 在输入初始加入坐标线程
  • StrideGrid : 以步进块为单位描述地方关系

****

  • 逐位置最大池化: 转换下量操作,解耦 semantic 和 spatial 层
  • 软 attention pool : 使用 softmax 对空间信息进行波泡池化,保留联系

结果显示:

该模型架构最终比单纯的卷积网络有了显著的提升。下图展示了使用所选架构(最多 32 个语义特征通道)对验证集进行测试的结果示例:

软波泡模型符合各项指标,接近像素级(MPE 降至 0.6px 级别)

计算成本与基线模型相差无几

性能优于综合性很强,适用于更实际的多特征定位

热图网络:就是一把刀

不再直接预测坐标,输出一张热图,通过 argmax + 细化算法进行位置调整,基于这个思路,造成了两类系统:

  • 全卷积热图: 极简组织,但精度 MPE<0.1px
  • 多空间热图: 基于 FPN 模型融合各级特征,MPE 降至 0.025px,达到像素级

这类模型表现突出:

  • 较低的计算成本下达到极高精度
  • 但不适合得到坐标就算结果的场景,需要热图输出是最终 target

总结反思:坐标算法的新思路

这篇文章通过实验证明:

  • 卷积网络是有能力表示和转换空间信息的
  • attention + 多空间热图是精度/成本最优规划
  • 基线卷积网络依然对于不需要像素级精度的场景是有效工具

如果你正在做姿态估计、图像应性、关键点检测等场景,上述分析对你有极大启发。

相关推荐
2301_8018217139 分钟前
机器学习-线性回归模型和梯度算法
python·算法·线性回归
电院大学僧41 分钟前
初学python的我开始Leetcode题-13
python·算法·leetcode
enzeberg41 分钟前
全面解析前端领域的算法
算法
OpenBayes贝式计算2 小时前
OpenBayes 教程上新丨一句话精准P图,FLUX.1 Kontext可实现图像编辑/风格迁移/文本编辑/角色一致性编辑
人工智能·深度学习·机器学习
阑梦清川2 小时前
使用C语言原生的字符串函数求解的一道题目总结
算法
阑梦清川2 小时前
算法竞赛小白晋级之路---高精度减法(题目+解析+代码)
算法
2401_881244402 小时前
牛客周赛 Round 100
算法
GG不是gg2 小时前
详解SPFA算法-单源最短路径求解
算法·图论
墨尘游子3 小时前
一文读懂循环神经网络—从零实现长短期记忆网络(LSTM)
人工智能·python·深度学习·神经网络·算法·机器学习·lstm
ddfa12344 小时前
opencv 值类型 引用类型
人工智能·opencv·计算机视觉