深度学习进阶(十二)可变形池化 deformable RS RoI Pooling

上一篇中,我们已经得出了一个非常关键的结论:

无论是 RoI Align 还是 PS RoI Pooling,本质上都在"改进采样方式",但它们的采样规则仍然是"人为设计的",也就是固定的。

因此我们提出了新的想法:

能不能让"采样位置"本身,变成可以学习的?

这种想法的实现结果之一就是 Deformable PS RoI Pooling,可以直译为可变形的位置敏感候选框池化

同样显而易见,它的改进就在这个"可变形"上。

1. Deformable PS RoI Pooling 的提出和思想

Deformable PS RoI Pooling 起源于 17 年的论文:Deformable Convolutional Networks

实际上,这篇论文提出了两大核心创新:可变形卷积和可变形池化。
我们本篇先引入可变形池化内容,之后再以此为基础展开可变形卷积的逻辑。

而总结来说,Deformable PS RoI Pooling 的核心思想是:

在 PS RoI Pooling 的基础上,为每一个 bin 引入可学习的空间偏移。

不再过多铺垫,我们直接展开它的具体传播过程来理解它的逻辑。

2. 偏移学习

我们知道,在标准的 PS RoI Pooling 中,每个 bin 的采样点是固定的。

但在 Deformable PS RoI Pooling 中,引入了偏移的概念:偏移量不是作用在边界坐标上的,而是作用在每个采样点上的

比如 \((x,y)\) 是 bin 内的某个采样位置,其引入偏移后就变成了:

\[(x + \Delta x_{ij}, y + \Delta y_{ij}) \]

\((\Delta x_{ij}, \Delta y_{ij})\) 就是这个 bin 的偏移。
一个 bin 通常只用一组偏移(Δx, Δy),它是整个 bin 里所有采样点的"统一偏移"。

这里的关键是:\(\Delta x, \Delta y\) 不是人为设定的,而是通过网络学习得到的。

显然,为了得到这些偏移,模型就要有新的结构变化:

增加一个分支,作用是在特征图层面预测偏移,再通过 RoI 内的池化操作,为每个 bin 聚合出对应的偏移量。

其具体逻辑如下:

如果你看了 DCNv1 的原论文,可能会发现一些不同设计,在下一部分会展开解释。

如图所示,假设有 \(k \times k\) 个 bin ,那么偏移分支输出的特征图尺寸就是:

\[H \times W \times (2k^2) \]

其中,每个 bin 对应 2 个通道(Δx, Δy)。

具体拆开,我们为偏移特征图的每个通道设定的语义如下:

通道编号 含义
0 bin(0,0) 的 Δx
1 bin(0,0) 的 Δy
2 bin(0,1) 的 Δx
3 bin(0,1) 的 Δy
... ...

这种语义同样是通过结构设计嵌入,在反向传播中不断学习得到的。

现在,我们有了两类特征图:位置敏感特征图和偏移特征图。

下一个问题是:

我们要如何聚合两类特征图的信息得到注入偏移信息的 bin ?

3. 为 bin 注入偏移信息

在这部分,我们首先要强调的是:bin 的采样仍然是在位置敏感特征图中进行,偏移特征图只是为了给不同的 bin 提供偏移信息。

而这部分的详细逻辑可以总结如下:

对于每个 bin ,在偏移特征图中的对应通道的对应区域进行平均池化得到两个方向的偏移量,再将偏移量和该 bin 在位置敏感特征图中的所有采样点相加,得到最终采样点坐标。

如图所示,这样有一点需要强调:在原论文中,bin 在不同类别的偏移量是单独预测的,同一个 bin 内的偏移在不同类别间不共享,在上一步的通道尺度设计也有所不同,图中是现代改进后的主流结构。

在这里,同一个 bin 的 \((\Delta x, \Delta y)\),在所有类别上是共享的。

这是因为几何结构的调整,通常和类别无关

比如一个 RoI 框住的是"人",他可能左偏一点、头歪一点或者嘴张开一点,换成别的类别也一样,这些都是结构偏移,而不是类别差异。

其次,也是因为类别级的偏移学习需要更多数据,而且需要学习更多参数。

由此,我们就在采样位置上加入了可学习的偏移量,让采样变得更灵活,更加"自适应"。

但一个新的问题接踵而至:

学习得到的采样点不是整数怎么办?

4. 可变形池化的插值问题

这是一个比看起来起来要严重的问题。当采样位置变成:

\[(x + \Delta x, y + \Delta y) \]

它通常不再是整数坐标。

因此必须引入一个机制,对非整数位置进行特征读取。

而这里的处理方式与 RoI Align 类似:

使用双线性插值,从周围点估计该位置的值。

不难理解,但要注意一点: 这里的插值不是为了"对齐",而是为了"支持可变采样"。

简单展开一下,你可能会感觉这里像是把 PS RoI Pooling 和 RoI Align 的逻辑加起来了。

但实际上,我们在上一篇末尾就提到了:PS Pooling 和 Align 通常不会一起使用。

在这里使用插值只是为了让可变形池化的计算可以进行,而不是为了实现 RoI Align 的几何对齐效果,它们只是都用了双线性插值,仅此而已。

到这里,我们就梳理完了所有的改进点,之后再对每个 bin 中采样点的特征值进行池化,就可以得到最终输出,用于后续操作。

这便是可变形池化,他实现了可学习的采样偏移,让池化可以不再按照"严丝合缝的固定方格"进行采样,而是可以灵活的进行偏移。

一个想法是:

既然都是采样,池化的采样可以偏移,那更基础的卷积本身为什么不可以呢?

这便是下一篇的内容:可变形卷积 DCN .

相关推荐
老唐7777 小时前
常见经典十大大机器学习算法分类与总结
人工智能·深度学习·神经网络·学习·算法·机器学习·ai
knight_9___7 小时前
LLM工具调用面试篇2
人工智能·python·深度学习·机器学习·agent·rag
赖在沙发上的熊8 小时前
机器学习——机器学习概述
人工智能·机器学习
阿杰学AI8 小时前
AI核心知识141—大语言模型之 对齐难题(简洁且通俗易懂版)
人工智能·安全·ai·语言模型·自然语言处理·aigc·ai对齐
AI医影跨模态组学9 小时前
如何将机器学习模型评分与肿瘤微环境中的去乙酰化修饰及免疫细胞组成建立关联,并进一步解释其与NSCLC免疫治疗预后的机制联系
人工智能·机器学习·论文·医学·医学影像
rpa研究爱好者9 小时前
基于 DeerFlow 二次开发:AgentFlow 如何让超级智能体“零门槛”落地?
人工智能·ai
多年小白9 小时前
2026北京车展深度解析:L3自动驾驶量产落地,AI大模型上车从PPT变现实
人工智能·科技·机器学习·ai·自动驾驶
ECT-OS-JiuHuaShan9 小时前
功夫不负匠心人,渡劫代谢舞沧桑
android·开发语言·人工智能·算法·机器学习·kotlin·拓扑学
源码之家9 小时前
Python股票数据分析与预测系统 大数据项目
大数据·python·机器学习·数据挖掘·数据分析·股票·可视化