【S2ANet】Align Deep Features for Oriented Object Detection 译读笔记

Align Deep Features for Oriented Object Detection

摘要

在过去的十年中，在检测航空图像中的物体方面取得了重大进展，这些物体通常分布在大尺度变化和任意方向上。然而，大多数现有方法依赖于heuristically定义的不同尺度、角度和长宽比的锚框，且通常存在锚框与轴对齐卷积特征之间的严重不对齐问题，这导致分类分数与定位精度之间普遍存在不一致性。为解决这一问题，本文提出了一种Single-shot Alignment Network （S2ANet），该网络由两个模块组成：Feature Alignment Module（FAM）和 Oriented Detection Module（ODM）。FAM能够通过锚框精炼网络生成高质量锚框，并采用一种新颖的对齐卷积（Alignment Convolution）根据锚框自适应地对齐卷积特征。ODM首先采用 active rotating filters 编码方向信息，然后生成方向敏感特征和方向不变特征，以缓解分类分数与定位精度之间的不一致性。此外，本文进一步探索了在大尺寸图像中检测目标的方法，从而在速度和精度之间实现了更好的均衡。大量实验表明，本文的方法在两个常用的航拍目标数据集（即DOTA和HRSC2016）上均能达到最先进的性能，同时保持高效率。 $code$

1 引言

航拍图像目标检测旨在识别感兴趣目标（如飞机、舰船、车辆）的位置和类别。随着深度卷积神经网络框架的发展，Object Detection in Aerial Images（ODAI）近年来取得了显著进展 $1_RICNN,](https://ieeexplore.ieee.org/document/7560644) [2_Rotated_Bounding_Box,](https://ieeexplore.ieee.org/document/7480356) [3_DOTA,](https://arxiv.org/abs/1711.10398) [4_RoITransformer,](https://arxiv.org/abs/1812.00155) [5_CAD-Net,](https://arxiv.org/abs/1903.00857) [6_CenterMap,](https://ieeexplore.ieee.org/abstract/document/9151222) [7_Gliding_vertex$ ，其中大多数现有方法致力于应对航拍图像中密集目标的大尺度变化和任意方向所带来的挑战。

为获得更好的检测性能，大多数最先进的航拍目标检测器 $4_RoITransformer,](https://arxiv.org/abs/1812.00155) [5_CAD-Net,](https://arxiv.org/abs/1903.00857) [8_SCRDet,](https://arxiv.org/abs/1811.07126) [7_Gliding_vertex$ 依赖于复杂的RCNN $9$ 框架，该框架由两部分组成：区域提议网络（RPN）和RCNN检测头。在通用流程中，RPN用于从水平锚框生成高质量Region of Interests（RoIs），然后采用RoI池化算子从RoIs中提取精确特征。最后，RCNN用于对边界框进行回归并将其分类为不同类别。然而值得注意的是，水平RoI常常导致边界框与有向目标之间的严重不对齐 $4_RoITransformer,](https://arxiv.org/abs/1812.00155) [3_DOTA$ 。例如，由于航拍图像中存在有向且密集排布的目标，一个水平RoI通常包含多个实例。一个自然的解决方案是采用有向边界框作为锚框来缓解这一问题[ $2_Rotated_Bounding_Box,](https://ieeexplore.ieee.org/document/7480356) [3_DOTA](https://arxiv.org/abs/1711.10398)$ 。因此，需要设计具有不同角度、尺度和长宽比且精心设计的锚框，但这会带来巨大的计算量和内存占用。最近，RoITransformer $4$ 被提出以解决这一问题，它将水平RoI转换为旋转RoI，避免了大量锚框的使用，但仍需要启发式定义的锚框和复杂的RoI操作。

与基于 R-CNN 的检测器相比，一阶段检测器通过规则密集采样的锚框直接对边界框进行回归和分类。这种架构具有较高的计算效率，但在精度上往往落后 $3$ 。