近年来,随着视觉-语言模型的快速发展,开放词汇分割(OVS)技术已成为自然图像处理领域的热点。这项技术让模型能够根据文本描述来分割任意类别的物体,打破了传统语义分割模型只能识别预设类别的限制。
很自然地,研究者们开始探索将这一技术迁移到遥感图像领域,即开放词汇遥感图像分割(OVRSIS)。然而,由于缺乏统一的评测标准,加上自然图像和遥感图像之间存在巨大的领域差异,这一新兴任务的发展一直步履维艰。
挑战:当开放词汇分割遇上遥感图像
将OVS技术直接应用于遥感图像面临诸多挑战:
- 视角差异:遥感图像是独特的"上帝视角",导致物体存在任意旋转、尺度变化巨大
- 特征差异:自然图像设计的OVS模型难以捕捉遥感图像特有的大尺度空间背景和光谱多样性
- 知识差异:现有模型未能充分利用遥感领域的先验知识,导致性能提升有限
- 评测标准不统一:不同研究使用不同的数据集和评测协议,结果难以公平比较
破局之道:统一基准与专用框架
为了解决这些问题,来自中科大、西工大等机构的研究者完成了两项重要工作:
OVRSISBench基准:建立了首个标准化的OVRSIS评测基准,基于开放词汇协议对现有遥感数据集进行划分,确保训练集和测试集之间的类别存在差异,真实模拟开放词汇场景。

RSKT-Seg框架:提出了一个专为遥感图像量身定制的新框架,不仅在精度上远超先前基线模型(平均mIoU提升3.8%,平均mACC提升5.9%),还通过高效的聚合策略实现了推理速度翻倍。

论文链接:
代码仓库 :

RSKT-Seg框架:三大创新模块揭秘
RSKT-Seg的核心思想是融合多源知识,并针对遥感图像特性进行专门优化。整个框架包含三个关键模块:
- 多方向代价图聚合(RS-CMA)
针对遥感图像中物体任意旋转的问题,RS-CMA模块通过多方向编码和遥感知识注入,生成具有旋转不变性的融合代价图。

工作流程:
- 将输入图像进行四次旋转(0°,90°,180°,270°)
- 使用CLIP图像编码器提取四个方向的视觉特征
- 使用在遥感数据上预训练的DINO编码器提取原图特征
- 计算CLIP视觉特征和DINO特征与文本特征之间的余弦相似度
- 融合所有代价图,生成最终融合代价图
该模块不引入任何需要学习的参数,非常高效。
- 高效代价图融合(RS-Fusion)
为进一步增强代价图的空间和类别判别能力,RS-Fusion模块设计了两个轻量级Transformer:
- 空间增强Transformer(SET):将代价图与来自CLIP和DINO的中间层特征拼接,通过交叉注意力机制在空间维度上聚合上下文信息。
- 类别增强Transformer(CET):在类别维度上进行操作,通过自注意力机制捕捉不同类别间的相互关系。
- 遥感知识迁移上采样(RS-Transfer Upsample)
为解决低分辨率代价图缺乏精细纹理的问题,该模块巧妙地将来自RemoteCLIP、CLIP和DINO编码器的多层中间特征注入上采样过程,恢复出与原图分辨率一致的精确分割掩码。
实验结果:精度与速度的双重飞跃
RSKT-Seg在OVRSISBench(包含DLRSD、iSAID等8个数据集)上进行了全面测试,结果令人印象深刻:

- 精度领先
与多种经典OVS方法和最新OVRSIS方法相比,RSKT-Seg在各项指标上均表现出色,平均mIoU提升3.8%,平均mACC提升5.9%。

- 速度突破
RSKT-Seg的平均推理时间仅为65.11毫秒,FPS达到15.36,实现了超过2倍的速度提升。

尽管RSKT-Seg的总参数量较大,但其可训练参数量(59.89M)远少于Cat-Seg(127.55M)和OVRS(127.57M),训练时间(7.96 ms/iter)成为所有对比方法中最快的。

领域知识的关键作用
为验证遥感专属知识的重要性,研究者对比了使用自然图像预训练的DINO和在遥感数据上预训练的DINO的效果。结果显示,rsDINO带来的性能提升明显优于natureDINO,证明了领域知识迁移在OVRSIS任务中的关键价值。

可视化效果
通过可视化对比可见,RSKT-Seg的分割结果在物体边界的精细度和类别区分的准确性上,都明显优于基线模型,更接近真实标签。



技术影响与未来展望
RSKT-Seg的成功不仅体现在各项指标的提升上,更为遥感领域的开放词汇分割研究指明了方向:
- 领域知识的重要性: 直接迁移自然图像模型效果有限,融入领域先验知识是关键
- 效率与精度的平衡: 通过巧妙的轻量化设计,可以在保持高精度的同时大幅提升效率
- 标准化评测的价值: 统一的评测基准极大地促进了领域内的公平比较和技术进步
尽管RSKT-Seg已取得显著成果,研究者也指出了其局限性,例如在有阴影遮挡的情况下,模型可能会发生误分类,这为未来研究提供了改进方向。
结语
这项工作的意义远不止于提出了一个性能卓越的模型,更重要的是为整个遥感开放词汇分割领域建立了标准化的评测基准和研究路径。RSKT-Seg框架的创新设计------特别是多方向代价图聚合和遥感知识迁移机制------为解决自然图像技术与遥感领域特性不匹配的问题提供了有效范例。
随着遥感技术的快速发展和应用需求的日益增长,开放词汇遥感图像分割必将在城市规划、环境监测、灾害评估等领域发挥越来越重要的作用。RSKT-Seg的出现,无疑加速了这一进程。