中科大西工大提出RSKT-Seg：精度速度双提升，开放词汇分割不再难

近年来，随着视觉-语言模型的快速发展，开放词汇分割（OVS）技术已成为自然图像处理领域的热点。这项技术让模型能够根据文本描述来分割任意类别的物体，打破了传统语义分割模型只能识别预设类别的限制。

很自然地，研究者们开始探索将这一技术迁移到遥感图像领域，即开放词汇遥感图像分割（OVRSIS）。然而，由于缺乏统一的评测标准，加上自然图像和遥感图像之间存在巨大的领域差异，这一新兴任务的发展一直步履维艰。

挑战：当开放词汇分割遇上遥感图像

将OVS技术直接应用于遥感图像面临诸多挑战：

为了解决这些问题，来自中科大、西工大等机构的研究者完成了两项重要工作：

OVRSISBench基准：建立了首个标准化的OVRSIS评测基准，基于开放词汇协议对现有遥感数据集进行划分，确保训练集和测试集之间的类别存在差异，真实模拟开放词汇场景。

RSKT-Seg框架：提出了一个专为遥感图像量身定制的新框架，不仅在精度上远超先前基线模型（平均mIoU提升3.8%，平均mACC提升5.9%），还通过高效的聚合策略实现了推理速度翻倍。

论文链接：

arxiv.org/abs/2509.12...

代码仓库 ：

github.com/LiBingyu01/...

RSKT-Seg的核心思想是融合多源知识，并针对遥感图像特性进行专门优化。整个框架包含三个关键模块：

针对遥感图像中物体任意旋转的问题，RS-CMA模块通过多方向编码和遥感知识注入，生成具有旋转不变性的融合代价图。

工作流程：

该模块不引入任何需要学习的参数，非常高效。

为进一步增强代价图的空间和类别判别能力，RS-Fusion模块设计了两个轻量级Transformer：

为解决低分辨率代价图缺乏精细纹理的问题，该模块巧妙地将来自RemoteCLIP、CLIP和DINO编码器的多层中间特征注入上采样过程，恢复出与原图分辨率一致的精确分割掩码。

RSKT-Seg在OVRSISBench（包含DLRSD、iSAID等8个数据集）上进行了全面测试，结果令人印象深刻：

与多种经典OVS方法和最新OVRSIS方法相比，RSKT-Seg在各项指标上均表现出色，平均mIoU提升3.8%，平均mACC提升5.9%。

RSKT-Seg的平均推理时间仅为65.11毫秒，FPS达到15.36，实现了超过2倍的速度提升。

尽管RSKT-Seg的总参数量较大，但其可训练参数量（59.89M）远少于Cat-Seg（127.55M）和OVRS（127.57M），训练时间（7.96 ms/iter）成为所有对比方法中最快的。

为验证遥感专属知识的重要性，研究者对比了使用自然图像预训练的DINO和在遥感数据上预训练的DINO的效果。结果显示，rsDINO带来的性能提升明显优于natureDINO，证明了领域知识迁移在OVRSIS任务中的关键价值。

通过可视化对比可见，RSKT-Seg的分割结果在物体边界的精细度和类别区分的准确性上，都明显优于基线模型，更接近真实标签。

RSKT-Seg的成功不仅体现在各项指标的提升上，更为遥感领域的开放词汇分割研究指明了方向：

尽管RSKT-Seg已取得显著成果，研究者也指出了其局限性，例如在有阴影遮挡的情况下，模型可能会发生误分类，这为未来研究提供了改进方向。

这项工作的意义远不止于提出了一个性能卓越的模型，更重要的是为整个遥感开放词汇分割领域建立了标准化的评测基准和研究路径。RSKT-Seg框架的创新设计------特别是多方向代价图聚合和遥感知识迁移机制------为解决自然图像技术与遥感领域特性不匹配的问题提供了有效范例。

随着遥感技术的快速发展和应用需求的日益增长，开放词汇遥感图像分割必将在城市规划、环境监测、灾害评估等领域发挥越来越重要的作用。RSKT-Seg的出现，无疑加速了这一进程。