[2025CVPR]SEEN-DA：基于语义熵引导的领域感知注意力机制

引言

研究背景

方法介绍

核心思想

[语义熵（Semantic Entropy）](#语义熵（Semantic Entropy）)

引言

领域自适应目标检测（Domain Adaptive Object Detection, DAOD）旨在将源域上训练的目标检测器迁移到未标注的目标域。传统方法主要通过对齐视觉特征来提取领域不变知识，而近期基于视觉语言模型（VLM）的方法则利用文本编码器提供的语义信息来补充领域特定特征。然而，现有方法忽略了语义信息在指导视觉特征学习中的作用，导致冗余信息和领域特定特征的丢失。本文提出的SEEN-DA模型通过语义熵引导的领域感知注意力机制，有效解决了这些问题。

研究背景

领域自适应目标检测的挑战：
- 领域之间的显著差异导致检测性能下降。
- 传统方法主要关注视觉特征的对齐，忽视了语义信息的指导作用。
现有方法的局限性：
- 传统方法使用语义无关的类别标签（如one-hot编码），忽略了类别名称中的语义信息。
- 基于VLM的方法冻结视觉编码器，仅利用语义信息在检测头中进行调整，限制了视觉特征的判别能力。

方法介绍

核心思想

本文提出了一种基于语义熵引导的领域感知注意力机制（SEEN-DA），通过以下两个分支来优化视觉特征：

跨领域注意力分支：提取领域不变特征，消除冗余信息。
领域内注意力分支：补充领域特定的语义信息。

语义熵（Semantic Entropy）

语义熵用于量化视觉特征中与特定领域相关的语义信息量。其计算公式如下：

SE(T,f)=−c∑p(tc,f)log(p(tc,f))

其中，p(tc,f) 表示视觉特征 f 属于类别 c 的概率，T 是文本嵌入向量。

语义熵引导的注意力机制

通过语义熵作为注意力权重，调整视觉特征的权重：

SEAttention(T,f)=c∑p(tc,f)log(p(tc,f))+logK

其中，K 是类别数量。

领域感知注意力模块

该模块包含两个并行分支：

跨领域注意力分支：
- 使用共享的卷积模块捕获任务相关知识。
- 通过语义熵引导的注意力机制，抑制冗余信息。
领域内注意力分支：
- 使用独立的卷积模块和文本嵌入，补充领域特定的语义信息。

Figure 2.(a) Overview of the proposed SEEN-DA for DAOD, where the semantic entropy is utilized as attention in domain-aware attention module.(b) The architecture of domain-aware attention module, consisting of an inter-domain and an intra-domain attention branch.

实验设计

数据集

跨天气适应（Cityscapes→Foggy Cityscapes）：
- 源域：Cityscapes（晴天）
- 目标域：Foggy Cityscapes（雾天）
跨视场适应（KITTI→Cityscapes）：
- 源域：KITTI（乡村和高速公路场景）
- 目标域：Cityscapes（城市道路场景）
模拟到真实适应（SIM10K→Cityscapes）：
- 源域：SIM10K（虚拟场景）
- 目标域：Cityscapes（真实场景）
跨风格适应（Pascal VOC→Clipart）：
- 源域：Pascal VOC（真实图像）
- 目标域：Clipart（卡通图像）

实现细节

骨干网络：RegionCLIP（ResNet-50）
检测器：Faster-RCNN
优化器：SGD
学习率：使用warm-up策略
评估指标：平均精度（mAP）

结果与分析

对比实验结果

跨天气适应（Cityscapes→Foggy Cityscapes）：
- SEEN-DA的mAP达到57.5%，超过现有最佳方法DA-Pro 1.6%。
跨视场适应（KITTI→Cityscapes）：
- SEEN-DA的mAP为67.1%，提升了5.7%。
模拟到真实适应（SIM10K→Cityscapes）：
- SEEN-DA的mAP为66.8%，优于现有最佳方法SOCCER 3.0%。
跨风格适应（Pascal VOC→Clipart）：
- SEEN-DA的mAP为47.9%，在六个类别上表现优异。

Figure 3. Detection comparison on the Cross-Weather adaptation scenario. We visualize(a) the ground truth, the detection boxes of(b)SOTA DA-Pro $23$ and(c) our methods SEEN-DA.

消融实验

领域感知注意力模块的有效性：
- 跨领域注意力分支提升2.3% mAP。
- 领域内注意力分支进一步提升1.7% mAP。
投影层的影响：
- 将视觉嵌入投影到文本空间（V2T）效果最佳，mAP达到57.5%。

Figure 4. Ablation(%) on the number of attention modules on Cross-Weather adaptation.

代码实现

由于论文未提供具体代码，以下是基于PyTorch的伪代码框架：

复制代码

class DomainAwareAttention(nn.Module):
    def __init__(self, backbone, text_encoder):
        super().__init__()
        self.backbone = backbone
        self.text_encoder = text_encoder
        self.inter_attention = InterDomainAttention()
        self.intra_attention = IntraDomainAttention()

    def forward(self, source_img, target_img):
        # 提取视觉特征
        source_feat = self.backbone(source_img)
        target_feat = self.backbone(target_img)
        
        # 跨领域注意力
        inter_attention = self.inter_attention(source_feat, target_feat)
        
        # 领域内注意力
        intra_attention = self.intra_attention(source_feat, target_feat)
        
        return inter_attention, intra_attention

结论

本文提出的SEEN-DA模型通过语义熵引导的领域感知注意力机制，有效解决了领域自适应目标检测中的语义信息利用问题。实验结果表明，该方法在多个基准数据集上显著提升了检测性能，具有广泛的应用前景。

论文地址：https://openaccess.thecvf.com/content/CVPR2025/papers/Li_SEEN-DA_SEmantic_ENtropy_guided_Domain-aware_Attention_for_Domain_Adaptive_Object_CVPR_2025_paper.pdf