基于提示引导适配器的实体级对齐遥感图文检索

Entity-Level Alignment with Prompt-Guided Adapter for Remote Sensing Image-Text Retrieval

摘要
[1. 引言](#1. 引言)
2.方法
- [2.1 预备知识：CLIP 与适配器](#2.1 预备知识：CLIP 与适配器)
- - [2.1.1 CLIP](#2.1.1 CLIP)
  - [2.1.2 适配器（Adapter）](#2.1.2 适配器（Adapter）)
- [2.2 提示引导注意力适配器（PAA）](#2.2 提示引导注意力适配器（PAA）)
- - [2.2.1 结构设计](#2.2.1 结构设计)
  - [2.2.2 参数微调](#2.2.2 参数微调)
- [2.3 伪标签监督式实体嵌入](#2.3 伪标签监督式实体嵌入)
- - [2.3.1 伪语义标签生成](#2.3.1 伪语义标签生成)
  - 生成流程分为三步：
  - [2.3.2 基于查询的实体编码器](#2.3.2 基于查询的实体编码器)
  - [2.3.3 逐实体二分类](#2.3.3 逐实体二分类)
- [2.4 跨模态实体级语义对齐](#2.4 跨模态实体级语义对齐)
[3. 实验](#3. 实验)
- [1. 实验设置](#1. 实验设置)
- 2.对比sota
- [3. 消融](#3. 消融)
总结

摘要

遥感图文检索（RSITR）是遥感领域的基础研究任务，近些年相关技术取得了长足发展。但现有算法大多缺少对遥感场景内语义实体的针对性关注，制约了模型的细粒度语义建模与跨模态匹配能力，最终造成检索效果不佳。针对上述短板，本文提出一种基于提示引导适配器的实体层级对齐框架（EAPA） ，通过显式完成遥感图文语义实体的特征感知、表征嵌入与跨模态对齐，提升检索性能。

该框架以CLIP（对比语言-图像预训练模型）为骨干网络，包含三大核心模块：提示引导注意力适配器（PAA）、伪标签监督实体嵌入模块（PEE）以及跨模态实体语义对齐模块（CESA）。

具体而言，PAA固定CLIP主干参数，引入可学习提示向量挖掘遥感专属的实体级语义信息，调控注意力权重分布、优化特征表征；为实现跨模态实体特征的语义一致性，PEE借助实体查询编码器分别提取图像与文本的实体嵌入特征，并采用伪语义标签做监督约束，保证各实体特征对应唯一明确的语义类别；在此基础上，CESA对相同语义类别的跨模态实体特征做一一匹配，有效减少错配问题、强化细粒度对齐效果。

在RSICD、RSITMD两个标准数据集上开展的大量实验表明，EAPA在多项评测指标上优于当前主流先进算法，证实了各模块在提升细粒度语义建模与跨模态匹配性能上的有效性。

关键词：遥感；图文检索；适配器；实体级语义建模；实体级语义匹配

1. 引言

随着遥感卫星技术飞速发展，遥感数据量呈指数级增长，亟需高效手段实现海量数据的管理与挖掘。遥感图文检索能够灵活、直观地调取多模态遥感数据，在资源勘查、灾害监测等领域具备重要应用价值，其任务目标是根据文本描述检索语义匹配的遥感影像，反之亦可。

预训练 - 微调范式现已成为遥感图文检索领域的主流方案，该框架依托预训练先验知识，可在下游数据集有限的条件下完成高效适配。早期方法采用独立预训练的图像、文本编码器提取单模态特征，并将特征映射至公共语义空间实现对齐，虽取得不错效果，但因缺少视觉 - 语言联合建模，难以挖掘遥感数据复杂的跨模态语义关联。

对比语言图像预训练模型 CLIP 大幅提升语义对齐效果，显著推动了遥感图文检索性能。除此之外，基于适配器、提示微调的参数高效迁移学习方案，能够以较低训练成本提升模型对遥感场景的适配能力。

依据语义对齐思路，现有遥感图文检索算法主要分为三类：（1）全局级方法：提取图文全局特征，依靠整体语义相似度完成跨模态对齐；（2）分块级方法：将图像均匀分块，在 Transformer 的交叉注意力等机制下，实现图像块与文本单词的一一匹配；（3）片段级方法：筛选图像关键语义区域，和文本词汇计算细粒度相似度，建模局部语义关联。

尽管遥感图文检索在整体检索性能上已取得长足进步，但现有方法大多没有针对性关注遥感场景中的语义实体，限制了模型的细粒度语义建模与跨模态匹配能力。遥感图像与文本通常包含多类语义实体，各类实体共同构成复杂的跨模态关联。因此，对实体进行显式感知、特征嵌入与跨模态对齐是实现精准检索的关键。然而现有方法在实体感知、嵌入和对齐环节均存在缺陷，无法有效区分实体组成不同但语义相近的图文样本，还容易受无关背景信息干扰，最终导致检索效果下降。

在语义实体感知方面，现有方法大多采用基于自然图像与通用文本预训练的骨干网络提取遥感图文特征。但机场、农田等遥感场景实体拥有区别于自然场景的独特语义特征与空间结构。受限于缺少遥感领域专属语义先验，预训练模型难以精准识别遥感特有实体。即便经过下游微调，由于缺少面向实体的专用学习策略，模型仍难以捕获关键语义，无法聚焦图像关键区域与文本关键词段，削弱了细粒度语义感知能力。

在语义实体嵌入与对齐层面，绝大多数现有遥感图文检索数据集仅标注图文整体对应关系，缺少细粒度语义标注，致使细粒度特征学习与对齐处于弱监督条件下。部分方法提取图文分块特征，依靠跨模态交互实现隐式局部对齐；还有方案提取图像区域特征与文本单词特征，依托区域-词语相似度完成显式匹配。上述方法虽能实现细粒度对齐，但受细粒度监督信息缺失制约，细粒度特征表达能力有限，特征所属语义类别模糊。这导致难以建立可靠的跨模态细粒度语义关联：语义一致的特征无法精准配对，语义无关的特征却容易错误匹配，最终降低细粒度跨模态检索精度。

为解决现有方法在语义实体感知、嵌入与对齐方面存在的不足 ，本文提出一种全新框架EAPA（提示引导适配器驱动的实体级对齐模型），用以提升遥感图文检索任务的细粒度语义建模与跨模态匹配性能（见图1©）。该框架以CLIP模型为基础，包含三大核心模块：提示引导注意力适配器（PAA）、伪标签监督实体嵌入模块（PEE）、跨模态实体级语义对齐模块（CESA）。

具体来说，PAA模块固定CLIP主干网络参数，引入可学习提示向量引导Transformer层内注意力分配，在训练开销较小的前提下强化实体相关语义特征，使模型聚焦图文内的关键实体。PEE模块借助基于实体查询的编码器提取实体级特征，并为图像、文本两种模态生成伪标签；利用伪标签监督特征学习，保证每一个实体特征唯一对应一类语义。在此基础上，CESA对属于同一语义类别的跨模态实体特征进行一一匹配，有效避免错配现象，提升细粒度对齐效果。值得注意的是，PEE与CESA仅在模型训练阶段启用，推理阶段不参与运算。

在RSICD、RSITMD数据集上的实验结果表明，EAPA在多项评价指标上优于现有最优算法，验证了所提实体感知、实体嵌入、实体对齐方案的有效性。本文主要创新点总结如下：

为提升遥感图文检索的细粒度语义建模与跨模态匹配能力，本文提出EAPA新框架，从多模态层面针对性优化语义实体的感知、嵌入与对齐过程，进而提升检索效果。
本文设计了提示引导注意力适配器（PAA）模块：引入可学习提示向量优化注意力分布、增强语义信息，同时冻结CLIP主干网络以降低训练开销。
本文提出伪标签监督实体嵌入（PEE）模块，融合伪语义标签与实体查询机制，引导生成具备明确语义类别的实体级特征，提升特征的语义区分度与跨模态语义一致性。
设计跨模态实体级语义对齐（CESA）模块，仅对相同语义类别的实体特征做一一匹配，有效防止错配，提升细粒度对齐精度。

2.方法

2.1 预备知识：CLIP 与适配器

2.1.1 CLIP

图 2：EAPA 总体框架。我们的框架由四个部分组成：1）CLIP用于从图像和文本中提取初步的语义对齐特征，其参数被冻结； 2）PAA引入可学习的提示来优化Transformer层中的注意力分布，并增强输出特征中实体特定的语义信息，引导模型关注语义实体； 3）PEE采用基于实体查询机制的编码器来提取实体级嵌入并生成用于监督分类的伪实体标签，确保每个嵌入对应于显式语义类别； 4）CESA对共享相同语义类别的跨模态实体嵌入进行一对一对齐，避免语义不一致的对齐

EAPA网络结构如图2所示。本文选取CLIP作为语义建模的骨干网络，该模型由视觉编码器与文本编码器两部分构成，两类编码器均由嵌入层和后续 L L L层Transformer堆叠而成。

定义遥感图文检索数据集： O = { ( I n , T n ) } n = 1 N \boldsymbol{O}=\{(I_{n}, T_{n})\}_{n=1}^{N} O={(In,Tn)}n=1N， N N N为图文匹配样本对的总数量。

输入图像 I I I先被切分为若干图像块，经过嵌入层运算生成附带位置编码的视觉Token序列；在序列首部添加专用** $CLS$ 标记用于聚合全局语义，得到图像初始输入特征 I 0 ∈ R N I × D I \boldsymbol{I}^{0} \in \mathbb{R}^{N_{I} ×D_{I}} I0∈RNI×DI，式中 N I N_{I} NI代表序列长度， D I D_{I} DI为特征嵌入维度。
与之对应，文本 T T T通过字节对编码（BPE）完成分词，经嵌入并叠加位置编码后，在序列尾部拼接 $EOS$ 终止标记**表征全文整体语义，最终得到文本初始特征 T 0 ∈ R N T × D T \boldsymbol{T}^{0} \in \mathbb{R}^{N_{T} ×D_{T}} T0∈RNT×DT。

I 0 I^0 I0与 T 0 T^0 T0均经过 L L L层Transformer完成特征交互与表征学习。单层Transformer由多头自注意力（MSA）和前馈网络（FFN）组成，两模块均配置残差连接与层归一化（LN），计算公式如下：

X ^ l = M S A ( L N ( X l − 1 ) ) + X l − 1 (1) \hat{X}^{l}=MSA\left(LN\left(X^{l-1}\right)\right)+X^{l-1} \tag{1} X^l=MSA(LN(Xl−1))+Xl−1(1)

X l = F F N ( L N ( X ^ l ) ) + X ^ l X^{l}=FFN\left(LN\left(\hat{X}^{l}\right)\right)+\hat{X}^{l} Xl=FFN(LN(X^l))+X^l

式中： X l − 1 X^{l-1} Xl−1、 X ^ l \hat{X}^{l} X^l、 X l X^{l} Xl依次代表第 l l l层Transformer的输入、中间特征与输出。

多头自注意力（MSA）将输入特征映射为多组查询、键、值张量，各组独立执行自注意力运算后拼接结果，完成多头注意力计算：

M S A ( X ) = C o n c a t ( S A ( 1 ) , . . . , S A ( K ) ) W o MSA(X)=Concat\left(SA^{(1)}, ..., SA^{(K)}\right) W_{o} MSA(X)=Concat(SA(1),...,SA(K))Wo

S A ( i ) ( X ) = s o f t m a x ( X Q ( i ) ( X K ( i ) ) ⊤ d h ) X V ( i ) (4) SA^{(i)}(X)=softmax\left( \frac {X_{Q}^{(i)}(X_{K}^{(i)})^{\top }}{\sqrt {d_{h}}}\right) X_{V}^{(i)} \tag{4} SA(i)(X)=softmax(dh XQ(i)(XK(i))⊤)XV(i)(4)

X Q ( i ) = X W Q ( i ) , X K ( i ) = X W K ( i ) , X V ( i ) = X W V ( i ) (5) X_{Q}^{(i)}=XW_{Q}^{(i)}, X_{K}^{(i)}=XW_{K}^{(i)}, X_{V}^{(i)}=XW_{V}^{(i)} \tag{5} XQ(i)=XWQ(i),XK(i)=XWK(i),XV(i)=XWV(i)(5)

式中： W Q ( i ) 、 W K ( i ) 、 W V ( i ) W_{Q}^{(i)}、W_{K}^{(i)}、W_{V}^{(i)} WQ(i)、WK(i)、WV(i) 为第 i i i个注意力头的映射权重矩阵， W o W_o Wo是输出投影矩阵； K K K代表注意力头总数， d h d_h dh为单个注意力头的特征维度。

前馈网络（FFN）由两层全连接层构成，中间层使用GELU激活函数：

F F N ( X ) = G E L U ( X W 1 + b 1 ) W 2 + b 2 FFN(X)=GELU\left(X W_{1}+b_{1}\right) W_{2}+b_{2} FFN(X)=GELU(XW1+b1)W2+b2

式中： W 1 、 W 2 W_1、W_2 W1、W2为权重矩阵， b 1 、 b 2 b_1、b_2 b1、b2为偏置参数。

经过 L L L层Transformer运算得到的最终输出，通过可学习线性投影映射至维度为 D D D的公共特征空间，得到图像特征 F I ∈ R N I × D F^{I} \in \mathbb{R}^{N_{I} ×D} FI∈RNI×D与文本特征 F T ∈ R N T × D F^{T} \in \mathbb{R}^{N_{T} ×D} FT∈RNT×D。

采用图像全局特征 F C L S I F_{CLS}^{I} FCLSI和文本全局特征 F E O S T F_{EOS}^{T} FEOST的余弦相似度 S S S衡量二者整体语义匹配程度，其中 F C L S I F_{CLS}^{I} FCLSI、 F E O S T F_{EOS}^{T} FEOST分别为图像 $CLS$ 标记与文本 $EOS$ 标记对应的嵌入向量。

2.1.2 适配器（Adapter）

原始适配器 $8$ 借助残差连接嵌入每层Transformer的前馈网络FFN之后，实现特征表征面向遥感任务的适配。适配器由降维投影层 W d o w n W_{down} Wdown、非线性激活函数与升维投影层 W u p W_{up} Wup三部分组成。此时式(2)改写为：

X l = A d a p t e r ( F F N ( L N ( X ^ l ) ) ) + X ^ l X^{l}=Adapter\left(FFN\left(LN\left(\hat{X}^{l}\right)\right)\right)+\hat{X}^{l} Xl=Adapter(FFN(LN(X^l)))+X^l

A d a p t e r ( X ) = s 1 ⋅ ( G E L U ( X W d o w n ) W u p ) + X (8) Adapter (X)=s_{1} \cdot\left(GELU\left(X W_{down }\right) W_{up }\right)+X \tag{8} Adapter(X)=s1⋅(GELU(XWdown)Wup)+X(8)

式中： s 1 ∈ R s_{1} \in \mathbb{R} s1∈R为可学习缩放系数，用于调控适配器模块的作用权重。

2.2 提示引导注意力适配器（PAA）

2.2.1 结构设计

提示引导注意力适配器（PAA）包含两个子模块：提示条件自注意力（PC-SA）与提示衍生交叉注意力（PD-CA），二者分别用于调整注意力权重分布、强化特征语义信息。

具体而言，本文引入可学习提示向量辅助模型学习遥感语义实体知识，每条提示对应一类特定语义，引导注意力聚焦相关遥感实体。针对第 l l l层Transformer，定义图像提示 P l I ∈ R N P × D I P_{l}^{I} \in \mathbb{R}^{N_{P} ×D_{I}} PlI∈RNP×DI与文本提示 P l T ∈ R N P × D T P_{l}^{T} \in \mathbb{R}^{N_{P} ×D_{T}} PlT∈RNP×DT， N P N_{P} NP代表提示数量。所有提示参数初始随机赋值。为促进跨模态语义对齐，在后 L s h a r e L_{share} Lshare层Transformer中，图像提示经变换得到匹配的文本提示。

为提升模型对语义实体的感知能力，本文提出提示条件自注意力（PC-SA）机制。该模块融合提示引导注意力，对原有注意力权重分布进行修正，计算公式如下：

P C − S A ( i ) ( X ) = $s o f t m a x ( X Q ( i ) ( X K ( i ) ) ⊤ d h ) ⏟ 原始注意力 + s 2 \cdot s o f t m a x ( X Q ( i ) ( P K ( i ) ) ⊤ P K ( i ) ( X Q ( i ) ) ⊤ d h ) ⏟ 提示条件注意力$ X V ( i ) PC-SA ^{(i)}(X)=\left $\\underbrace{softmax\\left(\\frac{X_{Q}\^{(i)}\\left(X_{K}\^{(i)}\\right)\^{\\top}}{\\sqrt{d_{h}}}\\right)}_{原始注意力}+ s_{2} \\cdot \\underbrace{softmax\\left(\\frac{X_{Q}\^{(i)}\\left(P_{K}\^{(i)}\\right)\^{\\top} P_{K}\^{(i)}\\left(X_{Q}\^{(i)}\\right)\^{\\top}}{\\sqrt{d_{h}}}\\right)}_{提示条件注意力}\\right$ X_{V}^{(i)} PC−SA(i)(X)= 原始注意力 softmax dh XQ(i)(XK(i))⊤ +s2⋅提示条件注意力 softmax dh XQ(i)(PK(i))⊤PK(i)(XQ(i))⊤ XV(i)

式中 P K ( i ) = P W K ( i ) P_{K}^{(i)}=P W_{K}^{(i)} PK(i)=PWK(i)， s 2 ∈ R s_{2} \in \mathbb{R} s2∈R为可学习缩放系数。第一项为由输入查询、键值计算得到的原始自注意力分布；第二项借助提示生成的语义先验修正注意力权重。通过融合原生注意力与提示约束注意力，PC-SA能够让模型更精准地捕获实体层级语义特征。

为进一步强化输出特征中的实体级语义信息，本文提出提示衍生交叉注意力（PD-CA）机制。PD-CA将提示所包含的实体专属先验信息嵌入特征，补充额外语义内容，计算公式如下：

P D − C A ( i ) ( X ) = s o f t m a x ( X Q ( i ) ( P K ( i ) ) ⊤ d h ) P V ( i ) (10) PD-CA ^{(i)}(X)=softmax\left(\frac {X_{Q}^{(i)}\left(P_{K}^{(i)}\right)^{\top }}{\sqrt {d_{h}}}\right) P_{V}^{(i)} \tag{10} PD−CA(i)(X)=softmax dh XQ(i)(PK(i))⊤ PV(i)(10)

将PAA模块嵌入原始多头自注意力结构后，式(1)改写为：

X ^ ( l ) = M S A P A A ( L N ( X ( l − 1 ) ) ) + X ( l − 1 ) (11) \hat{X}^{(l)}=MSA_{PAA}\left(LN\left(X^{(l-1)}\right)\right)+X^{(l-1)} \tag{11} X^(l)=MSAPAA(LN(X(l−1)))+X(l−1)(11)

M S A P A A ( X ) = $C o n c a t ( P C - S A ( 1 ) , . . . , P C - S A ( K ) ) ⏟ 原始语义信息 + s 3 \cdot C o n c a t ( P D - C A ( 1 ) , . . . , P D - C A ( K ) ) ⏟ 提示衍生语义信息$ W o \begin{aligned} MSA_{PAA }(X)= & \left $\\underbrace{ Concat \\left( PC-SA \^{(1)}, ..., PC-SA \^{(K)}\\right)}_{原始语义信息} + \\right. \\\\ \& \\left.s_{3} \\cdot \\underbrace{ Concat \\left(PD-CA\^{(1)}, ..., PD-CA\^{(K)}\\right)}_{提示衍生语义信息}\\right$ W_{o} \end{aligned} MSAPAA(X)= 原始语义信息 Concat(PC−SA(1),...,PC−SA(K))+s3⋅提示衍生语义信息 Concat(PD−CA(1),...,PD−CA(K)) Wo

式中 s 3 ∈ R s_{3} \in \mathbb{R} s3∈R为可学习缩放系数。

不同于传统适配器，PAA借助可学习提示向量主动引导注意力。PC‑SA与PD‑CA协同工作，以提示作为语义锚点突出关键实体，实现语义信息的自适应增强。

2.2.2 参数微调

本文采用参数高效微调方案：冻结CLIP全部预训练权重，仅优化新增模块参数。该策略既能充分复用预训练习得的通用知识，又能以少量可训练参数适配遥感图文检索任务。模型采用图文对比损失优化，损失公式如下：

L I T C = − 1 N ∑ i = 1 N ( l o g e x p ( S i , i / τ ) ∑ j = 1 N e x p ( S i , j / τ ) + l o g e x p ( S i , i / τ ) ∑ j = 1 N e x p ( S j , i / τ ) ) \mathcal{L}{ITC}=-\frac {1}{N} \sum {i=1}^{N}\left( log \frac {exp \left(S{i, i} / \tau\right)}{\sum {j=1}^{N} exp \left(S{i, j} / \tau\right)}+log \frac{exp \left(S{i, i} / \tau\right)}{\sum_{j=1}^{N} exp \left(S_{j, i} / \tau\right)}\right) LITC=−N1i=1∑N(log∑j=1Nexp(Si,j/τ)exp(Si,i/τ)+log∑j=1Nexp(Sj,i/τ)exp(Si,i/τ))

式中： S i , j S_{i,j} Si,j代表批次内第 i i i张图像全局特征与第 j j j条文本全局特征的余弦相似度， τ \tau τ为可学习温度系数，批次样本总量为 N N N。

PAA在参数量开销较低的前提下，有效提升了模型对语义实体的感知能力。

2.3 伪标签监督式实体嵌入

2.3.1 伪语义标签生成

为使每个实体嵌入能够对应专属语义类别，本文为图像与文本构建伪语义标签，作为弱语义监督信息。现有遥感图文检索数据集大多仅为每组图文样本配置单一标签，难以完整覆盖两种模态包含的全部语义内容。针对该缺陷，在保留原有类别集合的基础上扩展为多标签形式，从而实现图像、文本的伪多标签生成。

生成流程分为三步：

步骤1：文本与类别相似度计算

借助spaCy开源工具包内置轻量级英文自然语言处理模型en_core_web_sm $7$ ，从文本 T T T中提取名词短语；再通过Sentence-Transformers库的paraphrase-MiniLM-L6-v2模型 $26$ ，分别对提取的名词短语与预先定义的类别名称做特征嵌入。逐一计算各名词短语和类别名称间的余弦相似度，保留每个类别对应的最大相似度数值，最终得到相似度向量 S T ∈ R N E S^{T} \in \mathbb{R}^{N_{E}} ST∈RNE，用来表征各类别和当前文本的关联程度。

步骤2：文本伪标签分配

依据相似度得分 S T S^{T} ST划定文本伪标签，规则如下：

L i T = { 1 , S i T ≥ θ h （确定存在该类别） 0 , S i T ≤ θ l （确定不存在该类别） − 1 , 其他情况（类别归属不确定） L_{i}^{T}= \begin{cases} 1, & S_{i}^{T} \geq \theta {h}（确定存在该类别）\\ 0, & S{i}^{T} \leq \theta _{l}（确定不存在该类别）\\ -1, & 其他情况（类别归属不确定） \end{cases} LiT=⎩ ⎨ ⎧1,0,−1,SiT≥θh（确定存在该类别）SiT≤θl（确定不存在该类别）其他情况（类别归属不确定）

式中 θ h \theta_{h} θh、 θ l \theta_{l} θl分别为预先设定的高低阈值。

步骤3：图像伪标签聚合

单张图像 I I I通常配套5条匹配文本 T 1 , . . . , T 5 T_{1}, ..., T_{5} T1,...,T5，汇总全部文本伪标签以确定图像伪标签 L i I L_{i}^{I} LiI：

L i I = { 1 , ∃ k ∈ { 1 , . . . , 5 } ，满足 L i T k = 1 0 , ∀ k ∈ { 1 , . . . , 5 } ，满足 L i T k = 0 − 1 , 其余情形 L_{i}^{I}= \begin{cases} 1, & \exists k \in \{ 1, ..., 5\}，满足 L_{i}^{T_{k}}=1 \\ 0, & \forall k \in\{ 1, ..., 5\}，满足 L_{i}^{T_{k}}=0 \\ -1, & 其余情形 \end{cases} LiI=⎩ ⎨ ⎧1,0,−1,∃k∈{1,...,5}，满足LiTk=1∀k∈{1,...,5}，满足LiTk=0其余情形

2.3.2 基于查询的实体编码器

随机初始化实体查询矩阵 Q ∈ R N E × D Q \in \mathbb{R}^{N_{E} ×D} Q∈RNE×D，依托改进型查询式实体编码器 $18$ ，分别从图像特征 F I F^{I} FI、文本特征 F T F^{T} FT中提取图像实体嵌入 E I ∈ R N E × D E^{I} \in \mathbb{R}^{N_{E} ×D} EI∈RNE×D与文本实体嵌入 E T ∈ R N E × D E^{T} \in \mathbb{R}^{N_{E} ×D} ET∈RNE×D。

为进一步提升实体嵌入的表征能力，本文对编码器结构做出两处优化改进：

第一，使用前文提出的提示条件自注意力替换原生自注意力，优化注意力权重分布；

第二，采用卷积门控线性单元 $28$ 替代传统前馈网络，更高效地捕获各实体查询之间的局部关联特征。

2.3.3 逐实体二分类

针对实体嵌入开展多标签分类，将每个实体嵌入对应类别的判别视作一项独立二分类任务。具体来说，类别 i i i对应的图像实体嵌入 E i I E_{i}^{I} EiI与文本实体嵌入 E i T E_{i}^{T} EiT，经由带Sigmoid激活的线性层，分别输出类别预测概率 P r e i I ∈ R Pre_{i}^{I} \in \mathbb{R} PreiI∈R、 P r e i T ∈ R Pre_{i}^{T} \in \mathbb{R} PreiT∈R，计算公式如下：

P r e i I = S i g m o i d ( W i ⋅ E i I + b i ) , P r e i T = S i g m o i d ( W i ⋅ E i T + b i ) (16) Pre_{i}^{I}=Sigmoid\left(W_{i} \cdot E_{i}^{I}+b_{i}\right),\ Pre_{i}^{T}=Sigmoid\left(W_{i} \cdot E_{i}^{T}+b_{i}\right) \tag{16} PreiI=Sigmoid(Wi⋅EiI+bi), PreiT=Sigmoid(Wi⋅EiT+bi)(16)

式中： W i ∈ R D W_{i} \in \mathbb{R}^{D} Wi∈RD与 b i b_{i} bi为类别 i i i专属线性层参数， ⋅ \cdot ⋅代表向量点积运算。

分类训练阶段采用二分类交叉熵损失，忽略伪标签为 − 1 -1 −1的实体嵌入样本 ，损失函数定义如下：

L C L S = − 1 N ∑ n = 1 N ( E i ∼ S I n B ( L i I n , P r e i I n ) + E j ∼ S T n B ( L j T n , P r e j T n ) ) \mathcal{L}{CLS}=-\frac{1}{N} \sum{n=1}^{N}\left(\mathbb{E}{i \sim \mathcal{S}{I_{n}}} \mathcal{B}\left(L_{i}^{I_{n}}, Pre_{i}^{I_{n}}\right)+\mathbb{E}{j \sim \mathcal{S}{T_{n}}} \mathcal{B}\left(L_{j}^{T_{n}}, Pre_{j}^{T_{n}}\right)\right) LCLS=−N1n=1∑N(Ei∼SInB(LiIn,PreiIn)+Ej∼STnB(LjTn,PrejTn))

式中： B ( l , p ) = l log ⁡ p + ( 1 − l ) log ⁡ ( 1 − p ) \mathcal{B}(l,p)=l \log p+(1-l)\log(1-p) B(l,p)=llogp+(1−l)log(1−p)代表二分类交叉熵计算公式； S I n = { i ∣ L i I n ≠ − 1 } \mathcal{S}{I{n}}=\{i \mid L_{i}^{I_{n}} \neq-1\} SIn={i∣LiIn=−1}、 S T n = { j ∣ L j T n ≠ − 1 } \mathcal{S}{T{n}}=\{j \mid L_{j}^{T_{n}} \neq-1\} STn={j∣LjTn=−1}分别表示当前图像、文本中标签取值确定（非 − 1 -1 −1）的类别集合， N N N为样本总数。

补充说明：标签 − 1 -1 −1代表类别不确定样本，不参与分类损失计算。

2.4 跨模态实体级语义对齐

为实现显式的实体级语义对齐学习，本文计算相同语义类别下图像实体嵌入与文本实体嵌入的聚合相似度。具体而言，给定图像实体特征 E I E^{I} EI与文本实体特征 E T E^{T} ET，对同类别实体配对做缩放点积相似度运算，再聚合得到整体实体相似度：

E S = 1 ∣ N E ∣ ∑ i = 1 N E E i I ( E i T ) ⊤ D E S=\frac{1}{\left|N_{E}\right|} \sum_{i=1}^{N_{E}} \frac{E_{i}^{I}\left(E_{i}^{T}\right)^{\top}}{\sqrt{D}} ES=∣NE∣1i=1∑NED EiI(EiT)⊤

式中：实体相似度 E S ∈ R ES \in \mathbb{R} ES∈R用于量化图像 I I I和文本 T T T在实体维度的语义匹配程度， N E N_E NE为实体类别总数， D D D是特征维度。

本文定义跨模态实体级语义对齐损失如下：

L C E S A = − 1 N ∑ i = 1 N ( l o g e x p ( E S i , i / τ ) ∑ j = 1 N e x p ( E S i , j / τ ) + l o g e x p ( E S i , i / τ ) ∑ j = 1 N e x p ( E S j , i / τ ) ) \mathcal{L}{CESA}=-\frac{1}{N} \sum{i=1}^{N}\left(log \frac{exp \left(E S_{i, i} / \tau\right)}{\sum_{j=1}^{N} exp \left(E S_{i, j} / \tau\right)}+log \frac{exp \left(E S_{i, i} / \tau\right)}{\sum_{j=1}^{N} exp \left(E S_{j, i} / \tau\right)}\right) LCESA=−N1i=1∑N(log∑j=1Nexp(ESi,j/τ)exp(ESi,i/τ)+log∑j=1Nexp(ESj,i/τ)exp(ESi,i/τ))

式中 τ \tau τ为温度缩放系数。该损失函数促使匹配图文样本的实体相似度尽可能增大，同时降低不匹配样本间的实体相似度。

本文所提EAPA框架的总损失目标函数如下：

L = L I T C + λ 1 L C L S + λ 2 L C E S A (20) \mathcal{L}=\mathcal{L}{ITC}+\lambda{1} \mathcal{L}{CLS}+\lambda{2} \mathcal{L}_{CESA} \tag{20} L=LITC+λ1LCLS+λ2LCESA(20)

式中： L I T C \mathcal{L}{ITC} LITC为基于全局特征的图文对比损失， L C L S \mathcal{L}{CLS} LCLS为实体嵌入的分类损失， L C E S A \mathcal{L}_{CESA} LCESA为跨模态实体级语义对齐损失；超参数 λ 1 、 λ 2 \lambda_1、\lambda_2 λ1、λ2用于权衡三项损失各自的权重占比。

3. 实验

1. 实验设置

数据集

本文在遥感图文检索领域两个常用数据集RSICD、RSITMD上开展实验，验证所提EAPA框架的有效性。

RSICD数据集包含10921张遥感影像，共30个语义类别，所有图像统一缩放至224×224像素，单张图像配套5条文本描述。

RSITMD数据集拥有4743张影像、32类语义标签，图像分辨率为256×256像素；相较于RSICD，该数据集的文本描述粒度更细、内容更加丰富多样。

沿用现有文献 $39,42$ 的通用划分规则，将数据集拆分为训练集、验证集与测试集。
评价指标

采用召回率Recall@K（ R @ K R@K R@K， K K K取1、5、10）与平均召回率mR作为检索性能评测指标。

R @ K R@K R@K用于统计：真实匹配样本出现在检索结果前 K K K位的查询样本占比；

mR综合图像搜文本、文本搜图像两项任务共6组 R @ K R@K R@K指标取均值，实现模型性能的全面评估。
实验细节

本文选用ViT-B/32结构作为CLIP主干的视觉编码器，模型权重采用在LAION-2B数据集上完成预训练的参数进行初始化 $27$ 。基于PyTorch深度学习框架，在单块40GB显存的NVIDIA A40显卡上完成模型训练。优化器选用AdamW，初始学习率设置为0.0004，权重衰减系数为0.04，学习率采用热身预热+线性衰减的调度策略。模型总训练轮数50轮，批次大小为256。

提示相关参数配置：提示长度 N P N_{P} NP在RSICD数据集设为32，RSITMD数据集设为34；共享提示层数 L s h a r e L_\mathrm{share} Lshare统一取值1。

伪标签判定相似度阈值：高阈值 θ h = 0.7 \theta_h=0.7 θh=0.7、低阈值 θ l = 0.3 \theta_l=0.3 θl=0.3；对比损失温度系数 τ = 0.07 \tau=0.07 τ=0.07。

损失权重系数：RSICD数据集 λ 1 = 0.5 、 λ 2 = 1.3 \lambda_1=0.5、\lambda_2=1.3 λ1=0.5、λ2=1.3；RSITMD数据集 λ 1 = 0.5 、 λ 2 = 2.0 \lambda_1=0.5、\lambda_2=2.0 λ1=0.5、λ2=2.0。

模型代码及补充实验材料开源地址：https://github.com/2632424830/EAPA。

2.对比sota

为验证本文所提EAPA框架的有效性，将其与两类遥感图文检索算法开展对比：非CLIP架构方法 与基于CLIP架构的方法 。

非CLIP类方法包含LW-MCR $41$ 、GaLR $42$ 、SWAN $24$ 、PIR $23$ 、MSA $35$ 、SCAT-PRG $33$ 以及DOVE $21$ 。

基于CLIP的方法按照微调方案划分为五类：

零样本CLIP $25$ ：直接使用预训练权重，不对模型做任何适配微调；

线性探测方案 $25$ ：仅更新在CLIP主干末端新增的线性层参数；

全量微调方案：代表方法为GLISA $9$ 、IERR $34$ ，迭代优化CLIP主干全部参数；

适配器微调方案：如UniAdapter $19$ 、PE-RSITR $39$ 、HarMA $10$ ，通过嵌入轻量化模块实现高效下游适配；

提示微调方案：包括VPT $14$ 、MaPLE $16$ 、CUP $32$ ，冻结主干网络，仅优化可学习提示参数。

所有对比算法的实验指标均取自其原始论文或相关参考文献 $32,39$ 。

如表1结果所示，本文提出的EAPA框架取得了显著的性能提升。

在RSICD数据集上，图像检索文本任务 R@1指标为20.31、平均召回mR为37.45，相比次优对比方法分别提升4.0%、1.2%；

在RSITMD数据集上，R@1达到29.87，mR为49.91，较第二名基线模型分别提升5.9%、2.8%。

依托优秀的跨模态语义对齐能力，基于CLIP的算法整体性能优于传统非CLIP方法，而EAPA在CLIP派系算法中实现了进一步突破，大幅领先GLISA、IERR等全参数微调方案。

在RSICD与RSITMD数据集上，EAPA相比GLISA的mR分别提升1.2%、3.1%；相比IERR的mR分别提升11.8%、2.8%。

适配器类与提示微调类方法虽具备参数高效的优势，但检索精度通常不及全量微调方案。与之相比，EAPA在RSICD、RSITMD数据集上mR分别高出11.4%、7.3%，验证了方法的优异效果。

性能增益来源于EAPA三大核心模块的协同作用：实体语义感知、实体特征提取嵌入以及跨模态对齐，同时该框架可高效复用大规模预训练权重并适配遥感场景。

3. 消融

在RSICD、RSITMD两个数据集上开展消融实验，逐一验证EAPA框架各组成模块的有效性，实验结果如表2所示。

由于跨模态实体对齐（CESA）模块依赖实体编码器（PEE）的输出结果，本文设计5组消融对照模型：

(a) 基线模型（Baseline） ：在CLIP主干中接入适配器，采用原始图文对比学习；

(b) EAPA移除PEE+CESA ：剔除PEE与CESA模块，仅保留PAA提示增强模块；

(d) EAPA移除PAA ：保留PEE、CESA模块，去掉PAA模块；

(e) EAPA移除CESA：保留PAA、PEE模块，去掉CESA模块。

缩写释义：

PAA：Prompt-Aided Entity Enhancement（提示辅助特征增强模块）

PEE：Pseudo-label Entity Encoder（伪标签实体编码模块）

CESA：Cross-Modal Entity Semantic Alignment（跨模态实体语义对齐模块）

实验结果表明各个模块从不同维度带来性能提升。具体来看，消融PAA模块的实验组(d)在RSICD数据集上指标出现明显下滑：平均召回mR由37.45降至36.59，以图搜文本R@1从20.31下跌至19.40。这说明PAA模块能够有效优化注意力分布，对文本描述粗糙、结构化程度低的数据集增益尤为突出。

为探究PEE模块作用，对比实验组(b)与(e)：仅接入PEE、去掉CESA后模型性能有所上涨，RSICD数据集mR从36.69提升至36.97，RSITMD数据集mR由47.77升至47.98。该结果证实借助伪标签监督，PEE能够提升实体嵌入的语义区分度。

CESA模块在文本细粒度高、描述多样化的RSITMD数据集上效果最显著。对比完整模型与实验组(e)，剔除CESA后mR从49.91大幅回落至47.98，由此证明跨模态一致性语义对齐至关重要，在需要实体精准一一匹配的任务场景下不可或缺。

综上可得：各模块的作用效果由数据集自身的语义特点决定。RSICD 数据集的文本描述粒度粗、内容单一，PAA 模块优势突出，该模块通过引导注意力聚焦关键视觉区域，弥补文本细节匮乏的短板；而 RSITMD 数据集文本描述粒度细致、实体信息丰富，CESA 模块效果更优，依靠约束语义一致的实体实现跨模态一一对齐带来明显性能提升。上述实验结果印证了 PAA 与 CESA 在不同语义场景下具备优势互补的特性。

针对分别控制 PEE 模块、CESA 模块、PAA 模块的超参数(\lambda_1)、(\lambda_2)与提示长度(N_P)开展消融实验，探究各参数对模型性能的影响，实验结果如图 3 所示。实验表明参数取适中数值时模型性能最优：RSICD 数据集最优配置为(\lambda_1=0.5、\lambda_2=1.3)；而 RSITMD 数据集需要更大的对齐损失权重，最优(\lambda_2=2.0)。该结论说明需要合理权衡实体嵌入监督与实体对齐监督的权重配比。RSITMD 数据集文本描述细节丰富、实体密集，样本内多实体共存、样本间语义重叠现象普遍，因此更强的对齐约束能够帮助模型捕捉细微的跨模态语义关联、减少匹配错误，对提升细粒度检索精度起到关键作用。同时探究了 PAA 模块中提示向量数量(N_P)的影响：在临界值前，增大(N_P)可提升指标；超过该数值后，冗余提示反而造成性能下滑。RSICD 最优提示长度(N_P=32)，语义更复杂的 RSITMD 适配稍多提示，(N_P=34)时 mR 指标最高。这说明适度扩充提示数量可以优化实体维度的注意力分配，对细粒度语义复杂的数据集增益明显。综上，实体建模的最优超参配置需要贴合数据集自身语义特征：标注简略、语义粗粒度的数据集采用适中的监督权重与提示数量即可；实体丰富、语义复杂的数据集则需要更强的对齐约束与更多提示。通过自适应调参，能够更好地将预训练模型迁移适配各类实际遥感图文检索场景。

总结

尽管遥感图像-文本检索（RSITR）领域已取得长足进展，但现有算法往往忽视遥感场景中的语义实体，在细粒度语义建模与跨模态匹配方面仍存在短板。

针对该问题，本文提出EAPA框架，从实体感知、实体嵌入、实体对齐 三个互补维度系统性优化语义建模能力。

具体而言：

PAA模块借助提示向量引导模型关注图文内关键实体；

PEE模块引入伪标签监督带明确语义类别的实体特征提取，提升实体表征的区分度与一致性；在此基础上，CESA模块对跨模态下语义一致的实体特征做对齐约束，减少误匹配、提升细粒度检索效果。

本文验证了在遥感跨模态检索任务中显式建模并对齐语义实体的必要性，证实融合实体感知、实体嵌入与实体对齐的一体化框架能够高效处理复杂细粒度语义。后续研究将探究实体空间关系的显式建模，进一步深化模型对实体层级语义的理解能力。