学习语言驱动的序列级别模态不变表示用于视频可见光-红外行人重识别

杨晓梅，高希占，刘安泰，魏康，朱发，冯光，曲晓峰，牛思杰，IEEE会员

https://arxiv.org/pdf/2601.12062

摘要

视频可见光-红外行人重识别（VVI-ReID）的核心在于学习跨不同模态的序列级别模态不变表示。最近的研究倾向于使用CLIP模型生成的模态共享语言提示来指导模态不变表示的学习。尽管取得了最优性能，此类方法在高效时空建模、充分的跨模态交互以及显式的模态级别损失指导方面仍然存在局限。为了解决这些问题，本文提出了一种新颖的VVI-ReID方法------语言驱动的序列级别模态不变表示学习（LSMRL），该方法包含三个模块：时空特征学习（STFL）模块、语义扩散（SD）模块和跨模态交互（CMI）模块。具体来说，为了实现参数和计算高效的空间建模，我们设计了基于CLIP且改动最小的STFL模块。该模块将CLIP的视觉编码器分解为基础视觉编码器、时空分组编码器和时序补丁平移编码器，它们联合捕获细粒度空间结构和动态时间依赖关系，而无需过多的计算开销。为了实现充分的跨模态交互并增强模态不变特征的学习，提出了SD模块，将模态共享语言提示扩散到可见光和红外特征中以建立初步的模态一致性。随后，进一步开发了CMI模块，利用双向跨模态自注意力来消除残余模态差异并精化序列级别模态不变表示。为了显式增强模态不变表示的学习，我们构建了一个多损失系统，联合利用身份级别和模态级别损失来提高特征的判别能力及其对未见类别的泛化能力。在大规模VVI-ReID数据集上进行的大量实验证明了LSMRL相较于最先进方法的优越性。代码将在 https://github.com/y0406/LSMRL 提供。

关键词：视频可见光-红外行人重识别，跨模态交互，CLIP，模态不变表示，高效时空建模。

I. 引言

视频行人重识别（V-ReID）是智能视觉

图1：本文动机：(a) 现有方法在建模时空特征时会引入额外的计算开销，并且由于缺乏跨模态交互和模态级别损失指导，难以学习到鲁棒的模态不变表示。(b) 我们的方法设计了低成本的STFL模块来高效建模时空信息，构建了SD和CMI模块以实现充分的跨模态交互，并利用MD和MSEL损失来显式增强跨模态一致性。

监控领域的关键技术之一，其核心目标是在来自不同摄像头和场景的视频序列中准确匹配同一行人的身份信息 [1]，[2]。与传统的基于图像的行人重识别（ReID）任务 [3]，[4] 相比，V-ReID可以充分利用视频序列中的时空动态信息，有效补偿单幅图像中因遮挡、光照突变和视角偏移导致的特征丢失问题。随着深度学习技术的突破和大规模标注数据集的建立 [5]，V-ReID的研究取得了显著进展。尽管取得了这些进展，现有的V-ReID方法 [6] 严重依赖可见光，在低光/恶劣天气下会失效。幸运的是，通过捕捉热辐射成像的红外相机可以有效地解决这个问题，从而催生了视频可见光-红外行人重识别（VVI-ReID）任务。VVI-ReID能够在变化的光照条件下实现可见光和红外视频之间的行人匹配，从而支持全天候监控需求。

与单模态V-ReID不同，VVI-ReID旨在跨可见光（RGB）和红外（IR）视频序列匹配行人身份。然而，VVI-ReID面临两个核心挑战：可见光和红外数据之间固有的模态差异，以及需要有效建模跨模态视频序列中的时空依赖关系。为了应对这些挑战，一系列VVI-ReID方法 $\[7\]$ -- $\[12\]$ 应运而生，这些方法可以分为两类：基于CNN的方法和基于Transformer的方法。基于CNN的方法通常采用共享的CNN网络来学习视频帧的空间特征，并利用平均池化 $\[7\]$ -- $\[10\]$ 或LSTM $\[11\]$ 进行时空特征聚合。这类方法擅长捕获局部空间特征，但在建模长程时间依赖方面存在局限。基于Transformer的方法 $\[12\]$ 首先将视频片段标记化为多个3D管，然后使用Transformer网络来建模局部时空特征和长程时间依赖。尽管这些方法具有一定效果，但ReID本质上是细粒度任务，现有的VVI-ReID方法采用粗粒度的one-hot标签作为监督信号，未能提供足够的细粒度指导 $\[13\]$ 。此外，这些方法仅依赖视频数据进行模型训练，导致提取的视觉特征缺乏高级语义信息 $\[14\]$ 。

近年来，视觉-语言学习范式因其提取丰富语义视觉特征的强大能力而备受关注。作为代表性的视觉语言预训练模型 $\[15\]$ ，CLIP在广泛的计算机视觉下游任务 $\[16\]$ 中取得了显著性能，并已成功应用于行人ReID领域，包括基于图像的ReID方法 $\[14\]$ , $\[17\]$ -- $\[20\]$ 和基于视频的ReID方法 $\[13\]$ , $\[21\]$ , $\[22\]$ 。前者以CLIP-ReID $\[14\]$ 、CSDN $\[17\]$ 、CLIP-MC $\[19\]$ 、CLIP4VI-ReID $\[18\]$ 等为代表，它们通过不同的技术路线将CLIP模型迁移到基于图像的ReID任务中。这些研究表明，视觉信息和语言描述之间的协同作用使模型能够获取与目标行人相关的高级语义表示。然而，这些方法是专门为图像数据设计的，因此无法有效处理基于视频的ReID任务。对于后者（基于视频的ReID方法），代表性的方法包括TF-CLIP $\[21\]$ 和VLD $\[13\]$ ，它们将CLIP框架扩展到时序建模。尽管带来了有希望的改进，但TF-CLIP是单模态V-ReID方法，因此无法处理跨模态VVI-ReID任务。虽然VLD专为VVI-ReID设计，但它仍然存在以下局限性（如图1所示）：(1) 它通过时空枢纽促进时空信息交换，这需要在CLIP的视觉编码器中引入额外的令牌。这不可避免地增加了计算开销，因为编码器层的计算复杂度与输入令牌数量成二次方增长。(2) 采用共享网络来学习模态不变特征，但忽视了跨模态特征交互的关键作用，这使得获得的模态不变特征不够鲁棒。(3) 仅依赖身份级别损失来增强特征可区分性，未能结合模态级别损失来显式加强跨模态一致性。这种疏忽导致学习到的特征模态对齐不足，从而妨碍了模型在跨模态匹配任务上的性能。

为了解决上述问题，本文提出了用于VVI-ReID的语言驱动序列级别模态不变表示学习方法（LSMRL）。如图2所示，LSMRL结构上分为三个相互补充的模块：时空特征学习（STFL）模块、语义扩散（SD）模块和跨模态交互（CMI）模块。首先，STFL模块用于高效建模两种模态视频序列的时空特征。该模块基于CLIP进行最小修改，不仅能准确捕获时空动态信息，还能有效避免额外的计算开销。然后，SD和CMI模块联合用于实现从粗到细的跨模态交互。SD模块采用语义扩散机制将模态共享的文本语义注入到RGB和IR模态特征中，从而实现粗粒度的跨模态交互。在此基础之上，CMI模块利用自注意力机制实现双向跨模态交互，进一步减少模态差异并获取序列级别模态不变特征。最后，使用MD和MSEL等模态级别损失函数来显式指导模态不变特征的学习，进一步增强特征的判别能力及其对未见类别的泛化能力。本文的主要贡献总结如下：

我们提出了一种新颖的VVI-ReID方法LSMRL，该方法利用CLIP的跨模态语义对齐能力来指导序列级别模态不变特征的学习，同时解决了现有方法在高效时空建模、充分跨模态交互和显式模态级别损失指导方面的局限性。
我们设计了一个参数和计算高效的STFL模块。通过重用CLIP的预训练Transformer块并引入时空分组注意力和时序补丁平移机制，它以有限的额外计算开销实现了高性能的时空建模。
我们设计了一个包含SD和CMI模块的两阶段跨模态交互机制。SD通过文本语义桥接语义鸿沟，CMI通过双向交互细化模态一致性，这种双重机制减少了RGB/IR引起的模态差异，同时提高了行人身份特征的可区分性。
在大规模VVI-ReID数据集上进行的大量实验表明，LSMRL优于最先进的（SOTA）方法。例如，在BUPTCampus数据集上，它在红外到可见光任务中实现了71.1%的Rank-1和67.5%的mAP，分别超过SOTA方法5.8和4.0个百分点。

本文其余部分安排如下。我们在第二节回顾相关工作，并在第三节提供LSMRL的细节。在第四节，我们报告LSMRL在VVI-ReID任务上的实验结果。最后，我们在第五节总结本工作并讨论潜在的改进。

II. 相关工作

A. 视频可见光-红外行人重识别

为了解决VVI-ReID面临的跨模态特征对齐和时空特征建模挑战，涌现了许多VVI-ReID方法，这些方法可分为两类：基于CNN的方法 $\[7\]$ -- $\[11\]$ 和基于Transformer的方法 $\[12\]$ 。例如，Lin等人 $\[7\]$ 提出了第一个VVI-ReID方法MITML，它分别使用CNN和LSTM学习空间和时间特征，并通过学习模态不变特征来减少模态差异。与MITML类似，IBAN $\[11\]$ 也依赖CNN和LSTM建模时空特征，并利用立体图像作为中介来学习模态无关特征。同样基于CNN架构，SAADG $\[8\]$ 专注于消除模态内的干扰因素，并进一步探索相同类别视频之间的相关性。Du等人 $\[9\]$ 提出了第二个VVI-ReID数据集并提出了AuxNet方法，该方法使用CNN和时间平均池化来获取时空特征，并利用GAN网络来减轻模态差异。Wang等人 $\[10\]$ 提出的DIRL方法首先使用共享CNN网络捕获帧级别模态不变特征，然后采用跨模态注意力机制实现跨模态交互和序列级别模态不变特征的学习，最后通过解耦模块从模态不变特征中移除残余的模态相关信息。Feng等人 $\[12\]$ 将Transformer架构引入VVI-ReID领域，并提出了CST方法，该方法利用跨帧和多帧Transformer模块实现时空特征建模和模态不变特征学习。尽管取得了一定进展，但现有方法仅依赖视频数据和one-hot标签来执行VVI-ReID任务，而忽视了语言或文本描述在细粒度、序列级别和跨模态表示方面的潜力。

B. 基于CLIP的行人重识别

得益于其提取语义丰富视觉特征的强大能力，视觉语言模型CLIP已被应用于行人重识别领域，并出现了一系列基于CLIP的ReID方法，包括基于图像的ReID方法 $\[14\]$ , $\[17\]$ -- $\[20\]$ , $\[23\]$ , $\[24\]$ 和基于视频的ReID方法 $\[13\]$ , $\[21\]$ , $\[25\]$ 。Li等人 $\[14\]$ 开创了将CLIP应用于ReID领域的先河，并提出了CLIP-ReID方法，证明了视觉信息和语言描述之间的协同作用可以有效提升图像ReID性能。Wang等人 $\[24\]$ 提出了SVLL-ReID方法，探索了自监督是否有助于将CLIP应用于图像ReID任务。Li等人 $\[23\]$ 提出的U-DG方法利用CLIP处理跨摄像头未配对样本的ReID任务。随后，CLIP被扩展到基于图像的可见光-红外ReID领域。CSDN $\[17\]$ 分别学习RGB和IR图像的语言提示，并利用融合的文本信息对齐RGB-IR模态特征。相反，Yang等人 $\[18\]$ 认为为IR模态图像学习语言提示会引入噪声干扰，因此提出了CLIP4VI-ReID方法，该方法仅学习RGB图像的提示，并通过三阶段训练过程逐步实现特征对齐。Hu等人 $\[19\]$ 和Chen等人 $\[20\]$ 分别从模态补偿和无监督学习的角度出发，提出了CLIP-MC和USL-VI-ReID方法，从而进一步扩展了CLIP的应用范围。为了将CLIP应用于基于视频的ReID任务，Yu等人相继提出了两种无文本方法，即TF-CLIP $\[21\]$ 和CLIMB-ReID $\[25\]$ ，证明了CLIP在时序建模任务中的优异性能。Li等人 $\[13\]$ 提出的VLD方法进一步将CLIP扩展到VVI-ReID领域。它通过时空枢纽捕获时空特征，并通过共享网络架构学习模态不变特征。尽管上述方法取得了显著成功，但CLIP在VVI-ReID任务中的潜力仍有待充分挖掘，现有方法在高效时空建模和模态不变特征学习方面仍有改进空间。鉴于此，我们提出了一种新颖的CLIP驱动的模态不变表示学习网络用于VVI-ReID任务。

III. 方法论

VVI-ReID任务的目标是学习序列级别的模态不变行人表示，这些表示不仅对身份具有判别性，而且在跨模态间保持一致，从而实现准确的跨模态视频匹配。为实现这一目标，我们提出了LSMRL方法。如图2所示，LSMRL包含三个模块：时空特征学习模块、语义扩散模块和跨模态交互模块。首先，为了处理来自不同模态的多样化数据的挑战，我们基于CLIP模型设计了STFL模块。通过集成时空分组注意力和时序补丁平移机制，该模块高效地建模时空关系并获得序列级别特征。然后，我们利用SD模块将模态共享的文本语义扩散到RGB和IR模态特征中，从而获得初步的模态不变特征，并为后续模块中更鲁棒的跨模态交互奠定基础。最后，我们使用CMI模块实现RGB-IR跨模态交互，进一步消除CLIP多模态空间中的模态差异，并获得最终判别能力更强的序列级别模态不变特征。接下来，我们将详细阐述每个模块。

A. 时空特征学习模块

在VVI-ReID任务中，输入包含两个模态的视频序列，每个序列由捕捉同一行人时间动态的多个帧组成。更具体地说，输入包含RGB序列 $R = {R_t \\mid R_t \\in R\^{H \\times W \\times C}}*{t=1}\^T$ 和IR序列 $I = {I_t \\mid I_t \\in R\^{H \\times W \\times C}}*{t=1}\^T$ ，其中 $R_t$ 和 $I_t$ 分别表示RGB和IR序列的第t帧。T表示帧数，H, W, C分别表示每帧的高度、宽度和通道数。

作为序列级别模态不变特征学习的基础，STFL模块旨在解决两个关键挑战：(1) 以参数和计算高效的方式将CLIP以图像为中心的预训练编码器适配到视频数据；(2) 全面捕获行人的空间结构信息和时间动态特征。为此，我们将CLIP的视觉编码器分解并扩展为三个功能互补的子模块：基础视觉编码器、时空分组（STG）编码器和时序补丁平移（TPS）编码器，它们顺序工作以生成高质量的序列级别特征，而无需过多的计算开销。

视觉编码器 我们使用原始CLIP视觉编码器的前8个Transformer块构建基础视觉编码器。其核心原理在于，CLIP在海量图像-文本对上的预训练赋予了这些早期到中期块捕获通用、细粒度视觉语义的能力（例如，行人轮廓、服装纹理和身体部位细节），这些语义广泛适用于RGB和IR模态。通过直接重用这些预训练块，我们避免了冗余的参数训练，同时保留了有价值的语义知识------确保视频序列中的每一帧都被转换为具有基本身份判别性的高质量帧级别特征。该子模块作为STFL模块的"特征基础"，因为可靠的帧级别表示是后续时空融合的前提。设 $f_{1}(\\cdot)$ 表示基础视觉编码器，则其输出为 $\\bar{R}*{t}=f* {1}(R_{t}\^{\\prime})$ ，其中 $R_{t}^{\\prime}=\[cls,r_{t}^{1^{\\prime}},r_{t}^{2^{\\prime}},\\cdots,r_{t}^{N\^{\\prime}}\]$ 是经过补丁划分和位置嵌入后的特征， $\\bar{R}*{t}=\[cls,\\bar{r}* {t}^{1},\\bar{r}_{t}^{2},\\cdots,\\bar{r}*{t}\^{N}\]$ ，N是补丁数量。类似地，我们可以得到 $\\bar{I}*{t}=f_{1}(I_{t}\^{\\prime})$ 。

STG编码器 将图像模型（如CLIP）迁移到视频任务通常需要引入额外的时序建模模块，这不仅会引入额外的参数和计算开销，还会导致更高的训练成本。为了解决这个问题，同时充分利用视频数据的时序特性（这在CLIP的原始设计中未得到足够重视），受文献 $\[26\]$ , $\[27\]$ 的启发，我们采用CLIP的最后4个Transformer块作为STG编码器，并通过将所有注意力头分成两组来修改其多头自注意力（MHSA）机制。具体来说，如图3所示，假设每个块有h个头，我们使用前k个头作为时序头，将剩余的h - k个头作为空间头。

时序头 ：假设 $1 \\leq j \\leq k$ ，第j个时序头的计算如下。考虑RGB模态输入 $\\bar{R}*{t}$ ，我们可以计算时间t的查询矩阵为
Q t j = W t , q j ⋅ R ˉ t , Q_{t}^{j}=W_{t,q}^{j}\cdot\bar{R}{t}, Qtj=Wt,qj⋅Rˉt,
其中 $W* {t,q}\^{j}$ 是一个可学习参数， $Q_{t}\^{j}$ 表示第t帧上第j个头对应的查询矩阵。我们还可以计算 $t + \\Delta t_{j}$ 时刻的键和值矩阵：
K t + Δ t j j = W t + Δ t j , k j ⋅ R ˉ t + Δ t j , V t + Δ t j j = W t + Δ t j , v j ⋅ R ˉ t + Δ t j , \begin{aligned}&K{t+\Delta t_{j}}^{j}=W_{t+\Delta t_{j},k}^{j}\cdot\bar{R}{t+\Delta t{j}},\\&V_{t+\Delta t_{j}}^{j}=W_{t+\Delta t_{j},v}^{j}\cdot\bar{R}{t+\Delta t{j}},\\ \end{aligned} Kt+Δtjj=Wt+Δtj,kj⋅Rˉt+Δtj,Vt+Δtjj=Wt+Δtj,vj⋅Rˉt+Δtj,

其中 $\\Delta t_{j}$ 表示时间偏移，用于实现跨时间交互。然后，第j个时序头输出
T h e a d j = A t t ( Q t j , K t + Δ t j j , V t + Δ t j j ) , j = 1 , ⋯ , k . T_{h e a d}^{j}=A t t(Q_{t}^{j},K_{t+\Delta t_{j}}^{j},V_{t+\Delta t_{j}}^{j}),j=1,\cdots,k. Theadj=Att(Qtj,Kt+Δtjj,Vt+Δtjj),j=1,⋯,k.

此时，每个图像补丁不仅从自身帧捕获信息，还从相邻帧 $\[27\]$ 捕获信息。时序头将注意力范围重新定义为帧间交互，能够显式建模视频序列特有的时间动态（如姿势变化和细微运动模式），以有效区分外观相似的行人。此外，这种设计在计算每个注意力头时不会引入额外的参数或令牌，从而确保模型的参数数量和计算复杂度保持不变。

空间头 ：假设 $k+1 \\leq i \\leq h$ ，第i个空间头首先计算时间t的 $Q_{t}\^{i}$ , $K_{t}\^{i}$ , $V_{t}\^{i}$ 矩阵，然后输出
S h e a d i = A t t ( Q t i , K t i , V t i ) , i = k + 1 , ⋯ , h . S_{h e a d}^{i}=A t t(Q_{t}^{i},K_{t}^{i},V_{t}^{i}),i=k+1,\cdots,h. Sheadi=Att(Qti,Kti,Vti),i=k+1,⋯,h.

空间头保留了原始的帧内注意力范围，专注于细化空间关系（例如，行人头部、躯干和四肢的相对位置）。通过增强身份相关空间区域的表示并抑制背景杂波，它们在减轻跨模态场景变化影响方面起着至关重要的作用。

最后，STG编码器的输出可以表示为
R ~ t = C o n c a t ( T h e a d 1 , ⋯ , T h e a d k , S h e a d k + 1 , ⋯ , S h e a d h ) ⋅ W a t t O , \tilde{R}{t}=C o n c a t(T{h e a d}^{1},\cdots,T_{h e a d}^{k},S_{h e a d}^{k+1},\cdots,S_{h e a d}^{h})\cdot W_{a t t}^{O}, R~t=Concat(Thead1,⋯,Theadk,Sheadk+1,⋯,Sheadh)⋅WattO,

其中 $W_{att}\^{O}$ 表示降维矩阵，将令牌维度投影回 $N+1$ 。以相同方式，对于IR模态输入 $\\bar{I}*{t}$ ，STG编码器输出 $\\tilde{I}* {t} = f_{2}(\\bar{I}*{t})$ ，其中 $f*{2}(\\cdot)$ 表示STG编码器。通过将空间和时间建模分离到专门的组中，STG编码器避免了两种类型依赖之间的相互干扰（这是vanilla全注意力的一个局限），同时重用了CLIP预训练块的参数------在不增加计算复杂度的情况下实现了有针对性的时空学习。

图2：LSMRL方法的架构，由STFL、SD和CMI模块组成。首先利用STFL模块以有限的额外计算开销高效建模行人序列的时空信息。然后应用SD模块将模态共享的文本语义扩散到RGB和IR特征中，为模态不变特征学习奠定基础。最后使用CMI模块实现双向跨模态特征交互，进一步消除模态差异并精化判别性序列级别模态不变表示。

图3：STG编码器示意图。在MHSA中，h个头被分成两组：k个时序头和h - k个空间头。这里， $H\^{Tem}$ 表示时序头， $H\^{Spa}$ 表示空间头。

TPS编码器 尽管STG编码器具有一定的学习时间特征的能力，但其每个时序头

图4：TPS编码器示意图。来自相邻帧的令牌沿时间维度进行平移，通过纯空间Transformer层实现时空建模，时间长度可手动控制。

只能实现两帧之间的交互，难以捕获长程跨帧依赖关系。同时，它在建模稀疏时间交互方面缺乏灵活性。因此，为了高效建模长程时间相关性并增强稀疏时空交互，我们增加了一个额外的Transformer块（参数配置与CLIP的块相同以提高效率）作为TPS编码器，该编码器集成了时序补丁平移机制 $\^{\[28\]}$ 。

更具体地说，对于STG编码器输出的特征序列 ${\\tilde{R}*{t}}* {t=1}\^{T}$ ，我们使用以下公式沿时间维度对帧令牌进行循环平移，这显式增强了相邻帧之间的相关性，同时保持网络结构不变：
Z t R = A ⊙ R ~ t − 1 + B ⊙ R ~ t + C ⊙ R ~ t + 1 , Z_{t}^{R}=A\odot\tilde{R}{t-1}+B\odot\tilde{R}{t}+C\odot\tilde{R}_{t+1}, ZtR=A⊙R~t−1+B⊙R~t+C⊙R~t+1,

其中 $A = \[a_{0}, a_{1}, \\cdots, a_{N}\]$ , $B = \[b_{0}, b_{1}, \\cdots, b_{N}\]$ , $C = \[c_{0}, c_{1}, \\cdots, c_{N}\]$ 是令牌平移矩阵， $a_{i}, b_{i}, c_{i}$ 表示全1或全0向量，并且它们满足 $a_{i} + b_{i} + c_{i} = 1$ 。这里，相邻帧的长度可以手动控制，更长的相邻帧可以建模长程跨帧依赖。

如图4所示，获得平移后的特征后，我们使用 $Z_{t}\^{R}$ 计算Q, K, V矩阵，并通过以下公式应用自注意力机制：
Z ^ t R = S h i f t B a c k ( A t t ( Q , K , V ) ) , \hat{Z}_{t}^{R}=S h i f t B a c k(A t t(Q,K,V)), Z^tR=ShiftBack(Att(Q,K,V)),

其中ShiftBack意味着来自不同帧的补丁或令牌被移回其原始位置。由于 $Z_{t}\^{R}$ 包含来自相邻帧的补丁/令牌，标准的自注意力机制自然地转变为时空自注意力机制。类似地，使用TPS编码器 $f_{3}(\\cdot)$ ，我们可以获得IR模态特征 $\\hat{Z}*{t}\^{I} = f*{3}(\\tilde{I}_{t}), t = 1, \\cdots, T$ 。此外，由于注意力机制已内置于后续的SD模块中，我们可以将TPS的注意力操作与SD模块集成，从而进一步减少参数数量和计算复杂度。

B. 语义扩散模块

尽管STFL模块有效提取了序列级别时空特征，但由于其固有的成像特性，RGB和IR模态之间仍然存在显著的语义差异。这些模态特定的语义偏差阻碍了模态不变表示的学习，而这对VVI-ReID中的跨模态匹配至关重要。为了缓解这个问题，我们提出了语义扩散模块，该模块利用CLIP模型中的模态共享文本语义来弥合RGB和IR特征之间的语义鸿沟，并将这种共享语义扩散到模态特定的特征中以生成初步的模态不变表示。

文本语义提取 CLIP的文本编码器在大规模图像-文本数据集上进行了预训练，使其能够学习在视觉模态间保持一致的通用语义表示。我们首先构建一组与行人ReID相关的身份相关文本/语言提示，形式为："一个在白天和夜晚条件下都能观察到的 $\[X\]*{1}\[X\]* {2}\\ldots\[X\]*{m}$ 人。"，其中 $\[X\]*{i}$ 表示一个可学习的提示嵌入。然后，这些提示被输入到冻结的文本编码器 $f_{\\mathrm{text}}(\\cdot)$ 中，以获得模态共享的文本语义嵌入 $T_{e} \\in R\^{D}$ ，其中D表示特征维度，与STG编码器的输出一致。

跨模态语义扩散 对于STFL模块输出的RGB序列级别特征 ${\\hat{Z}*{t}^{R}}_{t=1}^{T}$ 和IR序列级别特征 ${\\hat{Z}* {t}^{I}}_{t=1}^{T}$ ，我们设计了一种语义扩散机制，将共享的文本语义嵌入 $T_{e}$ 注入到每个模态的特征中。具体来说，对于RGB模态分支，首先使用 $T_{e}$ 为第t帧生成查询向量 $q_{t}$ ：
q t = W q u e r y ⋅ T e . q_{t}=W_{q u e r y}\cdot T_{e}. qt=Wquery⋅Te.

然后，使用 $\\hat{Z}*{t}\^{R}$ 生成键和值矩阵：
K t = W k e y ⋅ Z ^ t R , V t = W v a l u e ⋅ Z ^ t R . K_{t}=W_{k e y}\cdot\hat{Z}{t}^{R},\quad V{t}=W_{v a l u e}\cdot\hat{Z}{t}^{R}. Kt=Wkey⋅Z^tR,Vt=Wvalue⋅Z^tR.
最后，RGB模态的初步模态不变表示计算为
z ˉ t R = A t t ( q t , K t , V t ) = V t ⋅ S o f t m a x ( K t T ⋅ q t d ) , \bar{z}{t}^{R}=A t t(q_{t},K_{t},V_{t})=V_{t}\cdot S o f t m a x(\frac{K_{t}^{T}\cdot q_{t}}{\sqrt{d}}), zˉtR=Att(qt,Kt,Vt)=Vt⋅Softmax(d KtT⋅qt),
Z ˉ t R = C o n c a t ( z ˉ t R , Z ^ t R ) , t = 1 , ⋯ , T . \bar{Z}{t}^{R}=Concat(\bar{z}{t}^{R},\hat{Z}_{t}^{R}),t=1,\cdots,T. ZˉtR=Concat(zˉtR,Z^tR),t=1,⋯,T.
同样地，对于IR模态分支，使用 $T* {e}$ 生成查询向量， $\\hat{Z}*{t}\^{I}$ 生成键和值矩阵，并利用跨模态注意力机制获得IR模态的初步模态不变表示 ${\\bar{Z}* {t}^{I}}_{t=1}^{T}$ 。

通过在共享语义空间中使两种模态的特征与语义先验交互，SD模块增强了RGB和IR模态之间的语义一致性。这种RGB和IR特征的语义对齐不仅增强了复杂跨模态场景下行人的可区分性，还显著提升了IR模态的语义表达能力。

C. 跨模态交互模块

尽管SD模块生成了初步的模态不变特征，但RGB和IR表示之间的残余模态差异仍然限制了跨模态匹配的准确性。为了解决这个问题，我们提出了跨模态交互模块，该模块实现了RGB和IR模态之间的细粒度特征交互，进一步消除了模态特定的偏差并精化了最终的序列级别模态不变表示。

CMI模块利用跨模态自注意力机制促进RGB和IR分支之间的双向特征交互。如图2所示，对于RGB模态分支，使用 $\\bar{Z}*{t}\^{R}$ 计算键和值矩阵，使用 $\\bar{Z}* {t}\^{I}$ 计算查询矩阵：
K t = W k e y ⋅ Z ˉ t R , V t = W v a l u e ⋅ Z ˉ t R . Q t = W q u e r y ⋅ Z ˉ t I . K_{t}=W_{key}\cdot\bar{Z}{t}^{R},\quad V{t}=W_{value}\cdot\bar{Z}{t}^{R}.\quad Q{t}=W_{query}\cdot\bar{Z}_{t}^{I}. Kt=Wkey⋅ZˉtR,Vt=Wvalue⋅ZˉtR.Qt=Wquery⋅ZˉtI.

然后，RGB模态的模态不变特征计算为
F t R = A t t ( Q t , K t , V t ) = V t ⋅ S o f t m a x ( K t T ⋅ Q t d ) , t = 1 , ⋯ , T . \begin{aligned}F_{t}^{R}=&Att(Q_{t},K_{t},V_{t})\\=&V_{t}\cdot Softmax(\frac{K_{t}^{T}\cdot Q_{t}}{\sqrt{d}}),t=1,\cdots,T.\end{aligned} FtR==Att(Qt,Kt,Vt)Vt⋅Softmax(d KtT⋅Qt),t=1,⋯,T.

同样地，对于IR模态分支，使用 $\\bar{Z}*{t}\^{R}$ 计算查询矩阵，使用 $\\bar{Z}* {t}\^{I}$ 计算键和值矩阵，IR模态的模态不变特征 ${F_{t}^{I}}_{t=1}^{T}$ 可以通过公式(12)获得。

最后，对所有模态不变特征的[cls]令牌应用时间平均池化（TAP），以获得序列级别的模态不变特征 $f\^{R}$ 和 $f\^{I}$ ，即
f R = T A P ( [ f 1 R , c l s , f 2 R , c l s , ⋯ , f T R , c l s ] ) , f I = T A P ( [ f 1 I , c l s , f 2 I , c l s , ⋯ , f T I , c l s ] ) , \begin{aligned}&f^{R}=T A P([f_{1}^{R,c l s},f_{2}^{R,c l s},\cdots,f_{T}^{R,c l s}]),\\&f^{I}=T A P([f_{1}^{I,c l s},f_{2}^{I,c l s},\cdots,f_{T}^{I,c l s}]),\\ \end{aligned} fR=TAP([f1R,cls,f2R,cls,⋯,fTR,cls]),fI=TAP([f1I,cls,f2I,cls,⋯,fTI,cls]),

其中 $f_{t}\^{R,cls}$ , $f_{t}\^{I,cls}$ 分别是 $F_{t}\^{R}$ 和 $F_{t}\^{I}$ 的[cls]令牌。

CMI模块实现了RGB和IR特征之间有针对性的双向信息交换，使每个模态能够从另一个模态吸收身份判别模式，同时抑制模态特定的噪声。这种设计有效桥接了SD模块后仍存在的残余模态差异，使特征对纹理和热模式差异等跨模态差异更加鲁棒。此外，通过双向跨模态注意力交互和时间平均池化来细化特征，CMI模块确保最终的序列级别表示 $f\^{R}$ 和 $f\^{I}$ 不仅是模态不变的，而且对行人身份具有高度判别性。训练后，即使在推理阶段输入单模态数据，CMI模块也能捕获判别性的模态不变特征。

D. 损失函数

为了端到端地训练我们的模型并确保学习到判别性的、模态不变的行人表示，我们设计了一个多损失系统，该系统在流程的不同阶段运作。每个损失针对特定的目标，从模态内特征判别到跨模态对齐。

STFL模块中的损失 为了增强STFL模块中编码器的判别能力，我们在STG编码器和TPS编码器的训练中引入了身份（ID）损失和加权正则化三元组（WRT）损失。ID损失监督模型区分不同的行人身份，实现类别级别的判别性学习。加权三元组损失最小化相同身份样本之间的距离，同时最大化不同身份样本之间的距离，从而提高特征空间中的类内紧凑性和类间可分离性。

对于STG编码器的输出 { R ~ t , I ~ t } t = 1 T \{\tilde{R}{t},\tilde{I}{t}\}{t=1}^{T} {R~t,I~t}t=1T，首先对每帧的[cls]令牌应用TAP以获得序列级别特征，即 f S T G M = T A P ( R ~ t ) f{\mathrm{STG}}^{M} = TAP(\tilde{R}{t}) fSTGM=TAP(R~t) 或 T A P ( I ~ t ) TAP(\tilde{I}{t}) TAP(I~t)，其中 M ∈ { R , I } M \in \{R, I\} M∈{R,I} 表示不同的模态特征。然后，ID损失可以定义为：
L i d S T G , M = − 1 n b ∑ i = 1 n b q i log ⁡ ( W i d S T G ( f S T G , i M ) ) , L_{\mathrm{i d}}^{\mathrm{S T G},M}=-\frac{1}{n_{b}}\sum_{i=1}^{n_{b}}q_{i}\log\big(W_{\mathrm{i d}}^{\mathrm{S T G}}(f_{\mathrm{S T G},i}^{M})\big), LidSTG,M=−nb1i=1∑nbqilog(WidSTG(fSTG,iM)),

其中 $n_{b}$ 是批大小， $q_{i}$ 是第i个样本的真实身份标签， $f_{STG,i}\^{M}$ 表示从M模态提取的第i个样本的特征表示， $W_{id}\^{STG}$ 是线性分类层。WRT损失定义为：
L w r t S T G , M = 1 n b ∑ i = 1 n b log ⁡ ( 1 + exp ⁡ ( ∑ j w i , j p , M d i , j p , M − ∑ k w i , k n , M d i , k n , M ) ) , \begin{aligned}L_{\mathrm{w r t}}^{\mathrm{S T G},M}=\frac{1}{n_{b}}\sum_{i=1}^{n_{b}}\log\Big(1+\exp\Big(\sum_{j}w_{i,j}^{p,M}d_{i,j}^{p,M}\\-\sum_{k}w_{i,k}^{n,M}d_{i,k}^{n,M}\Big)\Big),\end{aligned} LwrtSTG,M=nb1i=1∑nblog(1+exp(j∑wi,jp,Mdi,jp,M−k∑wi,kn,Mdi,kn,M)),

其中 $d_{i,j}\^{p,M}$ 和 $d_{i,k}\^{n,M}$ 分别表示第i个样本与其正样本和负样本之间的欧氏距离， $w_{i,j}\^{p,M}$ 和 $w_{i,k}\^{n,M}$ 是自适应权重系数，计算为：
w i , j p = exp ⁡ ( d i , j p , M ) ∑ d i , j ∈ P i exp ⁡ ( d i , j p , M ) , w i , k n = exp ⁡ ( − d i , k n , M ) ∑ d i , k ∈ N i exp ⁡ ( − d i , k n , M ) w_{i,j}^{p}=\frac{\exp(d_{i,j}^{p,M})}{\sum_{d_{i,j}\in P_{i}}\exp(d_{i,j}^{p,M})},\quad w_{i,k}^{n}=\frac{\exp(-d_{i,k}^{n,M})}{\sum_{d_{i,k}\in N_{i}}\exp(-d_{i,k}^{n,M})} wi,jp=∑di,j∈Piexp(di,jp,M)exp(di,jp,M),wi,kn=∑di,k∈Niexp(−di,kn,M)exp(−di,kn,M)

其中 $P_{i}$ 和 $N_{i}$ 分别表示第i个样本的正样本和负样本集合。使用与上述相同的方法并代入公式(14)--(16)，我们得到TPS编码器对应的损失函数 $L_{id}\^{TPS}$ , $L_{wrt}\^{TPS}$ 。

文本语义是SD和CMI模块的基础，为了获取共享文本语义并实现文本特征与RGB/IR模态特征的对齐，我们在STG编码器之后设计了视频到文本（V2T）对比损失。具体来说，给定STG编码器输出的序列级别特征 $f_{STG}\^{R}$ 和 $f_{STG}\^{I}$ 以及文本编码器输出的文本特征 $T_{e}$ ，我们计算它们的相似度值为：
s = f v T W p r o j T e , s=f_{v}^{T}W_{\mathrm{p r o j}}T_{e}, s=fvTWprojTe,

其中 $f_{v} = Concat(f_{\\mathrm{STG}}\^{R}, f_{\\mathrm{STG}}\^{I})$ 表示融合的视频特征， $W_{proj}$ 是一个可学习的投影矩阵，将视频特征映射到文本特征的共享语义空间。然后将相似度值传递给以下V2T损失：
L v 2 t = − 1 n b ∑ i = 1 n b log ⁡ ( Softmax ⁡ ( s i ) ) . L_{\mathrm{v}2\mathrm{t}}=-\frac{1}{n_{b}}\sum_{i=1}^{n_{b}}\log\left(\operatorname{S o f t m a x}(s_{i})\right). Lv2t=−nb1i=1∑nblog(Softmax(si)).

其中 $s_{i}$ 表示第i个样本对的相似度值， $\\text{Softmax}(\\cdot)$ 沿批处理维度操作。

最后，STFL模块的总体优化目标可以表述为：
L S T F L = L i d S T G + L w r t S T G + L i d T P S + L w r t T P S + λ 1 L v 2 t , L_{\mathrm{STFL}}=L_{\mathrm{id}}^{\mathrm{STG}}+L_{\mathrm{wrt}}^{\mathrm{STG}}+L_{\mathrm{id}}^{\mathrm{TPS}}+L_{\mathrm{wrt}}^{\mathrm{TPS}}+\lambda_{1}L_{\mathrm{v2t}}, LSTFL=LidSTG+LwrtSTG+LidTPS+LwrtTPS+λ1Lv2t,

其中 $\\lambda_{1}$ 是一个超参数。

CMI模块中的损失 之前介绍的ID损失和WRT损失在提高特征可区分性方面是有效的，但它们缺乏促进学习判别性且模态不变特征的能力。为了解决这个限制，我们在CMI模块之后整合了模态判别（MD）损失 $\[3\]$ 和模态共享增强损失（MSEL） $\[4\]$ （如图1所示）。其中，MD损失强制类内和跨模态特征的紧凑性，同时增强类间和跨模态特征的可分离性。相比之下，MSEL损失抑制虚假的模态特定特征并增强鲁棒的模态不变表示。

形式上，给定CMI输出的序列级别模态不变特征对 $f\^{R}$ 和 $f\^{I}$ ，我们将MD损失定义为
L M D = − log ⁡ exp ⁡ ( s i m ( f i R , f i I ) / τ ) ∑ i ≠ j exp ⁡ ( s i m ( f i R , f j I ) / τ ) , L_{\mathrm{M D}}=-\log\frac{\exp(\mathrm{s i m}(f_{i}^{R},f_{i}^{I})/\tau)}{\sum_{i\neq j}\exp(\mathrm{s i m}(f_{i}^{R},f_{j}^{I})/\tau)}, LMD=−log∑i=jexp(sim(fiR,fjI)/τ)exp(sim(fiR,fiI)/τ),

其中 $f_{i}\^{R}, f_{i}\^{I}$ 分别表示RGB模态和IR模态的第i个样本的特征表示。

假设每个批次有 $n_{b}$ 个RGB-IR视频样本对，这些样本对来自P个行人，每个行人有K个样本对，即 $n_{b} = PK$ 。对于第i个样本对，其与相同类别样本的模态内平均距离可以计算为：
D i 1 , I = 1 K − 1 ∑ i = 1 i ≠ j K − 1 D ( f i I , f j I ) , D i 1 , R = 1 K − 1 ∑ i = 1 i ≠ j K − 1 D ( f i R , f j R ) . D_{i}^{1,I}=\frac{1}{K-1}\sum_{\substack{i=1\\ i\neq j}}^{K-1}D(f_{i}^{I},f_{j}^{I}),D_{i}^{1,R}=\frac{1}{K-1}\sum_{\substack{i=1\\ i\neq j}}^{K-1}D(f_{i}^{R},f_{j}^{R}). Di1,I=K−11i=1i=j∑K−1D(fiI,fjI),Di1,R=K−11i=1i=j∑K−1D(fiR,fjR).

其与相同类别样本的跨模态平均距离可以计算为：
D i 2 , I = 1 K ∑ i = 1 K D ( f i I , f j R ) , D i 2 , R = 1 K ∑ i = 1 K D ( f i R , f j I ) . D_{i}^{2,I}=\frac{1}{K}\sum_{i=1}^{K}D(f_{i}^{I},f_{j}^{R}),D_{i}^{2,R}=\frac{1}{K}\sum_{i=1}^{K}D(f_{i}^{R},f_{j}^{I}). Di2,I=K1i=1∑KD(fiI,fjR),Di2,R=K1i=1∑KD(fiR,fjI).

然后，MSEL损失可以定义为
L M S E L = 1 2 P K ∑ p = 1 P [ ∑ i = 1 K ( ( D i 1 , I − D i 2 , I ) 2 + ( D i 1 , R ) 2 ) ] . \begin{align*}L_{\mathrm{MSEL}}=\frac{1}{2PK}\sum_{p=1}^{P}\Bigg[\sum_{i=1}^{K}\Bigg(\big(D_{i}^{1,I}-D_{i}^{2,I}\big)^{2}+\big(D_{i}^{1,R}\big)^{2}\Bigg)\Bigg].\end{align*} LMSEL=2PK1p=1∑P[i=1∑K((Di1,I−Di2,I)2+(Di1,R)2)].

当 $D\^{1,I}$ 等于 $D\^{2,I}$ 且 $D\^{1,R}$ 等于 $D\^{2,R}$ 时，损失函数收敛到其最优值。此时，同一样本的两种模态不变特征应表现出高度相似性。换句话说，损失函数的目标是使两种交互后的模态不变特征尽可能彼此接近。

总体损失函数 最后，总体损失定义为：
L = L S T F L + λ 2 L M S E L + λ 3 L M D , L=L_{\mathrm{S T F L}}+\lambda_{2}L_{\mathrm{M S E L}}+\lambda_{3}L_{\mathrm{M D}}, L=LSTFL+λ2LMSEL+λ3LMD,

其中 $\\lambda_{2}$ 和 $\\lambda_{3}$ 是用于平衡损失项的超参数。
表I：在HITSZ-VCM数据集上与最先进方法的CMC (%)和mAP (%)性能比较。

|------------------|------ | 方法 | 出处 | 方法 | 出处 | DDAG [29] | ECCV'20 | Lba [30] | ICCV'21 | MPANet [31] | CVPR'21 | VSD [32] | CVPR'21 | CAJL [33] | ICCV'21 | DEEN [34] | CVPR'23 | CLIP-ReID [14] | AAAI'23 | UCT [35] | TOMM'24 | HOS-Net [36] | AAAI'24 | TF-CLIP [21] | AAAI'24 | MITML [7] | CVPR'22 | SAADG [8] | ACM MM'23 | IBAN [11] | TCSVT'23 | AuxNet [9] | TIFS'23 | CST [12] | TMM'24 | DIRL [10] | TOMM'25 | HD-GI [37] | Inf. Fusion'25 | - | X-ReID [22] | AAAI'26 | VLD [13] | TIFS'25 | Ours | - ----------|------|--------|--------|---------|------|--------|--------|---------|------|------|
| 序列长度 | 红外到可见光 |||| 可见光到红外 |||| 平均 |
| 序列长度 | Rank-1 | Rank-5 | Rank-10 | mAP | Rank-1 | Rank-5 | Rank-10 | mAP | 平均 |
| 6 | 54.6 | 69.8 | 76.1 | 39.3 | 59.0 | 74.6 | 79.5 | 41.5 | 61.5 |
| 6 | 46.4 | 65.3 | 72.2 | 31.0 | 49.3 | 69.3 | 75.9 | 32.4 | 55.2 |
| 6 | 46.5 | 63.1 | 70.5 | 35.3 | 50.3 | 67.3 | 73.6 | 37.8 | 55.5 |
| 6 | 54.5 | 70.0 | 76.3 | 41.2 | 57.5 | 73.7 | 79.4 | 43.5 | 63.3 |
| 6 | 56.6 | 73.5 | 79.5 | 41.5 | 60.1 | 74.6 | 79.9 | 42.8 | 63.6 |
| 6 | 53.7 | 74.8 | 80.7 | 50.4 | 49.8 | 71.6 | 81.0 | 48.6 | 63.7 |
| 6 | 58.4 | 73.2 | 79.8 | 45.3 | 60.4 | 76.9 | 83.7 | 43.5 | 65.2 |
| 6 | 58.4 | 76.8 | 80.2 | 43.2 | 61.2 | 75.8 | 81.5 | 49.0 | 65.8 |
| 6 | 61.3 | 75.1 | 79.0 | 46.0 | 63.9 | 74.6 | 81.4 | 47.9 | 66.2 |
| 6 | 62.3 | 76.2 | 81.6 | 47.5 | 62.2 | 79.6 | 85.5 | 45.5 | 67.6 |
| 6 | 63.7 | 76.9 | 81.7 | 45.3 | 64.5 | 79.0 | 83.0 | 47.7 | 67.7 |
| 6 | 69.2 | 80.6 | 85.0 | 53.8 | 73.1 | 83.5 | 86.9 | 56.1 | 73.5 |
| 6 | 65.0 | 78.3 | 83.0 | 48.8 | 69.6 | 81.5 | 85.4 | 51.0 | 70.3 |
| 6 | 51.1 | - | - | - | 46.0 | 54.6 | - | 48.7 | 50.1 |
| 6 | 69.4 | 81.1 | 85.8 | 51.2 | 72.6 | 83.4 | 86.7 | 53.0 | 72.9 |
| 6 | 65.2 | 79.1 | 84.6 | 47.9 | 67.0 | 81.7 | 84.2 | 50.2 | 70.0 |
| 71.4 | 81.7 | 84.9 | 58.0 | 75.0 | 84.4 | 87.3 | 60.2 | 75.4 |
| 10 | 73.4 | 85.0 | - | 60.5 | 76.1 | 87.1 | - | 59.6 | 73.6 |
| 6 | 74.3 | 85.0 | 88.4 | 60.2 | 74.6 | 86.4 | 90.0 | 58.6 | 77.2 |
| 6 | 75.1 | 84.6 | 89.0 | 60.9 | 75.2 | 87.4 | 91.5 | 58.2 | 77.7 |

IV. 实验

A. 数据集和评估指标

为了严格证明所提方法的有效性，我们在两个大规模VVI-ReID数据集上进行了广泛的实验：HITSZ-VCM $\[7\]$ 和BUPTCampus $\[9\]$ 。这些基准在社区中广泛认可，为验证跨模态特征学习和时间建模提供了多样化的场景。

HITSZ-VCM数据集 [7]：HITSZ-VCM使用六个可见光和六个红外摄像头采集，覆盖927个身份，包含251,452张RGB图像和211,807张红外图像。数据被组织成视频序列，每个序列由24个连续帧组成。数据集被划分为500个身份用于训练和427个身份用于测试。作为首个专门用于VVI-ReID的大规模基准，HITSZ-VCM是评估跨模态场景下时间建模的代表性平台。
BUPTCampus数据集 [9]：BUPTCampus使用六个双目RGB-IR摄像头采集，包含3,080个身份，16,826个视频序列，总共1,869,366张图像。它分为三个子集：1,074个身份用于主要学习，930个身份用于辅助学习，1,076个身份用于测试。与HITSZ-VCM相比，BUPTCampus规模更大，并提供几乎像素对齐的RGB-IR视频样本，这有助于研究跨模态表示学习和辅助训练策略。
评估指标：对于两个数据集，性能均使用累积匹配特性（CMC）曲线和平均精度（mAP）进行衡量。为了全面评估跨模态检索，采用两种评估设置：红外到可见光，其中红外轨迹作为查询，可见光轨迹作为候选；以及可见光到红外，其中可见光轨迹作为查询，红外轨迹作为候选。这些互补的协议确保了所提方法的公平和严格验证。

B. 实施细节

所提出的LSMRL方法使用PyTorch在单个A800 GPU上实现。为确保实验的可重复性，所有实验均使用固定的随机种子（设置为42）进行。所提方法利用CLIP视觉编码器（ViT-B-16）及其文本编码器来提取视觉和文本特征。输入的视频帧被调整大小为 $288 \\times 144$ 像素，并对其应用标准的数据增强技术。模型使用Adam优化器进行训练，学习率为 $2.5 \\times 10\^{-5}$ ，并采用余弦学习率衰减策略来动态调整学习率。训练轮数和批大小分别设置为60和32。每个批次包含两种模态的视频序列，每种模态4个行人，每个行人对应4个视频序列。每个序列随机采样6帧。超参数 $\\lambda_{1}, \\lambda_{2}$ 和 $\\lambda_{3}$ 分别设置为0.1、0.05和0.5。时序头k设置为6。值得注意的是，在推理阶段，我们将移除SD模块和文本编码器以提高推理速度。

C. 实验结果

为了证明我们方法的有效性和竞争力，我们在两个广泛认可的VVI-ReID基准上全面比较了LSMRL与SOTA方法。具体来说，比较方法包括IVI-ReID类别（表I的上半部分）以及VVI-ReID类别（表I的下半部分）。

在HITSZ-VCM数据集上的对比实验：所提方法首先在HITSZ-VCM基准上进行评估，结果表明在Rank准确率和mAP方面均较最先进方法有显著提升，如表I所示。更具体地说，与最新的基于CLIP的VLD方法相比，所提方法在关键指标上取得了显著改进：在红外到可见光（I2V）任务中，所提方法在Rank-1（75.1% vs. 74.3%）、Rank-10（89.0% vs. 88.4%）和mAP（60.9% vs. 60.2%）上优于VLD；在可见光到红外（V2I）任务中，所提方法在Rank-1（75.2% vs. 74.6%）、Rank-5（87.4% vs. 86.4%）和Rank-10（91.5% vs. 90.0%）上显示出优势，而其mAP与VLD相当。这一结果表明，通过有针对性的跨模态交互和时空特征增强，所提方法可以进一步挖掘CLIP在跨模态视频对齐方面的潜力，从而验证了方法的有效性。

与传统IVI-ReID方法相比，所提方法在核心指标上取得了显著改进：例如，在I2V任务中，所提方法在Rank-1、Rank-5、Rank-10和mAP上分别比HOS-Net高出8.3、5.2、4.8和9.7个百分点，这验证了时间特征建模的重要性。与VVI-ReID方法（如CST、SAADG等）相比，所提方法也保持了领先性能：例如，在I2V任务中，所提方法在Rank-1、Rank-5、Rank-10和mAP上分别比SAADG高出5.9、4.0、4.0和7.1个百分点。这表明所提方法在视频序列的时空建模和跨模态匹配方面更具竞争力。此外，通过比较基于CLIP的方法（包括VLD、X-ReID和所提方法）与其他VVI-ReID方法，可以发现基于CLIP的方法在所有指标上普遍实现了更优的性能。这表明CLIP预训练特征的语义泛化能力有助于提高跨模态检索的准确性。

在BUPTCampus数据集上的对比实验：为了进一步评估可扩展性，我们还在一个更大、更多样化的VVI-ReID数据集上进行了对比实验，实验结果如表II所示。从该表中我们观察到，即使在序列长度为6的情况下，所提方法也显著优于最先进的方法。更具体地说，与6帧SOTA VLD相比，我们的方法取得了显著的性能优势：在I2V任务中，其在Rank-1、Rank-5和mAP上分别超过VLD 5.8、1.1和4.0个百分点，而其Rank-10与VLD相当；在V2I任务中，其在Rank-1、Rank-5、Rank-10和mAP上分别超过VLD 1.2、1.4、1.2和2.7个百分点。即使与10帧SOTA方法X-CLIP相比，我们的方法在Rank-1准确率和mAP方面仍然具有竞争力。这归因于我们提出的时空特征学习和跨模态交互机制的协同效应，该机制充分利用了CLIP预训练的语义泛化能力，同时有效缓解了模态差异并捕获了视频序列中的细粒度时间动态。此外，多损失优化策略增强了特征的判别性和模态不变性，使模型即使在序列长度较短的大规模多样化数据集上也能保持优异性能。

表II：在BUPTCampus数据集上与最先进方法的CMC (%)和mAP (%)性能比较。

|------------------|-----------|------|--------|--------|---------|------|--------|--------|---------|------|------|
| 方法 | 出处 | 序列长度 | 红外到可见光 |||| 可见光到红外 |||| 平均 |
| 方法 | 出处 | 序列长度 | Rank-1 | Rank-5 | Rank-10 | mAP | Rank-1 | Rank-5 | Rank-10 | mAP | 平均 |
| DDAG [29] | ECCV'20 | 10 | 46.3 | 68.2 | 74.4 | 43.1 | 40.4 | 40.9 | 61.4 | 58.5 | 54.2 |
| Lba [30] | ICCV'21 | 10 | 39.1 | 58.7 | 66.5 | 37.1 | 32.1 | 54.9 | 65.1 | 32.9 | 48.3 |
| AGW [38] | TPAMI'21 | 10 | 43.7 | 64.4 | 73.2 | 41.1 | 36.4 | 60.1 | 67.2 | 37.4 | 52.9 |
| MMN [39] | ACM MM'21 | 10 | 43.7 | 65.2 | 73.5 | 42.8 | 40.9 | 67.2 | 74.4 | 41.7 | 56.2 |
| CAJL [33] | ICCV'21 | 10 | 45.0 | 70.0 | 77.0 | 43.6 | 40.5 | 66.8 | 73.3 | 41.5 | 57.2 |
| DART [40] | CVPR'22 | 10 | 53.3 | 75.2 | 81.7 | 50.5 | 52.4 | 70.5 | 77.8 | 49.1 | 63.8 |
| DEEN [34] | CVPR'23 | 10 | 53.7 | 74.8 | 80.7 | 50.4 | 49.8 | 71.6 | 81.0 | 48.6 | 63.8 |
| UCT [35] | TOMM'24 | 10 | 56.5 | 75.2 | 83.2 | 56.0 | 56.0 | 78.0 | 83.7 | 53.7 | 67.8 |
| HOS-Net [36] | AAAI'24 | 10 | 54.9 | 74.2 | 83.4 | 55.2 | 53.1 | 75.8 | 81.0 | 50.8 | 66.1 |
| SIMFGA [41] | IMAVIS'25 | 10 | 55.1 | 73.8 | 80.5 | 54.6 | 54.9 | 76.6 | 82.6 | 51.8 | 66.2 |
| AuxNet [9] | TIFS'23 | 10 | 65.2 | 81.8 | 86.1 | 62.2 | 66.5 | 83.1 | 87.9 | 64.1 | 74.6 |
| DIRL [10] | TOMM'25 | 8 | 67.6 | 83.2 | 87.5 | 63.4 | 67.2 | 83.0 | 87.4 | 65.3 | 75.6 |
| X-ReID [22] | AAAI'26 | 10 | 68.2 | 88.4 | - | 68.5 | 68.8 | 84.8 | - | 65.9 | 74.1 |
| CLIP-ReID [14] | AAAI'23 | 6 | 49.0 | 73.0 | 81.2 | 50.4 | 51.0 | 75.4 | 80.0 | 49.8 | 62.5 |
| TF-CLIP [21] | AAAI'24 | 6 | 49.4 | 76.8 | 83.7 | 51.9 | 52.5 | 75.2 | 81.5 | 51.8 | 65.4 |
| MITML [7] | CVPR'22 | 6 | 50.2 | 68.3 | 75.7 | 46.3 | 49.1 | 68.0 | 75.4 | 47.5 | 60.1 |
| VLD [13] | TIFS'25 | 6 | 65.3 | 84.9 | 89.7 | 63.5 | 65.8 | 83.0 | 87.9 | 63.0 | 75.4 |
| Ours | - | 6 | 71.1 | 86.0 | 89.1 | 67.5 | 67.0 | 84.4 | 89.1 | 65.7 | 77.5 |

与IVI-ReID方法（如UCT）相比，我们的方法在I2V和V2I任务上均实现了显著的性能提升。例如，在I2V任务中，我们的方法在Rank-1（71.1% vs. 56.5%）上超过UCT 14.6个百分点，在Rank-5（86.0% vs. 75.2%）上超过10.8个百分点，在Rank-10（89.1% vs. 83.2%）上超过5.9个百分点，在mAP（67.5% vs. 56.0%）上超过11.5个百分点。这再次证实了时间特征建模在VVI-ReID任务中的重要性。此外，我们再次发现，与传统的VVI-ReID方法相比，基于CLIP的方法实现了更优的性能，这归因于预训练的CLIP模型具有强大的跨模态语义对齐能力和广泛的领域泛化能力。

D. 消融研究

模块消融：为了进一步验证每个提出组件的有效性，我们在BUPTCampus数据集上进行了消融研究，如表III所示。分析通过逐步添加我们框架的每个组件并评估Rank准确率和mAP性能来进行。注意，"Base"是"baseline"的缩写，表示直接使用CLIP的预训练视觉编码器进行VVI-ReID。

为了评估STFL模块的有效性，我们将其集成到"Base"中。如表III所示，添加STFL带来了显著的性能提升。在I2V任务中，Rank-1准确率从45.8%提高到53.1%（+7.3%），mAP从48.4%提高到54.2%（+5.8%）。类似地，在V2I任务中，Rank-1准确率从45.3%提高到53.6%（+8.3%），mAP从46.7%提高到53.8%（+7.1%）。由于STFL模块由STG编码器和TPS编码器组成，我们还分别分析了每个组件的有效性，即我们分别将它们集成到"Base"中。对于STG编码器，在I2V任务中，Rank-1准确率从45.8%提高到48.2%（+2.4%），mAP从48.4%提高到49.6%（+1.2%）。在V2I任务中，Rank-1准确率从45.3%提高到46.5%（+1.2%），mAP从46.7%提高到48.3%（+1.6%）。这些结果证实了STG编码器有效生成鲁棒且判别性的时空特征表示。对于TPS编码器，在I2V任务中，Rank-1准确率从45.8%提高到52.7%（+6.9%），mAP从48.4%提高到53.2%（+4.8%）。在V2I任务中，Rank-1准确率从45.3%提高到51.8%（+6.5%），mAP从46.7%提高到51.6%（+4.9%）。这表明与STG相比，TPS可以更有效地建模时空特征。此外，我们发现同时使用STG和TPS可以进一步提升实验结果，这表明两个模块在时空特征建模中表现出协同效应，这与我们的理论分析一致。
表III：我们提出的组件在BUPTCampus数据集上的效果，其中"R@1"、"R@5"和"R@10"分别表示Rank-1、Rank-5和Rank-10。

|------|-----|-----|----|-----|------|------|------|------|------|------|------|------|
| Base | STFL || SD | CMI | 红外到可见光 |||| 可见光到红外 ||||
| Base | STG | TPS | SD | CMI | R@1 | R@5 | R@10 | mAP | R@1 | R@5 | R@10 | mAP |
| ✓ | - | - | - | - | 45.8 | 74.0 | 82.4 | 48.4 | 45.3 | 69.5 | 77.3 | 46.7 |
| ✓ | ✓ | - | - | - | 48.2 | 74.8 | 83.4 | 49.6 | 46.5 | 70.4 | 78.1 | 47.3 |
| ✓ | - | ✓ | - | - | 52.7 | 75.7 | 84.8 | 53.2 | 51.8 | 75.2 | 80.7 | 51.6 |
| ✓ | ✓ | ✓ | - | - | 53.1 | 77.2 | 85.2 | 54.2 | 53.6 | 76.6 | 82.4 | 53.8 |
| ✓ | ✓ | ✓ | ✓ | - | 66.9 | 83.2 | 86.8 | 62.5 | 65.8 | 81.9 | 84.5 | 61.8 |
| ✓ | ✓ | ✓ | ✓ | ✓ | 71.1 | 86.0 | 89.1 | 67.5 | 67.0 | 84.4 | 89.1 | 65.7 |

此外，为了评估SD模块的有效性，我们将其集成到"Base+STFL"配置中进行对比实验。在I2V任务中，Rank-1准确率从53.1%提高到66.9%（+13.8%），mAP从54.2%提高到62.5%（+8.3%）。在V2I任务中，Rank-1准确率从53.6%提高到65.8%（+12.2%），mAP从53.8%提高到61.8%（+8.0%）。这些结果清楚地表明，SD模块在弥合RGB和红外模态之间的语义鸿沟方面起着至关重要的作用。通过将模态共享的文本语义扩散到两种模态的特征表示中，它有效地增强了跨模态特征的一致性，从而显著提高了模型在VVI-ReID任务中的检索准确率和鲁棒性。

为了评估CMI模块的有效性，我们将其集成到"Base+STFL+SD"配置中。可以看出，在I2V任务中，Rank-1准确率从66.9%提高到71.1%（+4.2%），mAP从62.5%提高到67.5%（+5.0%）。在V2I任务中，Rank-1准确率从65.8%提高到67.0%（+1.2%），mAP从61.8%提高到65.7%（+3.9%）。这些结果表明，CMI模块可以有效增强跨模态特征交互，进一步缩小模态差异，从而学习到既具有强大判别力又具有泛化能力的模态不变特征。我们猜测这是因为CMI模块通过RGB和IR特征之间的双向语义通信促进了动态信息交换，这弥补了SD模块的局限性。

损失消融：为了进一步验证每个损失函数的影响，我们在BUPTCampus数据集上进行了消融研究，结果如表IV所示。注意，在第一行中，我们额外在CMI模块之后引入了ID损失来训练后两个模块。从该表可以看出，当仅使用身份级别损失（即 $L_{STFL}$ ）时，模型表现不佳，而当同时启用两个模态级别损失（即 $L_{MSEL}$ 和 $L_{MD}$ ）时，模型取得了最佳性能------在I2V任务中，Rank-1和mAP分别从68.2%和65.2%提高到71.1%和67.5%，在V2I任务中，Rank-1和mAP分别从63.8%和63.1%提高到67.0%和65.7%。这种现象充分验证了模态级别损失在增强模态不变特征学习中的核心作用，这与本文的动机一致。
表IV：不同损失对BUPTCampus数据集的影响。

|---------------|---------------|-------------|------|------|------|------|------|------|------|------|
| L_{\rm STFL} | L_{\rm MSEL} | L_{\rm MD} | 红外到可见光 |||| 可见光到红外 ||||
| L_{\rm STFL} | L_{\rm MSEL} | L_{\rm MD} | R@1 | R@5 | R@10 | mAP | R@1 | R@5 | R@10 | mAP |
| ✓ | - | - | 68.2 | 83.1 | 87.9 | 65.2 | 63.8 | 82.0 | 86.7 | 63.1 |
| ✓ | ✓ | - | 69.5 | 85.0 | 88.7 | 66.1 | 65.7 | 83.2 | 88.4 | 64.6 |
| ✓ | - | ✓ | 69.2 | 84.4 | 88.3 | 65.6 | 64.9 | 82.6 | 87.1 | 63.4 |
| ✓ | ✓ | ✓ | 71.1 | 86.0 | 89.1 | 67.5 | 67.0 | 84.4 | 89.1 | 65.7 |

E. 可视化分析

为了全面验证我们方法在跨模态视频行人重识别中的有效性，我们从多个角度进行了一系列可视化分析。

特征距离分布分析：为了验证我们方法在VVI-ReID任务中的判别能力，我们首先分析我们方法和基线（即预训练的CLIP）的距离分布。具体来说，我们计算属于同一身份的样本的类内距离和来自不同身份的样本的类间距离，并比较基线模型和我们所提方法之间的分布差异，实验结果如图5(a)-(b)所示。从这些子图中我们观察到，尽管基线可以部分分离类内距离和类间距离，但两种分布仍然存在显著重叠。相比之下，我们的方法在保持类内距离稳定性的同时显著增加了类间距离，从而产生了更大的均值差异 $\\delta$ 和更清晰的决策边界。这些结果表明，所提方法有效增强了跨模态表示的可分离性。

T-SNE可视化：为了进一步说明我们方法带来的特征判别性提升，我们随机选择几个身份，并使用t-SNE将高维特征嵌入到二维空间中进行可视化，如图5©-(d)所示。图5©展示了基线模型生成的特征分布。可以看出，尽管基线能够将同一模态同一身份的样本聚类，但它无法清晰地区分不同身份。此外，同一身份的RGB和IR样本仍然明显错位，反映出跨模态特征一致性不足。图5(d)显示了我们方法生成的特征分布。可以看出，我们的方法显著改善了同一身份的RGB-IR特征的聚合，形成了高度重叠的跨模态聚类。这一结果表明我们学习了更鲁棒的模态不变特征，并直接验证了SD和CMI模块的有效性。同时，不同身份的样本分离得更明显，有效避免了类别混淆。这些可视化为所提LSMRL显著增强了跨模态表示的判别性提供了有力证据。

(a) 基线

(b) 我们的方法

(c) 基线

(d) 我们的方法
图5：基线和我们的方法在BUPTCampus测试集上的距离和特征分布。(a-b) 类内距离（红色）和类间距离（绿色）的分布。类内和类间距离之间更大的分离证明了改进的模态对齐和判别性。(c-d) 通过T-SNE可视化相应的特征空间。此可视化中的每种独特颜色代表一个身份。可见光和红外模态分别用实心圆和三角形表示。

CAM可视化：图6展示了三种方法在可见光和红外模态下焦点区域的CAM可视化。从图中可以看出，基线模型表现出混乱的注意力分布，未能稳定地锁定行人的判别性身体部位（例如，躯干和四肢），因此在焦点区域建模方面存在显著局限性。这是因为基线无法有效感知时间特征，而且仅在可见光图像上预训练，无法高效处理红外数据。虽然VLD模型将其注意力范围缩小到行人身体区域，但仍然存在轻微的注意力扩散，我们推测这是由于缺乏跨模态交互和模态级别损失约束所致。通过有针对性的改进，所提方法能够将其注意力紧密集中在两种模态所有帧中的核心身份特征区域上，分布均匀且稳定，显示出增强的注意力一致性和语义对齐。
可见光
红外

图6：不同方法焦点区域的CAM可视化，较暖的颜色表示更强的身份相关注意力。

检索结果分析：图7展示了在BUPTCampus数据集上V2I和I2V任务中代表性查询的Rank-5检索结果，其中绿色/红色框表示正确/错误匹配。对于V2I任务，基线方法在所有三个查询中都表现出明显的错误匹配，尤其是在Rank-1结果中。相比之下，我们的方法实现了更准确的检索性能，从Rank-1到Rank-5的结果几乎都是正确匹配。在更具挑战性的I2V任务中，我们的方法仍然取得了更准确的检索结果。例如，基线仅在"查询3"上实现了正确的Rank-1匹配，而我们的方法在所有查询中都产生了正确匹配。总的来说，这些结果表明，我们的方法在具有挑战性的条件下一致地提高了跨模态检索的准确性和鲁棒性。

图7：在BUPTCampus数据集上V2I和I2V任务中一些查询的Rank-5检索结果，其中B/L表示基线方法。正确匹配用绿色框标记，错误匹配用红色框标记。

F. 计算复杂度分析

在本节中，我们分析所提方法的计算复杂度。如表V所示，我们的方法在计算复杂度方面表现出显著优势，尤其是在推理阶段。更具体地说，与基线相比，我们的方法略微增加了参数数量和计算复杂度。然而，与其他基于CLIP的方法相比，我们的方法（推理）需要更少的参数，并且以更少的推理开销实现了更优的性能。

除了呈现实验比较外，我们还进一步分析了单样本设置下每个模块的理论复杂度。基础视觉编码器与CLIP视觉编码器的前8层相同，因此不引入额外的计算开销。STG编码器基于CLIP视觉编码器的最后4层构建。Li等人 [26] 已经证明此操作是零成本的，同样不引入额外的计算开销。TPS编码器首先进行补丁平移，然后应用自注意力机制。由于平移后的样本与原始样本具有相同数量的令牌，其引入的额外计算开销为： $O(N\^{2}D)$ ，这里N是令牌数量，我们假设D表示特征维度。对于SD模块，它引入了单查询跨模态注意力，其计算复杂度为 $O(ND)$ 。CMI模块引入了一个额外的自注意力机制，其计算复杂度为 $O(N\^{2}D)$ 。从以上分析可以看出，我们的方法仅引入了有限的额外计算开销，同时实现了显著的性能提升。这种效率与性能的平衡充分证明了所提方法的有效性和实用性。
表V：不同方法计算成本的比较。

|----------|----------------|-------------------------|------|------|------|------|
| 方法 | 参数量/M | FLOPs/G | I2V || V2I ||
| 方法 | 参数量/M | FLOPs/G | R@1 | mAP | R@1 | mAP |
| Baseline | 86.17 | 14.18 $\^{\*}$ | 49.0 | 50.4 | 51.0 | 49.8 |
| TF-CLIP | 104.26(+18.09) | 15.16(+0.98) | 49.4 | 51.9 | 52.5 | 51.8 |
| VLD | 88.56(+2.39) | 14.21(+0.03) $\^{\*}$ | 65.3 | 63.5 | 65.8 | 63.0 |
| Ours(训练) | 91.29(+5.12) | 14.35(+0.17) $\^{\*}$ | - | - | - | - |
| Ours(推理) | 88.53(+2.36) | 14.19(+0.01) $\^{\*}$ | 71.1 | 67.5 | 67.0 | 65.7 |

表示结果由我们复现。

G. 参数分析

为了研究所提方法中关键设计选择的影响，我们进行了参数分析，重点关注三个关键参数：集成到CLIP视觉编码器中的STG层数、时序头比例（THR）值k/h以及超参数 $\\lambda$ 。

层数的影响：在保持其他组件固定的情况下，我们改变CLIP-ViT编码器中STG层的数量。如表VI所示，当STG应用于所有层（0-11）时，模型受到冗余的低层特征干扰，导致性能欠佳。随着我们将STG限制在更高层（例如（2--11）、（4--11），直至（8--11）），性能逐渐提高，这与我们的设计直觉一致，即STG更适用于在高层特征空间中捕获判别性的时空依赖关系。当STG限制在（8--11）层时取得了最佳结果：此配置避免了低层冗余，同时充分利用了STG在高层特征精化方面的能力。值得注意的是，超出此范围扩展STG覆盖范围（例如（10--11））会降低性能，因为它缩小了STG可以操作的高层特征范围。该分析验证了将STG有针对性地集成到高层（8--11）在特征精化和冗余抑制之间达到了最佳平衡。
表VI：关于STG层数和时序头比例在BUPTCampus数据集上的参数分析。

|---------|-----|------|------|------|------|------|------|------|------|
| 层数 | THR | 红外到可见光 |||| 可见光到红外 ||||
| 层数 | THR | R@1 | R@5 | R@10 | mAP | R1 | R@5 | R@10 | mAP |
| 0 - 11 | 1/2 | 39.9 | 58.4 | 64.0 | 36.3 | 35.9 | 54.5 | 62.5 | 33.8 |
| 2 - 11 | 1/2 | 53.5 | 76.8 | 82.2 | 53.5 | 51.0 | 73.8 | 80.3 | 50.3 |
| 4 - 11 | 1/2 | 64.2 | 80.8 | 85.8 | 61.0 | 60.9 | 80.5 | 85.6 | 59.8 |
| 6 - 11 | 1/2 | 64.2 | 80.8 | 85.8 | 61.0 | 60.9 | 80.5 | 85.6 | 59.8 |
| 8 - 11 | 1/2 | 71.1 | 86.0 | 89.1 | 67.5 | 67.0 | 84.4 | 89.1 | 65.7 |
| 10 - 11 | 1/2 | 68.2 | 86.0 | 90.2 | 66.0 | 68.4 | 83.6 | 87.9 | 65.1 |
| 8 - 11 | 1/1 | 67.2 | 85.6 | 89.5 | 65.3 | 66.6 | 84.0 | 87.9 | 64.1 |
| 8 - 11 | 1/3 | 66.3 | 85.1 | 88.1 | 65.6 | 66.4 | 83.2 | 87.3 | 63.4 |
| 8 - 11 | 1/4 | 67.4 | 84.1 | 88.1 | 65.2 | 66.2 | 82.6 | 86.3 | 63.8 |
| 8 - 11 | 1/5 | 67.1 | 84.5 | 89.3 | 63.9 | 66.8 | 82.0 | 85.7 | 62.7 |

时序头比例的影响：为了探索时序头比例对模型性能的影响，我们将STG编码器固定为在（8--11）层上运行，并将比例调整为1/1、1/2、1/3、1/4和1/5。如表VI所示，当时序头比例设置为1/2时，模型取得了最佳的整体性能。当比例偏离1/2时------无论是增加到1/1（所有头作为时序头）还是减少到1/3、1/4或1/5------性能都会持续下降。例如，比例为1/1导致I2V Rank-1下降3.9%，V2I Rank-1下降0.4%，而比例为1/5导致I2V mAP下降3.6%，V2I mAP下降3.0%。这表明，时序头和空间头之间的适当平衡至关重要：过多的时序头（比例1/1）会削弱模型捕获细粒度空间结构的能力，而时序头不足（比例 $\\leq$ 1/3）会限制时间动态的建模。因此，将时序头比例设置为1/2优化了空间结构精化和时间动态建模之间的权衡，从而最大化跨模态检索的准确性。

(a) $\\lambda_{1}$

(b) $\\lambda_{2}$

(c) $\\lambda_{3}$
图8：不同参数 $\\lambda_{1}$ 、 $\\lambda_{2}$ 和 $\\lambda_{3}$ 对BUPTCampus数据集的影响。

$\\lambda$ 的影响：图8展示了损失函数中使用的超参数 $\\lambda_{1}$ 、 $\\lambda_{2}$ 和 $\\lambda_{3}$ 的影响（在分析时固定其他两个参数）。这些实验在BUPTCampus数据集的红外到可见光评估上进行。如图8(a)所示， $\\lambda_{1}$ 的变化仅导致模型性能轻微波动，同时保持整体稳定性，表明模型对 $\\lambda_{1}$ 不敏感。在图8(b)中，模型在 $\\lambda_{2}=0.05$ 时达到最佳性能，并且随着 $\\lambda_{2}$ 的增加，模型性能呈现持续下降趋势，因此需要约束 $\\lambda_{2}$ 的值以避免过大。在图8©中，模型在 $\\lambda_{3}=0.5$ 时达到峰值性能，并在范围[0.5, 0.8]内表现稳定。综上所述，上述超参数的推荐值为： $\\lambda_{1}$ 设置为0.1， $\\lambda_{2}$ 设置为0.05， $\\lambda_{3}$ 设置为0.5。

V. 结论

在本文中，我们提出了一种新颖的语言驱动序列级别模态不变表示学习方法，该方法更高效、更有效地将视觉-语言模型CLIP扩展到VVI-ReID领域。通过集成三个互补模块：STFL、SD和CMI，LSMRL在保持计算效率的同时，实现了有效的时空特征提取、从粗到细的跨模态对齐以及判别性模态不变表示学习。具体来说，以最少的额外参数和计算开销，我们基于CLIP设计了STFL模块来提取视频序列的时空特征。然后，两种模态的时空特征被顺序输入到SD和CMI模块中，通过充分的跨模态交互捕获更具判别性和鲁棒性的序列级别模态不变表示。SD模块将模态共享的文本语义扩散到RGB和IR特征中以建立初步的跨模态一致性，而CMI模块利用双向跨模态自注意力来消除残余的模态差异并获得最终的模态不变表示。结合融合身份级别和模态级别损失的多损失系统，LSMRL增强了序列级别特征的判别性和模态不变性。在大规模VVI-ReID数据集上进行的大量实验表明，LSMRL优于SOTA方法，在Rank-1准确率和mAP上取得了显著改进，这表明预训练的视觉-语言大模型在提升ReID性能方面具有巨大潜力。

尽管所提出的LSMRL方法取得了优越的性能，但它仍存在以下局限性。首先，LSMRL基于粗粒度的骨干网络CLIP设计，使其难以有效对齐局部语义。其次，我们推断LSMRL获得的模态不变特征仍然包含模态特定信息，这会损害模型的判别能力并对VVI-ReID造成干扰。因此，在未来的工作中，我们将引入细粒度对齐技术并设计特征解耦网络，以进一步增强方法的判别能力和ReID性能。