【论文极速读】视频检索中的模态均衡方法

【论文极速读】视频检索中的模态均衡方法
FesianXu 20231206 at Baidu Search Team

前言

传统的视频搜索系统相关性部分主要以文本匹配为基础手段，在其中引入多模态向量容易收到『模态不均衡』的问题，论文[1]尝试对其进行解决，本文进行笔记。如有谬误请见谅并联系指出，本文遵守CC 4.0 BY-SA版权协议，转载请联系作者并注明出处，谢谢。

∇ \nabla ∇ 联系方式：

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号：机器学习杂货铺3号店

传统的视频搜索系统相关性部分主要以文本语义匹配/字面匹配为基本手段，其模型的输入基本上都是文本，并无视觉的语义向量。如果希望在这样一个纯文本的系统中加入视觉语义向量（此处的视觉语义向量可以是上游模型的产出，比如CLIP的产出），那么很容易遇到所谓的『模态不均衡』的问题，即是由于文本匹配更为简单（毕竟骨架网络都是基于文本进行过很多次迭代了），那么新引入的视觉语义向量就很容易在整个训练过程中被视为噪声，或者被忽视，其视觉本身的作用不容易建模出来。在论文[1]中，作者同样报告了这样一个现象，并且提出了通过『模态混洗（Modality-Shuffle）』的方法进行优化，整个框架被称之为MBVR （Modality-Balanced Video Retrieve）。如Fig 1.所示，对于一个文本-视觉成对的样本 < Q i , T i , V i > <Q_i, T_i, V_i> <Qi,Ti,Vi>，通过在batch内混洗视觉输入，得到难负样本 < Q i , T i , V j > , i ≠ j , i , j ∈ B <Q_i, T_i, V_j>, i \neq j, i,j \in \mathcal{B} <Qi,Ti,Vj>,i=j,i,j∈B，此时对于其文本检索 Q i Q_i Qi而言， Q i Q_i Qi和 T i T_i Ti是匹配的，但和视觉 V j V_j Vj不匹配，通过这种方法构建出的难负样本，有利于加强视觉特征的作用力度。

Fig 1. 模态混洗的方式构建出文本匹配，但是视觉不匹配的难负样本。

除此之外，作者还提出用动态margin去建模，不过笔者觉得并不关键，因此就不阐述了。从整体来看，其loss如公式(1-1)所示，其中的 L b i = L q m + L m q \mathcal{L}{bi} = \mathcal{L}{qm} + \mathcal{L}{mq} Lbi=Lqm+Lmq，表示Query-Doc匹配和Doc-Query匹配的损失， L v \mathcal{L}{v} Lv表示 < Q i , V i > <Q_i, V_i> <Qi,Vi>的匹配损失，同理 L t \mathcal{L}{t} Lt表示了 < Q i , T i > <Q_i, T_i> <Qi,Ti>的匹配损失，而 L m s \mathcal{L}{ms} Lms即是通过模态混洗构建难负样本带来的损失，如公式(1-2)所示，其中的 M m s \mathcal{M}_{ms} Mms表示构建出来的模态混洗负样本。

L = L b i + α L v + β L t + γ L m s (1-1) \mathcal{L} = \mathcal{L}_{bi} + \alpha \mathcal{L}_v + \beta \mathcal{L}t + \gamma \mathcal{L}{ms} \tag{1-1} L=Lbi+αLv+βLt+γLms(1-1)

L m s = − log ⁡ exp ⁡ ( s ( q , m ) / τ ) exp ⁡ ( s ( q , m ) / τ ) + ∑ m ^ ∈ M m s exp ⁡ ( s ( q , m ^ ) / τ ) (1-2) \mathcal{L}{ms} = -\log \dfrac{\exp(s(q,m)/\tau)}{\exp(s(q,m)/\tau)+\sum{\hat{m} \in \mathcal{M}_{ms}} \exp(s(q,\hat{m})/\tau)} \tag{1-2} Lms=−logexp(s(q,m)/τ)+∑m^∈Mmsexp(s(q,m^)/τ)exp(s(q,m)/τ)(1-2)

那么如何验证效果呢？作者进行了一些离线消融实验，并且进行了线上实验（该论文来自于快手，本方案应该是在线上进行了实验），均发现有所收益，这些常规指标就不在这里累述了。同时作者通过定向的分析，验证了模态混洗带来的优势，如公式(1-3)所示，作者定义了一个 R v t R_{vt} Rvt，其中的 F v , F t , F m \mathcal{F}_v,\mathcal{F}t,\mathcal{F}m Fv,Ft,Fm分别表示视觉、文本以及联合视觉文本模型的表征，那么 R v t R{vt} Rvt指数表示了视觉在该联合模型中，占据的重要程度与文本在该联合模型中占据的重要程度的比例，这个值越高表示了视觉在模型中地位越重。（注，此处的联合模型可表示为 L m = H ( F v , F t ) \mathcal{L}{m} = \mathcal{H}(\mathcal{F}_v,\mathcal{F}t) Lm=H(Fv,Ft)）
R v t = cos ⁡ ( F v , F m ) cos ⁡ ( F t , F m ) (1-3) R{vt} = \dfrac{\cos(\mathcal{F}_v, \mathcal{F}_m)}{\cos(\mathcal{F}_t, \mathcal{F}_m)} \tag{1-3} Rvt=cos(Ft,Fm)cos(Fv,Fm)(1-3)

在Fig 2 (a) 中，作者对基线模型和MBVR模型的 R v t R_{vt} Rvt分布的绘制，我们可以明显看出引入了MBVR之后，视觉特征在视文联合模型 H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)} H(⋅,⋅)中的作用力度更大了，同时作者在Fig 2 （b）和（c）中对比了正样本和难负样本在基线模型和MBVR模型中的打分分布变化，可以明显看出引入了MBVR模型之后，难负样本打分更低，和正样本打分分布产生了明显的变化。

Fig 2. (a) R值分布变化，引入了MBVR之后视觉的作用力度有明显提升；（b）基线模型中，正样本和难负样本区分度小，（c）引入了MBVR之后，正样本和难负样本有了明显的区分度。

笔者认为这篇论文对于工业界落地多模态特征还是具有一定指导意义的，模态不均衡的问题在实际落地过程中真实存在，作者提出的解决方法不失一种有效可行的手段，在构造MS难负样本这块，后续可以继续探索，构造一些更合适的难负样本应该是有一定收益空间的。同时，也可以引入类似于MLM的，某种跨模态mask机制，去建模模态间的关系，笔者认为同样可以缓解模态不均衡的问题。

Reference

1\]. Wang, Xun, et al. "Modality-Balanced Embedding for Video Retrieval." Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.