【论文极速读】视频检索中的模态均衡方法

【论文极速读】视频检索中的模态均衡方法
FesianXu 20231206 at Baidu Search Team

前言

传统的视频搜索系统相关性部分主要以文本匹配为基础手段,在其中引入多模态向量容易收到『模态不均衡』的问题,论文[1]尝试对其进行解决,本文进行笔记。如有谬误请见谅并联系指出,本文遵守CC 4.0 BY-SA版权协议,转载请联系作者并注明出处,谢谢。

∇ \nabla ∇ 联系方式:

e-mail: FesianXu@gmail.com

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用(https://www.zhihu.com/column/c_1265262560611299328)

微信公众号:机器学习杂货铺3号店


传统的视频搜索系统相关性部分主要以文本语义匹配/字面匹配为基本手段,其模型的输入基本上都是文本,并无视觉的语义向量。如果希望在这样一个纯文本的系统中加入视觉语义向量(此处的视觉语义向量可以是上游模型的产出,比如CLIP的产出),那么很容易遇到所谓的『模态不均衡』的问题,即是由于文本匹配更为简单(毕竟骨架网络都是基于文本进行过很多次迭代了),那么新引入的视觉语义向量就很容易在整个训练过程中被视为噪声,或者被忽视,其视觉本身的作用不容易建模出来。在论文[1]中,作者同样报告了这样一个现象,并且提出了通过『模态混洗(Modality-Shuffle)』的方法进行优化,整个框架被称之为MBVR (Modality-Balanced Video Retrieve)。如Fig 1.所示,对于一个文本-视觉成对的样本 < Q i , T i , V i > <Q_i, T_i, V_i> <Qi,Ti,Vi>,通过在batch内混洗视觉输入,得到难负样本 < Q i , T i , V j > , i ≠ j , i , j ∈ B <Q_i, T_i, V_j>, i \neq j, i,j \in \mathcal{B} <Qi,Ti,Vj>,i=j,i,j∈B,此时对于其文本检索 Q i Q_i Qi而言, Q i Q_i Qi和 T i T_i Ti是匹配的,但和视觉 V j V_j Vj不匹配,通过这种方法构建出的难负样本,有利于加强视觉特征的作用力度。

Fig 1. 模态混洗的方式构建出文本匹配,但是视觉不匹配的难负样本。

除此之外,作者还提出用动态margin去建模,不过笔者觉得并不关键,因此就不阐述了。从整体来看,其loss如公式(1-1)所示,其中的 L b i = L q m + L m q \mathcal{L}{bi} = \mathcal{L}{qm} + \mathcal{L}{mq} Lbi=Lqm+Lmq,表示Query-Doc匹配和Doc-Query匹配的损失, L v \mathcal{L}{v} Lv表示 < Q i , V i > <Q_i, V_i> <Qi,Vi>的匹配损失,同理 L t \mathcal{L}{t} Lt表示了 < Q i , T i > <Q_i, T_i> <Qi,Ti>的匹配损失,而 L m s \mathcal{L}{ms} Lms即是通过模态混洗构建难负样本带来的损失,如公式(1-2)所示,其中的 M m s \mathcal{M}_{ms} Mms表示构建出来的模态混洗负样本。

L = L b i + α L v + β L t + γ L m s (1-1) \mathcal{L} = \mathcal{L}_{bi} + \alpha \mathcal{L}_v + \beta \mathcal{L}t + \gamma \mathcal{L}{ms} \tag{1-1} L=Lbi+αLv+βLt+γLms(1-1)

L m s = − log ⁡ exp ⁡ ( s ( q , m ) / τ ) exp ⁡ ( s ( q , m ) / τ ) + ∑ m ^ ∈ M m s exp ⁡ ( s ( q , m ^ ) / τ ) (1-2) \mathcal{L}{ms} = -\log \dfrac{\exp(s(q,m)/\tau)}{\exp(s(q,m)/\tau)+\sum{\hat{m} \in \mathcal{M}_{ms}} \exp(s(q,\hat{m})/\tau)} \tag{1-2} Lms=−logexp(s(q,m)/τ)+∑m^∈Mmsexp(s(q,m^)/τ)exp(s(q,m)/τ)(1-2)

那么如何验证效果呢?作者进行了一些离线消融实验,并且进行了线上实验(该论文来自于快手,本方案应该是在线上进行了实验),均发现有所收益,这些常规指标就不在这里累述了。同时作者通过定向的分析,验证了模态混洗带来的优势,如公式(1-3)所示,作者定义了一个 R v t R_{vt} Rvt,其中的 F v , F t , F m \mathcal{F}_v,\mathcal{F}t,\mathcal{F}m Fv,Ft,Fm分别表示视觉、文本以及联合视觉文本模型的表征,那么 R v t R{vt} Rvt指数表示了视觉在该联合模型中,占据的重要程度与文本在该联合模型中占据的重要程度的比例,这个值越高表示了视觉在模型中地位越重。(注,此处的联合模型可表示为 L m = H ( F v , F t ) \mathcal{L}{m} = \mathcal{H}(\mathcal{F}_v,\mathcal{F}t) Lm=H(Fv,Ft))
R v t = cos ⁡ ( F v , F m ) cos ⁡ ( F t , F m ) (1-3) R
{vt} = \dfrac{\cos(\mathcal{F}_v, \mathcal{F}_m)}{\cos(\mathcal{F}_t, \mathcal{F}_m)} \tag{1-3} Rvt=cos(Ft,Fm)cos(Fv,Fm)(1-3)

在Fig 2 (a) 中,作者对基线模型和MBVR模型的 R v t R_{vt} Rvt分布的绘制,我们可以明显看出引入了MBVR之后,视觉特征在视文联合模型 H ( ⋅ , ⋅ ) \mathcal{H(\cdot, \cdot)} H(⋅,⋅)中的作用力度更大了,同时作者在Fig 2 (b)和(c)中对比了正样本和难负样本在基线模型和MBVR模型中的打分分布变化,可以明显看出引入了MBVR模型之后,难负样本打分更低,和正样本打分分布产生了明显的变化。

Fig 2. (a) R值分布变化,引入了MBVR之后视觉的作用力度有明显提升;(b)基线模型中,正样本和难负样本区分度小,(c)引入了MBVR之后,正样本和难负样本有了明显的区分度。

笔者认为这篇论文对于工业界落地多模态特征还是具有一定指导意义的,模态不均衡的问题在实际落地过程中真实存在,作者提出的解决方法不失一种有效可行的手段,在构造MS难负样本这块,后续可以继续探索,构造一些更合适的难负样本应该是有一定收益空间的。同时,也可以引入类似于MLM的,某种跨模态mask机制,去建模模态间的关系,笔者认为同样可以缓解模态不均衡的问题。

Reference

[1]. Wang, Xun, et al. "Modality-Balanced Embedding for Video Retrieval." Proceedings of the 45th International ACM SIGIR Conference on Research and Development in Information Retrieval. 2022.

相关推荐
m0_7431064641 分钟前
【论文笔记】MV-DUSt3R+:两秒重建一个3D场景
论文阅读·深度学习·计算机视觉·3d·几何学
m0_7431064643 分钟前
【论文笔记】TranSplat:深度refine的camera-required可泛化稀疏方法
论文阅读·深度学习·计算机视觉·3d·几何学
Coovally AI模型快速验证4 小时前
MMYOLO:打破单一模式限制,多模态目标检测的革命性突破!
人工智能·算法·yolo·目标检测·机器学习·计算机视觉·目标跟踪
AI浩4 小时前
【面试总结】FFN(前馈神经网络)在Transformer模型中先升维再降维的原因
人工智能·深度学习·计算机视觉·transformer
可为测控4 小时前
图像处理基础(4):高斯滤波器详解
人工智能·算法·计算机视觉
old_power8 小时前
【PCL】Segmentation 模块—— 基于图割算法的点云分割(Min-Cut Based Segmentation)
c++·算法·计算机视觉·3d
PaLu-LI9 小时前
ORB-SLAM2源码学习:Initializer.cc⑧: Initializer::CheckRT检验三角化结果
c++·人工智能·opencv·学习·ubuntu·计算机视觉
听吉米讲故事10 小时前
DeepSeek R1发布综述:开源大语言模型的推理能力新标杆
人工智能·语言模型·自然语言处理
跟德姆(dom)一起学AI11 小时前
0基础跟德姆(dom)一起学AI 自然语言处理18-解码器部分实现
人工智能·python·rnn·深度学习·自然语言处理·transformer
清图11 小时前
Python 预训练:打通视觉与大语言模型应用壁垒——Python预训练视觉和大语言模型
人工智能·python·深度学习·机器学习·计算机视觉·自然语言处理·ai作画